Ordem na casa – Estruturação de Dados

Nada melhor do que um endereço bem descrito que pode ser facilmente jogado no Google Maps ou de uma estante com os livros em ordem alfabética não é mesmo? Pois com informações a regra também não é diferente. Continuando o assunto sobre Big Data é hora de falarmos sobre “Dados estruturados” vs “Dados não estruturados”.

Estudos apontam que, atualmente, 80% do conteúdo gerado em uma empresa normal é do tipo não estruturado. Isso acaba fazendo com que a empresa tenha uma “visão mais turva” dos seus processos internos e das atividades dos seus colaboradores. O que pode esconder diversos gargalos de produtividade…

sensor gerando dadosMais do que uma área de trabalho repleta de ícones de arquivos que só um funcionário consegue entender, com um número crescente de sensores, dispositivos e acessórios conectados e gerando dados é necessário mais do que um SGBD (Sistema de Gerenciamento de Banco de Dados).

Dados Estruturados

modelos de documentos de dados

A definição de “Dados estruturados” é recebida não por um atributo da informação em si, mas sim, da forma como é gerida, ou seja, se ela possui uma organização que permite que seja recuperada. Geralmente estão estruturados em blocos semânticos, com algum sistema de agrupamento e catalogação que os atribuem descrições (atributos). Dentro de um SGBD são chamados de Dados Estruturados pois tem uma mesma estrutura de representação projetada previamente.

Mesmo não sendo a maior parcela do conteúdo produzido nas empresas eles sempre existiram, desde uma planilha financeira para controle das folhas de pagamento até um estoque com seus espaços endereçados e com o registro de volume ocupado/disponível. E geralmente foram as melhores ferramentas para levantamentos de dados para tomadas de decisão.

Dados não estruturados

desktop poluidoImagine um diretório de um computador (ao qual atribuímos o nome de pasta), considere que, juntos ali, existem documentos de texto, planilhas, fotos músicas, todos juntos. Piore a situação imaginando que os arquivos não têm nomes que os caracterizem, ou mesmo, que façam referência ao seu conteúdo (Doc01, Documento, Planilha de cálculo, Vid001). Pronto! Você tem um conjunto de dados não estruturados.

Nessa condição, fica inviável categorizar os documentos de texto e as planilhas por todo o seu conteúdo e relacioná-los com contextos, assuntos, números, entre outras informações. No caso de arquivos de mídia como músicas ou vídeos a situação torna-se mais grave ainda. Indo mais longe, pense numa rede social, onde, de acordo com o seu humor ou diversos outros motivos, as pessoas compartilham fatos da sua vida, fotos, frases, pensamentos de autores renomados…. É humanamente impossível categorizar tudo isso.

Dados semiestruturados

Há quem afirme que dados ditos “não estruturados” possuem sim uma estruturação intrínseca. E a realidade da internet vem mostrando cada vez mais isso. Arquivos de imagem como a extensão .jpg permitem a anexação de várias informações sobre a sua criação, autoria, dentre outras. São os chamados Metadados. Assim como nos não estruturados os semiestruturados não tem um esquema pré-definido.

Mas em compensação, mesmo irregular, eles possuem uma estrutura, que fica embutida nos dados, o que a torna extensa, porém, permite que ela seja evolutiva (adequa-se com o conteúdo). Geralmente é necessário que os dados sejam analisados para que, posteriormente, sua estrutura seja identificada. As extensões XML (eXtensible Markup Language) e RDF (Resource Description Framework) são exemplos desta condição.

By João Victor

 

João Victor é Analista de N.O.C. na FaleOlá, Designer, e aficionado por projetos e soluções