Ciência ou gestão de dados – que tipos existem?

No contexto de ciência de dados e gestão de dados, normalmente fala-se dos tipos de dados segundo a sua estrutura e forma de armazenamento. Neste artigo vamos abordar o que são dados e que tipo de dados existem no contexto da ciência e gestão.


Os dados representam a realidade e, quando processados com propósito, transformam-se em informação. Dentro da ciência ou gestão de dados, há dados estruturados, semiestruturados e não estruturados, acompanhados de metadados técnicos, de negócio, operacionais e de uso.

O ciclo de vida dos dados envolve a sua criação, armazenamento, limpeza, análise, visualização, partilhe e eventual destruição.

Quais os tipos de dados?

Tal como referido, no contexto de ciência de dados e gestão de dados, os tipos de dados são classificados de acordo com a sua estrutura e forma de armazenamento. Os principais tipos são:

  • Dados Estruturados
  • Dados Não Estruturados
  • Dados Semi-estruturados
  • Metadados

Dados Estruturados

Os dados estruturados estão organizados em tabelas, linhas e colunas, como numa folha de Excel ou base de dados relacional. Por exemplo:

  • Registos de clientes (nome, idade, NIF, morada)
  • Transações financeiras
  • Inventário de produtos

Este tipo de dados são fáceis de armazenar, pesquisar e analisar com SQL, BI, estatística tradicional, etc.

Dados Não Estruturados

Os dados não estruturados não seguem propriamente um formato, uma estrutura. São exemplos:

  • Textos (emails, posts de redes sociais, artigos)
  • Imagens e vídeos
  • Áudio (gravações, podcasts)
  • Documentos PDF ou Word sem metadados definidos

Representam a maior parte dos dados existentes (~80-90%), mas exigem técnicas de IA, PLN ou visão computacional para extrair valor.

Dados Semi-estruturados

Este tipo de dados não têm a rigidez dos estruturados, mas possuem organização através de etiquetas ou hierarquias. São exemplos deste tipo de dados:

  • JSON
  • XML
  • Logs de servidores
  • Dados de sensores IoT com tags

Este tipo de dados são flexíveis e comuns em sistemas modernos, especialmente na integração entre aplicações.

Metadados

Quando falamos de Metadados, ou Metainformação, estamos a falar de dados sobre outros dados, ou seja, qualquer dado usado para auxiliar na identificação, descrição e localização de informações. São exemplos:

  • Data de criação de um ficheiro
  • Autor de um documento
  • Geolocalização numa fotografia

Como referido, dentro dos metadados existem também diversos tipos, dos quais se destacam metadados técnicos, de negócio, operacionais e de uso.

Este tipo de dados são fundamentais para catalogação, governança de dados e compliance.