Dados são registros brutos que ainda não foram processados ou interpretados. Eles não possuem significado por si só até serem organizados ou contextualizados.
Exemplo: Um número como 1500 por si só não diz nada. Mas se for colocado como “R$ 1500 EM VENDAS” ou “1500 ACESSOS EM UM SITE”, se torna informação.
TIPO | DESCRIÇÃO | EXEMPLO |
---|---|---|
Estruturados | Dados organizados em tabelas relacionais, com colunas e tipos definidos. | Planilhas Excel, Banco de Dados SQL (MySQL, PostgreSQL, Oracle). |
Semiestruturados | Não seguem um modelo tabular fixo, mas têm organização com tags ou chaves. | JSON, XML, YAML, arquivos de log. |
Não Estruturados | Dados sem formato ou esquema pré-definido. Difíceis de armazenar/tratar. | Imagens, vídeos, PDFs, áudios, postagens em redes sociais. |
Dado: Um fato bruto, isolado, sem interpretação. Pode estar certo ou errado, mas sozinho não gera compreensão. Exemplo: “Julho” ou 34.9
Informação: Quando um ou mais dados são organizados e colocados em contexto, tornam-se informação. Exemplo: Em julho, a temperatura média foi de 34.0ºC no Rio de Janeiro
Conhecimento: É o uso da informação para gerar entendimento, decisão e ação. É quando você interpreta e aplica a informação com base na experiência ou objetivo. Exemplo: “Como o mês de julho foi muito quente no Rio de Janeiro, decidimos aumentar o estoque de ventiladores.”
Conceito | Exemplo |
---|---|
Dado | 250 |
Informação | R$250 de lucro no mês de junho |
Conhecimento | Com base no lucro de R$250, é viável investir em um novo produto |
Na prática, os dados chegam em vários formatos, e o quem trabalha com dados precisa saber ler, transformar e armazenar corretamente cada um. Alguns exemplos:
CSV (Comma Separated Values): Arquivo de texto onde cada linha é um registro e os campos são separados por vírgulas (ou ponto e vírgula, dependendo da região). Fácil de abrir no Excel, pandas (Python), Power BI, etc.
JSON (JavaScript Object Notation): Usado principalmente em APIs e aplicações web. Representa estruturas de dados complexas, como listas e dicionários. Leve, fácil de manipular com bibliotecas em Python, JavaScript, etc.
XML (eXtensible Markup Language): Semelhante ao HTML, mas com foco em transmissão de dados entre sistemas. Muito usado em sistemas legados, bancos e ERPs.
SQL (Structured Query Language): Linguagem para consultar e manipular dados em bancos relacionais. Usada para buscar, inserir, atualizar e deletar dados.
Parquet: Formato colunar e compactado, ideal para Big Data e cloud. Altamente performático em consultas distribuídas (ex: Spark, AWS Athena, Google BigQuery). Usa menos espaço que CSV/JSON, e carrega mais rápido para leitura em massa.