Os dados têm duas maneiras de serem criadas ou feitas. O primeiro é o que é chamado de 'dados capturados' e é encontrado através de investigação ou análise intencional. O segundo é chamado de "dados de escape" e é coletado geralmente por máquinas ou terminais como uma função secundária. Por exemplo, caixas registradores, smartphones e speedômetros cumprem uma função principal, mas podem coletar dados como uma tarefa secundária. Os dados exaustivos geralmente são muito grandes ou de pouco uso para processar e se tornam 'transitórios' ou jogados fora.
Na computação, os dados brutos podem ter os seguintes atributos: pode conter erros humanos, de máquina ou instrumento, pode não ser validado; Pode estar em diferentes formatos de área (coloquial); não codificado ou não formado; ou algumas entradas podem ser "suspeitas" (por exemplo, outliers), exigindo confirmação ou citação. Por exemplo, uma folha de entrada de dados pode conter datas como dados brutos de várias formas: "31 de janeiro de 1999", "31/01/1999", "31/1/99", "31 Jan" ou "Today". Uma vez capturados, esses dados brutos podem ser processados armazenados como um formato normalizado, talvez uma data juliana, para facilitar a interpretação de computadores e humanos durante o processamento posterior. Dados brutos (às vezes coloquialmente chamados de dados de "fontes" ou dados "eggy", este último uma referência aos dados que estão sendo "não cozidos", isto é, "não processados", como um ovo cru) são a entrada de dados para o processamento. Uma distinção é feita entre dados e informações, no sentido de que as informações são o produto final do processamento de dados. Os dados brutos que foram submetidos ao processamento são às vezes chamados de dados "cozidos" em um sentido coloquial. [Dúbio - discuta] Embora os dados brutos tenham o potencial de serem transformados em "informação", extração, organização, análise e formatação para a apresentação sejam exigido antes que os dados brutos possam ser transformados em informações utilizáveis.
Por exemplo, um terminal de ponto de venda (terminal POS, uma caixa registradora computadorizada) em um supermercado ocupado coleta enormes volumes de dados brutos todos os dias sobre as compras dos clientes. No entanto, essa lista de itens de supermercado e seus preços e a hora e a data da compra não produzem muita informação até que sejam processados. Uma vez processado e analisado por um programa de software ou mesmo por um pesquisador usando uma caneta e papel e uma calculadora, esses dados brutos podem indicar os itens específicos que cada cliente compra, quando os compra e a que preço; Além disso, um analista ou gerente pode calcular as vendas totais médias por cliente ou as despesas médias por dia da semana a hora. Esses dados processados e analisados fornecem informações para o gerente, que o gerente poderia usar para ajudá -la a determinar, por exemplo, quantos caixas contratam e em que momentos. Essas informações podem se tornar dados para processamento adicional, por exemplo, como parte de uma campanha de marketing preditiva. Como resultado do processamento, os dados brutos às vezes acabam sendo colocados em um banco de dados, o que permite que os dados brutos se tornem acessíveis para processamento e análise adicionais de várias maneiras diferentes.
Tim Berners-Lee (inventor da World Wide Web) argumenta que o compartilhamento de dados brutos é importante para a sociedade. Inspirado em um post de Rufus Pollock da Open Knowledge Foundation, seu chamado à ação é "dados brutos agora", o que significa que todos devem exigir que governos e empresas compartilhem os dados que coletam como dados brutos. Ele ressalta que "os dados levam uma quantidade enorme do que acontece em nossas vidas ... porque alguém pega os dados e faz algo com eles". Para Berners-Lee, é essencialmente a partir desse compartilhamento de dados brutos, que os avanços na ciência surgirão. Os advogados dos dados abertos argumentam que uma vez que os cidadãos e as organizações da sociedade civil tenham acesso a dados de empresas e governos, eles permitirão que cidadãos e ONGs façam sua própria análise dos dados, que podem capacitar pessoas e sociedade civil. Por exemplo, um governo pode afirmar que suas políticas estão reduzindo a taxa de desemprego, mas um grupo de defesa da pobreza pode poder fazer com que seus econometrinhos de sua equipe façam sua própria análise dos dados brutos, o que pode levar esse grupo a tirar conclusões diferentes sobre os dados definir.