Explosão de informação

Content

Padrões de crescimento

The world's technological capacity to store information grew from 2.6 (optimally compressed) exabytes in 1986 to 15.7 in 1993, over 54.5 in 2000, and to 295 (optimally compressed) exabytes in 2007. This is equivalent to less than one 730-MB CD-ROM per person in 1986 (539 MB per person), roughly 4 CD-ROM per person of 1993, 12 CD-ROM per person in the year 2000, and almost 61 CD-ROM per person in 2007. Piling up the imagined 404 billion CD-ROM from 2007 would create a stack from the Earth to the Moon and a quarter of this distance beyond (with 1.2 mm thickness per CD).The world's technological capacity to receive information through one-way broadcast networks was 432 exabytes of (optimally compressed) information in 1986, 715 (optimally compressed) exabytes in 1993, 1,200 (optimally compressed) exabytes in 2000, and 1,900 in 2007.The world's effective capacity to exchange information through two-way telecommunication networks was 0.281 exabytes of (optimally compressed) information in 1986, 0.471 in 1993, 2.2 in 2000, and 65 (optimally compressed) exabytes in 2007.

Uma nova métrica que está sendo usada na tentativa de caracterizar o crescimento em informações específicas de pessoa é o armazenamento de disco por pessoa (DSP), que é medido em megabytes/pessoa (onde megabytes são 106 bytes e é MB abreviado). O Global DSP (GDSP) é o espaço total de unidade de disco rígido (em MB) de novas unidades vendidas em um ano dividido pela população mundial naquele ano. A métrica GDSP é uma medida bruta de quanto armazenamento em disco poderia ser usado para coletar dados específicos da pessoa na população mundial. Em 1983, um milhão de unidades fixas com um total estimado de 90 terabytes foram vendidos em todo o mundo; As unidades de 30 MB tinham o maior segmento de mercado. Em 1996, 105 milhões de unidades, totalizando 160.623 terabytes foram vendidos com 1 e 2 impulsos de gigabytes liderando a indústria. Até o ano de 2000, com 20 GB liderando a indústria, as unidades rígidas vendidas para o ano são projetadas para totalizar 2.829.288 terabytes rígidos vendas de unidades de disco para o topo de US $ 34 bilhões em 1997.

De acordo com Latanya Sweeney, há três tendências na coleta de dados hoje:

Tipo 1. Expansão do número de campos que estão sendo coletados, conhecidos como a tendência "coletar mais".

Tipo 2. Substitua uma coleção de dados agregados existente por uma tendência específica da pessoa, conhecida como "coletar especificamente".

Tipo 3. Reúna as informações iniciando uma nova coleta de dados específica de pessoa, conhecida como a tendência "Colete-as se puder".

Termos relacionados

Como as "informações" na mídia eletrônica são frequentemente usadas sinônimo de "dados", o termo explosão de informações está intimamente relacionado ao conceito de inundação de dados (também apelidado de Data Diluge). Às vezes, o termo inundação de informações também é usado. Tudo isso basicamente se resume à quantidade cada vez maior de dados eletrônicos trocados por unidade de tempo. A conscientização sobre quantidades não gerenciáveis de dados cresceu junto com o advento do processamento de dados cada vez mais poderoso desde meados da década de 1960.

Desafios

Embora a abundância de informações possa ser benéfica em vários níveis, alguns problemas podem ser motivo de preocupação, como privacidade, diretrizes legais e éticas, filtragem e precisão dos dados. A filtragem refere -se a encontrar informações úteis no meio de tantos dados, relacionados ao trabalho dos cientistas de dados. Um exemplo típico de uma necessidade de filtragem de dados (mineração de dados) está em saúde, pois nos próximos anos deve ter EHRs (registros eletrônicos de saúde) dos pacientes disponíveis. Com tantas informações disponíveis, os médicos precisarão identificar padrões e selecionar dados importantes para o diagnóstico do paciente. Por outro lado, de acordo com alguns especialistas, ter tantos dados públicos disponíveis dificulta o fornecimento de dados que são realmente anônimos. Outro ponto a ser levado em consideração é as diretrizes legais e éticas, relacionadas a quem será o proprietário dos dados e com que frequência ele/ela é obrigado a liberar isso e por quanto tempo. Com tantas fontes de dados, outro problema será a precisão disso. Uma fonte não confiável pode ser desafiada por outros, solicitando um novo conjunto de dados, causando uma repetição nas informações. Segundo Edward Huth, outra preocupação é a acessibilidade e o custo de tais informações. A taxa de acessibilidade pode ser melhorada, reduzindo os custos ou aumentando a utilidade das informações. A redução dos custos, de acordo com o autor, pode ser feita por associações, que devem avaliar quais informações eram relevantes e reuni -las de maneira mais organizada.

Servidores da Web

Em agosto de 2005, havia mais de 70 milhões de servidores da Web. Em setembro de 2007 [atualização], havia mais de 135 milhões de servidores da Web.

Blogs

De acordo com a Technorati, o número de blogs dobra a cada 6 meses, com um total de 35,3 milhões de blogs em abril de 2006 [referência]. Este é um exemplo dos estágios iniciais do crescimento logístico, onde o crescimento é aproximadamente exponencial, já que os blogs são uma inovação recente. À medida que o número de blogs se aproxima do número de possíveis produtores (humanos), ocorre a saturação, o crescimento diminui e o número de blogs eventualmente se estabiliza.

Veja também

Big Datacurse of DimensionalityCombinatorial Explosiondata Mininginformation SocietyInformation AgeInformation Filtrando SystemMetCalfe LawneuroenhancementsEnd Metade do quadro de xadrez