Arquivamento na web

Content

História e desenvolvimento

Embora a curadoria e a organização da Web sejam predominantes desde meados do final dos anos 90, um dos primeiros projetos de arquivamento na web em larga escala foi o Internet Archive, uma organização sem fins lucrativos criada por Brewster Kahle em 1996. O Internet Archive lançado Seu próprio mecanismo de pesquisa para visualizar conteúdo da Web arquivado, The Wayback Machine, em 2001. A partir de 2018, o Internet Archive abrigava 40 petabytes de dados. O Internet Archive também desenvolveu muitas de suas próprias ferramentas para coletar e armazenar seus dados, incluindo a Petabox para armazenar as grandes quantidades de dados de maneira eficiente e segura, e Heritrix, um rastreador da Web se desenvolveu em conjunto com as bibliotecas nacionais nórdicas. Outros projetos lançados na mesma época incluíram os arquivos da Web Pandora e da Tasmânia na Austrália e o Kulturarw3 da Suécia.

De 2001 a 2010, a [IWAW) [falhou a verificação] O Workshop Internacional de Arquivamento da Web (IWAW) forneceu uma plataforma para compartilhar experiências e trocar idéias. O International Internet Preservation Consortium (IIPC), estabelecido em 2003, facilitou a colaboração internacional no desenvolvimento de padrões e ferramentas de código aberto para a criação de arquivos da Web.

A agora extinta a Internet Memory Foundation foi fundada em 2004 e fundada pela Comissão Europeia, a fim de arquivar a Web na Europa. Este projeto desenvolveu e divulgou muitas ferramentas de código aberto, como "Captura de mídia rica, análise de coerência temporal, avaliação de spam e detecção de evolução da terminologia". Os dados da fundação agora estão alojados pelo Internet Archive, mas atualmente não estão acessíveis ao público.

Apesar do fato de não haver responsabilidade centralizada por sua preservação, o conteúdo da Web está se tornando rapidamente o registro oficial. Por exemplo, em 2017, o Departamento de Justiça dos Estados Unidos afirmou que o governo trata os tweets do presidente como declarações oficiais.

Coletando a Web

Os arquivistas da Web geralmente arquivam vários tipos de conteúdo da Web, incluindo páginas da Web HTML, folhas de estilo, JavaScript, imagens e vídeo. Eles também arquivam metadados sobre os recursos coletados, como tempo de acesso, tipo MIME e comprimento de conteúdo. Este metadado é útil para estabelecer autenticidade e proveniência da coleção arquivada.

Métodos de coleta

Veja também: Lista de iniciativas de arquivamento da web

Colheita remota

A técnica de arquivamento da Web mais comum usa rastreadores da Web para automatizar o processo de coleta de páginas da Web. Os rastreadores da Web normalmente acessam as páginas da Web da mesma maneira que os usuários com um navegador consulte a Web e, portanto, fornecem um método comparativamente simples de colheita remota do conteúdo da Web. Exemplos de rastreadores da web usados ​​para arquivamento da web incluem:

HeritrixHTTrackWget

Existem vários serviços gratuitos que podem ser usados ​​para arquivar recursos da Web "sob demanda", usando técnicas de rastreamento da web. Esses serviços incluem o Wayback Machine e Webcite.

Arquivamento do banco de dados

O arquivamento do banco de dados refere-se a métodos para arquivar o conteúdo subjacente dos sites orientados ao banco de dados. Normalmente, requer a extração do conteúdo do banco de dados em um esquema padrão, geralmente usando XML. Uma vez armazenados nesse formato padrão, o conteúdo arquivado de vários bancos de dados pode ser disponibilizado usando um único sistema de acesso. Essa abordagem é exemplificada pelas ferramentas DeepCarc e Xinq desenvolvidas pela Bibliothèque Nationale de France e pela Biblioteca Nacional da Austrália, respectivamente. O DeepCarc permite que a estrutura de um banco de dados relacional seja mapeada para um esquema XML e o conteúdo exportado para um documento XML. O XINQ permite que esse conteúdo seja entregue online. Embora o layout e o comportamento originais do site não possam ser preservados exatamente, o XINQ permite que a funcionalidade básica de consulta e recuperação seja replicada.

Arquivamento transacional

O arquivamento transacional é uma abordagem orientada a eventos, que coleta as transações reais que ocorrem entre um servidor da Web e um navegador da Web. É usado principalmente como um meio de preservar evidências do conteúdo que realmente foi visto em um site específico, em uma determinada data. Isso pode ser particularmente importante para as organizações que precisam cumprir os requisitos legais ou regulatórios para divulgar e reter informações.

Um sistema de arquivamento transacional normalmente opera interceptando todas as solicitações HTTP e a resposta do servidor da Web, filtrando cada resposta para eliminar o conteúdo duplicado e armazenar permanentemente as respostas como formas de bits.

Dificuldades e limitações

Rastreadores

Os arquivos da web que dependem de rastreamento da web, pois seus principais meios de coletar a Web são influenciados pelas dificuldades de rastreamento da web:

The robots exclusion protocol may request crawlers not access portions of a website. Some web archivists may ignore the request and crawl those portions anyway.Large portions of a web site may be hidden in the Deep Web. For example, the results page behind a web form can lie in the Deep Web if crawlers cannot follow a link to the results page.Crawler traps (e.g., calendars) may cause a crawler to download an infinite number of pages, so crawlers are usually configured to limit the number of dynamic pages they crawl.Most of the archiving tools do not capture the page as it is. It is observed that ad banners and images are often missed while archiving.

No entanto, é importante observar que um arquivo da Web de formato nativo, ou seja, um arquivo da Web totalmente navegável, com links de trabalho, mídia etc., só é realmente possível usando a tecnologia Crawler.

A Web é tão grande que rastejar uma parte significativa dela leva um grande número de recursos técnicos. A Web está mudando tão rápido que partes de um site podem mudar antes mesmo de um rastreador terminar de rastejá -lo.

Limitações gerais

Alguns servidores da Web estão configurados para retornar páginas diferentes para solicitações de arquiver da Web do que em resposta a solicitações regulares do navegador. Isso geralmente é feito para enganar os mecanismos de pesquisa para direcionar mais tráfego do usuário para um site e geralmente é feito para evitar a responsabilidade ou fornecer conteúdo aprimorado apenas para os navegadores que podem exibi -lo.

Os arquivistas da Web não apenas devem lidar com os desafios técnicos do arquivamento da Web, mas também devem enfrentar as leis de propriedade intelectual. Peter Lyman afirma que "embora a Web seja popularmente considerada um recurso de domínio público, é protegido por direitos autorais; assim, os arquivistas não têm direito legal de copiar a Web". No entanto, as bibliotecas nacionais em alguns países têm o direito legal de copiar partes da Web sob uma extensão de um depósito legal.

Alguns arquivos da Web sem fins lucrativos privados que são acessíveis ao público como webcite, o Internet Archive ou a Internet Memory Foundation permitem que os proprietários de conteúdo ocultem ou removam conteúdo arquivado ao qual eles não desejam que o público tenha acesso. Outros arquivos da Web são acessíveis apenas a partir de determinados locais ou têm uso regulamentado. A Webcite cita um processo recente contra o armazenamento em cache do Google, que o Google venceu.

Leis

Em 2017, a Autoridade Reguladora do Indústria Financeira, Inc. (FINRA), uma organização regulatória financeira dos Estados Unidos, divulgou um aviso declarando que todos os negócios que fazem comunicações digitais são necessários para manter um registro. Isso inclui dados do site, postagens de mídia social e mensagens. Algumas leis de direitos autorais podem inibir o arquivamento da web. Por exemplo, o arquivamento acadêmico da Sci-Hub fica fora dos limites da lei de direitos autorais contemporâneos. O site fornece acesso duradouro a trabalhos acadêmicos, incluindo aqueles que não possuem uma licença de acesso aberto e, assim, contribui para o arquivo de pesquisas científicas que, de outra forma, poderiam ser perdidas.

Veja também

Internet portal
Archive siteArchive Teamarchive.today (formerly archive.is)Collective memoryCommon CrawlDigital hoardingDigital preservationDigital libraryGoogle CacheList of Web archiving initiativesWikipedia:List of web archives on WikipediaMemento ProjectMinerva InitiativeMirror websiteNational Digital Information Infrastructure and Preservation Program (NDIIPP)National Digital Library Program (NDLP)PADICATPageFreezerPandora ArchiveUK Web arquivolvirtual Artifactwayback MachineWeb Crawlingwebcite