Home » Biblioteca e tecnologia » Quanto da Web é preservado?

Esta é uma pergunta que pesquisadores da Universidade Old Dominion, na Virgínia, buscam descobrir. Michael L. Nelson, professor de ciência da computação, vem trabalhando desde setembro de 2010 com professores e alunos, com o fim de determinar o quanto da história da Web está sendo preservada em todo o mundo.

Foi utilizado um plug-in próprio, o Memento, objetivando encontrar versões antigas das páginas, em arquivos de Internet diferentes. Os URIs, Identificador Uniforme de Recursos, foram compilados a partir de várias fontes:

- caches do Google, Bing e Yahoo
- de um arquivo da Internet chamado Open Directory Project
- de um serviço de compartilhamento de links chamados Delicious
- do serviço de encurtamento Bitly.

Concluiu-se que de 35 a 90 % das páginas têm pelo menos uma cópia arquivada e que a chance de ser arquivada dependia da fonte. Por exemplo, os URIs coletados do Delicious eram muito mais susceptíveis de serem arquivados que os URIs do Bitly, contudo não é claro o que leva a este resultado.
Alexis Rossi, gerente de coleções web no Internet Archive, vê como interessante os esforços da universidade, porém, questiona taxas de arquivo para um quadro que se altera constantemente.

“É como um alvo móvel, pois a Web está se expandindo o tempo todo”.

“As pessoas estão chegando à conclusão de que se ninguém salva a Internet, seu trabalho será apenas algo do passado” e projeto deverá apontar a eficácia de bibliotecas de arquivos da web.
Para Michael, o estudo é mais um passo para a criação de uma experiência de navegação que liga o passado ao presente: onde os usuários podem reproduzir os eventos à medida que se desenrolava, como a cobertura jornalística do furacão Katrina em 2005 ou do massacre na Virgínia em 2007.

É bom observar que nos arquivos da web já existentes se permite uma navegação observando várias versões de um mesmo website, mas é comum observar poucas versões de um mesmo website. Isto se torna grave em fontes com bastante volume de atualizações, como os portais de notícias, webjornais, e redes sociais.

Neste aspecto, não vale apenas a informação principal – escrita, em áudio ou vídeo – mas também a linguagem não verbal dos websites, como o layout, que a metodologia de arquivamento da web permite preservar.

Um dia as buscas históricas se tornarão comuns e você nunca sabe o que vai ser importante em 100 ou 150 anos.

Mencionado no texto, o Internet Archive foi um dos vários arquivos utilizados no estudo, sendo o pioneiro em preservar a Web, desde 1996. Várias bibliotecas já somam esforços na preservação de websites, como a Biblioteca do Congresso Americano, Biblioteca Britânica, Biblioteca Nacional da Austrália, entre outras, além de arquivos não ligados diretamente a bibliotecas, como o Arquivo da Web Portuguesa (que teve seu primeiro esforço pela Biblioteca Nacional de Portugal).

Além da mudança constante do cenário da web, é necessário também observar que cada uma dela utiliza critérios diferenciados de seleção de conteúdo, e que vários arquivos não têm como objetivo a captura e preservação de toda a web ou de todo o domínio de um país. Neste caso, é complicado o uso de fontes públicas de URIs, como no caso do Delicious.

 

Partes deste texto é uma tradução da notícia publicada em http://chronicle.com/blogs/wiredcampus/old-dominion-u-researchers-ask-how-much-of-the-web-is-archived/32068 .


Leia também:
Web é fonte de informação mais popular nos EUA, diz pesquisa
Os jornais e seus suportes: papel, online, mobile, e-reader e e-Ink (papel eletrônico dobrável). Que...
Memória da web: o caso da British Library com o UK Web Archive
Portugueses fazem estudo científico para analisar comportamento dos utilizadores de um arquivo da We...
Memória via web archiving : RIO 2007

2 Respostas para “Quanto da Web é preservado?”

  1. este é um dos questionamento do Arquivista 2.0 ;)
    belo post, parabens por trazer dados cientificos ao debate

  2. Sempre que achar interessante um tópico e quiser discutir idéias pode usar o espaço dos comentários ou o twitter @bibliotecno …. é bom ver pessoas pensando no tema.

Deixe uma resposta

Twitter Users
Enter your personal information in the form or sign in with your Twitter account by clicking the button below.

Twitter Tweet This