Há 30 anos, o site archive.org mantém o acervo da

Imagem: s2-g1.glbimg.com

Há 30 anos, o site archive.org mantém o acervo da internet por meio da plataforma Wayback Machine, que guarda mais de um bilhão de páginas. A ferramenta é usada por jornalistas, pesquisadores e juristas para acessar conteúdos originais que foram alterados ou excluídos, mas enfrenta atualmente uma série de bloqueios de grandes veículos de comunicação.

Nos últimos meses, pelo menos 241 portais de notícias de nove países passaram a negar o acesso do Internet Archive aos seus conteúdos, segundo uma pesquisa da Nieman Foundation for Journalism, da Universidade de Harvard. Entre eles estão The Guardian (Reino Unido), New York Times (Estados Unidos), Le Monde (França) e USA Today (Estados Unidos).

A decisão das empresas jornalísticas ocorre pelo temor de que conteúdos arquivados sejam usados sem autorização para treinar modelos de inteligência artificial (IA), como os desenvolvidos por OpenAI e Google. O porta-voz do New York Times, Graham James, afirmou que o uso desses dados pela IA configura violação de direitos autorais e concorrência direta.

Dados indicam que robôs acessam o archive.org em grande volume, chegando a dezenas de milhares de consultas por segundo, o que sobrecarrega os servidores. O diretor do Wayback Machine, Mark Graham, informou à revista Wired que essa situação levou grandes editoras a bloquearem o acesso ao arquivo.

O Internet Archive, organização sem fins lucrativos sediada em São Francisco, se define como uma biblioteca digital aberta, com objetivo de oferecer acesso universal ao conhecimento a pesquisadores, historiadores e ao público em geral, sem restrições. A instituição evita bloquear rastreadores para manter essa missão, mas essa postura tem causado a perda de parceiros importantes no meio jornalístico.

A Electronic Frontier Foundation (EFF), organização que atua na defesa dos direitos digitais, comparou a atitude dos veículos de imprensa a um cenário em que um jornal proibisse bibliotecas de guardar cópias de seus periódicos. Desde que os bloqueios começaram, mais de 100 jornalistas assinaram uma petição em apoio à Wayback Machine, destacando sua importância para preservar a história jornalística.

Mark Graham, do archive.org, afirmou estar em diálogo com os veículos para buscar soluções que permitam restabelecer o acesso. Ele ressaltou que o crescente bloqueio dificulta a compreensão pública dos fatos e fragiliza o registro histórico da internet.

Para especialistas como o jornalista Martin Fehrensen, fundador do socialmedia watchblog.de, o archive.org é a única fonte funcional de preservação da web aberta atualmente. Ele avalia que a falta de acesso poderá comprometer pesquisas, referências da Wikipédia e evidências digitais valiosas para processos judiciais.

Fehrensen aponta que o conflito poderia ser resolvido com diálogos entre editores e o Internet Archive, estabelecendo uma separação técnica precisa entre o arquivamento e o uso dos dados para treinamento de IA — o verdadeiro ponto de tensão. A médio prazo, ele defende a criação de um status jurídico especial para arquivos digitais e, a longo prazo, a consolidação do arquivamento da internet como uma infraestrutura pública.

O Internet Archive enfrentou outras crises recentemente, como o roubo de 31 milhões de contas em ataque hacker em setembro de 2024 e a perda de um processo judicial contra grandes editoras por um programa de empréstimo de e-books. Apesar dessas derrotas, o bloqueio imposto pelos veículos de imprensa representa uma ameaça estrutural grave, que não pode ser resolvida por decisões judiciais isoladas.

O bloqueio progressivo mina a essência da Wayback Machine, que é manter um registro completo e acessível da internet pública. O futuro da preservação da memória digital dependerá do equilíbrio entre proteção dos direitos autorais, avanços da tecnologia e o compromisso com a transparência e o acesso à informação.

Palavras-chave relacionadas: archive.org, Wayback Machine, preservação da internet, bloqueio de conteúdo, direitos autorais, inteligência artificial, New York Times, internet aberta, memória digital, jornalismo, acesso à informação, organizações sem fins lucrativos, segurança digital.

Fonte: g1.globo.com

Imagem: s2-g1.glbimg.com


Fonte: g1.globo.com

Sair da versão mobile