Contents

A máquina Wayback definitiva

/images/archivebox-salva-copia-pagine-siti-web.jpg -Negócios

A Web oferece um volume ilimitado de informações úteis para o seu negócio ou profissão. O problema é preservar esses dados e controlá-los para que não sejam perdidos. Os conteúdos publicados online são por definição dinâmicos: o autor pode modificá-los como desejar, removê-los ou podem ser eliminados, por exemplo, porque o fornecedor de serviços de alojamento já não é pago. Arquivo da Internet é a memória da Web há quase três décadas. É uma iniciativa que arquiva e oferece acesso a uma ampla gama de informações publicadas online.

Conforme explicamos em um artigo dedicado ao que é Internet Archive, o serviço permite salvar páginas da web ao longo do tempo, geralmente mantendo múltiplas cópias. Dessa forma, por exemplo, você pode ver como um único conteúdo ou um site inteiro muda ao longo do tempo. As cópias dos sites armazenadas e mantidas pelo Internet Archive geralmente também são “navegáveis”: significa que é possível navegar entre as páginas de um site (mesmo quando ele não existe mais…), como apareceu há algum tempo, clicando nos links (hiperlinks) presentes na página.

A Wayback Machine é uma ferramenta versátil capaz de recuperar uma ampla gama de informações além da finalidade designada. Conforme evidenciado pelo caso em que nossa equipe encontrou dificuldade em localizar o Windows 7 Starter ISO; através de um exame meticuloso da procedência e da assinatura criptográfica do arquivo, o conteúdo procurado foi descoberto com sucesso.

Crie seu próprio arquivo da Internet: como salvar páginas da Web com ArchiveBox

Um pouco como faz o Internet Archive (esta era a página inicial do Google no final de 1998), ArchiveBox é uma solução que permite salvar páginas da web criando uma cópia delas. O software permite armazenar a página HTML juntamente com todos os elementos que a compõem em um meio local, por exemplo, localmente ou na nuvem.

Até algum tempo atrás, muitos usuários se referiam a ferramentas online para arquivar sites e fazer cópias das páginas. No ano passado, porém, algumas empresas começaram a reprimir. Para nos limitarmos apenas ao Reddit , a conhecida plataforma social passou a impedir o arquivamento de suas páginas por terceiros. Os sites que permitiam salvar conteúdos publicados no Reddit fecharam as portas e as informações anteriormente armazenadas pelos usuários desapareceram.

/images/archivebox-cose-come-funziona.png

Pode-se questionar a necessidade de utilizar uma solução de armazenamento on-line paga quando o software prontamente disponível oferece armazenamento gratuito e recursos de recuperação contínuos, ao mesmo tempo que elimina o risco de perda de dados.

Se isso já aconteceu com você adiciona aos favoritos um recurso importante publicado na web e depois descobre que ele não está mais disponível, você sabe como isso pode ser frustrante.

O que é ArchiveBox e como funciona

O Internet Archive é um serviço excelente, mas, obviamente, não consegue manter rastros de todas as páginas publicadas na Web. Além disso, apenas a título de exemplo, não consegue adquirir o Facebook. Você pode solicitar manualmente para começar a armazenar um conjunto de conteúdos: o procedimento falha, porém, se o arquivo robots.txt impedir as atividades de Web scraping.

O uso crescente de Javascript e conteúdo de vídeo incorporado também dificulta a aquisição de ativos e o armazenamento subsequente. Basta verificar como, ai sites arquivados no Internet Archive, falta grande parte da funcionalidade original.

ArchiveBox é uma ferramenta de código aberto projetada para funcionar como um sistema Coleção pessoal da web. Os usuários podem salvar uma cópia estática de uma página da web e todo o conteúdo associado. O aplicativo permite que você crie seu próprio arquivo pessoal, que pode ser posteriormente consultado mesmo que o conteúdo original se torne inacessível ou deva ser removido.

A instalação do ArchiveBox ocorre no seu próprio sistema local, em um NAS ou na nuvem, por exemplo, em uma máquina virtual adquirida para esse fim. Os usuários podem configurar o ArchiveBox especificando parâmetros como diretórios de arquivo, filtros de inclusão e exclusão e outros detalhes.

ArchiveBox baixa a página web e todo o seu conteúdo (HTML, CSS, JavaScript, imagens,…) e os salva localmente. Este processo cria uma cópia estática da página web no momento em que ela é arquivada. Periodicamente, uma atualização de arquivo pode ser realizada para garantir que as páginas da web ainda estejam acessíveis e atualizadas. O aplicativo gerencia de forma independente as atualizações e a remoção de conteúdo obsoleto.

Onde e como instalar o ArchiveBox

Uma das principais vantagens do ArchiveBox é a possibilidade de instalação em um grande número de plataformas: é compatível com gerenciamento via gerenciador de pacotes, em todas as principais distribuições Linux. Portanto, também pode ser instalado em um servidor NAS, cujo funcionamento – como se sabe – geralmente é baseado no kernel Linux.

Como alternativa, independentemente da plataforma usada (Linux, Windows, macOS), você pode usar o Docker Compose para carregar e executar o ArchiveBox em formato contêiner.

Docker Compose é uma ferramenta que facilita a definição e execução de aplicativos Docker multi-container. Graças ao Docker, assim como outras aplicações, o ArchiveBox é “empacotado” – junto com todos os seus componentes e dependências – em um ambiente isolado do resto do sistema (o container , precisamente).

Para iniciar o processo de instalação utilizando o Docker Compose, é pré-requisito garantir que o Docker e o aplicativo desejado estejam instalados em seu dispositivo de computação. Para iniciar o procedimento de configuração, siga estas etapas na interface da linha de comando:

caixa de arquivo mkdir &&
caixa de arquivo do cd &&
curl-O’https://raw.githubusercontent.com/ArchiveBox/ArchiveBox/dev/docker-compose.yml'&&
docker compose executar archivebox init–setup

Os dois primeiros comandos criam uma pasta chamada archivebox e acessam-na para então iniciar o download do arquivo de instalação e configuração docker-compose.yml. O último comando inicializa o ArchiveBox e configura o ambiente de trabalho. Este é um conjunto de tarefas que envolve a criação de arquivos, configuração de variáveis ​​de ambiente e outras tarefas necessárias para preparar a aplicação.

Utilizar o comando Docker Compose “docker compose up” inicia a execução dos serviços descritos no arquivo “docker-compose.yml”. Ao executar este comando, os contêineres são criados e carregados de acordo para cada serviço especificado no arquivo Docker Composition. Ao utilizar o ArchiveBox, pode-se acessar diretamente o aplicativo da web abrindo seu navegador padrão e digitando “http://localhost:8000” como o URL na barra de endereço para começar a usar o sistema de gerenciamento de arquivos baseado na web.

Alternativamente, pode-se optar por navegar pelos segmentos individuais da seção Quickstart para obter diretrizes detalhadas relativas ao processo de instalação do ArchiveBox em um ambiente específico. A título de ilustração, a orientação fornecida abrange um conjunto de comandos para implantar o ArchiveBox utilizando um sistema de gerenciamento de pacotes.

Como salvar páginas da web e torná-las pesquisáveis ​​localmente

Uma vez instalado o ArchiveBox, o botão Adicionar presente na barra superior da interface Web permite adicionar a lista de Páginas Web para salvar localmente.

O aplicativo permite especificar uma única URL da página a ser armazenada ou inserir, uma por linha, vários endereços separados. Desta forma, o ArchiveBox cria uma cópia de todas as páginas especificadas. Definindo 0 como profundidade (profundidade ), o ArchiveBox adquire apenas o conteúdo de cada URL indicada; caso contrário, você pode solicitar que o aplicativo siga todos os links da página (limitando-se a apenas um nível).

/images/salvare-pagine-web-archivebox.png

Para cada URL, o ArchiveBox baixa todo o conteúdo da página e permite acessar-com um simples clique-a cópia armazenada em local. A informação é acessível no seu formato original, em PDF , sendo possível obter apenas a lista de arquivos multimídia ou, novamente, acessar a fonte da página sem maiores referências. Há também uma captura de tela em formato PNG de cada página.

Além disso, você pode se beneficiar do formato Single-file HTML: é um pacote que mantém todos os elementos da página em um único container (HTML, CSS, JavaScript, arquivos multimídia,…). As Imagens são automaticamente codificadas em Base64 para serem gerenciáveis ​​dentro do mesmo arquivo.

ArchiveBox também integra tudo que você precisa para salvar vídeos junto com as respectivas descrições e dados importantes. Onde outros aplicativos falham, portanto, o ArchiveBox se oferece como um arquivista particularmente eficaz.

/images/archivebox-memorizzare-siti-web.png

Ainda utilizando a interface web, o ArchiveBox permite ao usuário procurar informações no arquivo e identificar o conteúdo que necessita. Também é possível exportar arquivos para que você possa compartilhá-los e torná-los acessíveis em outros dispositivos.

Nem é preciso dizer que o aplicativo também oferece uma CLI (interface de linha de comando) que permite gerenciar as informações do arquivo e adicionar novas usando a linha de comando.

Crédito da imagem de abertura: iStock.com – D3Damon

barra lateral inferior relacionada 300

*️⃣ Link da fonte:

Wayback Machine , Google no final de 1998 , [seções em Quickstart](https://archivebox.io/# quickstart) , D3Damon ,