Red Hot Cyber
Sicurezza Informatica, Notizie su Cybercrime e Analisi Vulnerabilità

La Wayback Machine. La storia di 20 anni del web in un posto solo.

11 Dicembre 2021 18:03

Hai mai pensato al tuo sito web che avevi nei primi anni 2000?

Ti piacerebbe vederlo di nuovo?

Forse il tuo sito web è andato in crash, il tuo dominio è scaduto o inattivo e devi recuperare i contenuti per ricominciarlo a costruirlo di nuovo. Per quanto terribile sia tutto questo, potresti essere fortunato. Si chiama Internet Archive (https://archive.org/), ovvero una libreria di tutto il web creata da una organizzazione senza scopo di lucro dove vengono storicizzati tutti i siti web di internet.

In questo articolo ci concentreremo sulla Wayback Machine .

Cosa è la Wayback Machine

Wayback Machine ha archiviato miliardi di pagine dal web, da quando è nato il progetto nel 2001. Quindi, solo per divertimento, abbiamo pensato di “tornare indietro” e dare un’occhiata ad un famoso motore di ricerca italiano, www.virgilio.it per riscoprirlo assieme ed entrare nella camera dei “ricordi”.

Semplicemente digitando il nostro URL all’interno della wayback machine, nella casella di ricerca, siamo in grado di vedere (come indicato nella cronologia) tutta una serie di pagine che sono state archiviate nel tempo e disponibili tramite una apposita timeline per quello specifico dominio, appunto www.virgilio.it

B939cf De87db6b71d34c1084aa95620e4a1d44 Mv2
Come si presenta la wayback machine digitando un dominio

Andando a selezionare il 2005, avremo a disposizione tutte una serie di aggiornamenti effettuati del sito su base mensile.

Cliccando su un un dato giorno, è possibile vedere come si presentava il portale. Nel nostro caso abbiamo cliccato sul 6 luglio 2005 ed infatti abbiamo visualizzato la home page di www.virgilio.it come si presentava in quella remota giornata.

La cosa interessante è che cliccando sui link, è possibile navigare sul sito web, anche se solo in maniera statica in quanto (ovviamente), le pagine dinamiche non possono essere riprodotte.

B939cf 52d6ebe45cc441929c863a543be3acd4 Mv2

Un po’ di storia

Il servizio è stato fondata da Internet Archive, una biblioteca senza scopo di lucro con sede a San Francisco, in California, creato nel 1996 e lanciato al pubblico nel 2001.

I suoi fondatori, Brewster Kahle e Bruce Gilliat , hanno sviluppato la Wayback Machine per fornire un “accesso universale a tutta la conoscenza” preservando le copie archiviate delle pagine web defunte.

Dalla sua creazione nel 1996 ad oggi, sono state aggiunte all’archivio oltre 544 miliardi di pagine. Il servizio ha anche suscitato polemiche sul fatto che la creazione di pagine archiviate senza il permesso del proprietario, potesse costituire una violazione del copyright in determinate giurisdizioni.

Dal 1996 al 2001, le informazioni vennero conservate su nastro digitale, con Kahle che occasionalmente permetteva a ricercatori e scienziati di attingere al “goffo” database. Quando l’archivio ha raggiunto il suo quinto anniversario nel 2001, è stato svelato e aperto al pubblico in una cerimonia all’Università della California, a Berkeley.

Al momento del lancio della Wayback Machine, conteneva già oltre 10 miliardi di pagine archiviate. I dati sono archiviati in un grande cluster di nodi Linux di Internet Archive. I siti possono anche essere acquisiti manualmente inserendo l’URL di un sito Web nella casella di ricerca, a condizione che il sito Web consenta a Wayback Machine di “scansionarlo” e salvare i suoi dati.

La tecnologia

Il software è stato sviluppato per “scansionare” il Web e scaricare tutte le informazioni e i file di dati pubblicamente accessibili. Con lo sviluppo della tecnologia nel corso degli anni, la capacità di archiviazione della Wayback Machine è aumentata.

Nel 2003, dopo soli due anni di accesso pubblico, la Wayback Machine stava crescendo a una velocità di 12 terabyte/mese. I dati vengono archiviati su sistemi rack PetaBox progettati su misura dallo staff di Internet Archive.

Il primo rack da 100 TB è diventato pienamente operativo nel giugno 2004, anche se è apparso subito chiaro che avrebbero avuto bisogno di molto più spazio di archiviazione.

Internet Archive migrò la sua architettura di storage personalizzata su Sun Open Storage nel 2009 ospitato in un Datacenter nel campus di Sun Microsystems in California. A partire dal 2009, la Wayback Machine conteneva circa tre petabyte di dati e stava crescendo a una velocità di 100 terabyte ogni mese.

I penetration test

La WayBackMachine può anche essere utile per le attività di test di sicurezza manuali.

Poiché contiene il codice HTML non elaborato per i siti Web, è possibile iniziare a cercare ed estrarre elementi utili come i nomi dei parametri e provare a testarli.

Potrebbero ancora funzionare e potresti trovare delle informazioni utili, non più presenti, che possono darti delle utili indicazioni per un attacco mirato. Potresti infatti avere BURP in esecuzione mentre navighi in WayBackMachine ed estrarre informazioni utili. Ricorda, agli sviluppatori piace riutilizzare il codice!

WayBackMachine ha molti più dati archiviati di quanto le persone credano, si tratta solo di scorrere i dati per scoprire le parti importanti. Per riassumere, potrai trovare:

  • Vecchi endpoint che potrebbero essere ancora attivi;
  • Vecchi parametri che possono essere riutilizzati;
  • Qualsiasi cosa vecchia che sembri potrebbe essere stata interessante (API, ecc…).

Quindi la WayBackMachine entra a pieno titolo tra gli strumenti di information gathering.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300
La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella. Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.

Articoli in evidenza

Immagine del sitoCybercrime
Campagna di phishing su Signal in Europa: sospetto coinvolgimento di attori statali
Bajram Zeqiri - 07/02/2026

Le autorità tedesche hanno recentemente lanciato un avviso riguardante una sofisticata campagna di phishing che prende di mira gli utenti di Signal in Germania e nel resto d’Europa. L’attacco si concentra su profili specifici, tra…

Immagine del sitoInnovazione
Robot in cerca di carne: Quando l’AI affitta periferiche. Il tuo corpo!
Silvia Felici - 06/02/2026

L’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…

Immagine del sitoCybercrime
DKnife: il framework di spionaggio Cinese che manipola le reti
Pietro Melillo - 06/02/2026

Negli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…

Immagine del sitoVulnerabilità
Così tante vulnerabilità in n8n tutti in questo momento. Cosa sta succedendo?
Agostino Pellegrino - 06/02/2026

Negli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…

Immagine del sitoInnovazione
L’IA va in orbita: Qwen 3, Starcloud e l’ascesa del calcolo spaziale
Sergio Corpettini - 06/02/2026

Articolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…