Quanto è profondo il web Uno studio rivela che i documenti presenti sul web sono più di 500 volte rispetto a quelli censiti dai motori di ricerca
La società americana BrightPlanet ha presentato a metà luglio 2000 i risultati di un approfondito studio sulla quantità di documenti disponibili on-line, concludendo che esistono oltre 500 miliardi di singoli documenti in quello che viene definito deep web.
Il deep web è rappresentato da tutti questi siti accessibili attraverso dei moduli di ricerca e comunque non disponibili nell'attuale forma ai motori di ricerca tradizionali. Basti pensare che una ricerca effettuata nei primi mesi del 2000 dal NEC Research Institute insieme a Inktomi, indicava l'esistenza di un miliardo di documenti statici a cui oggi BrightPlanet contrappone la stima di un patrimonio informativo nascosto 500 volte più grande.
Questa imponente mole di documenti sarebbe racchiusa in oltre 100.000 siti che permettono di accedere dinamicamente ad informazioni strutturate nei propri archivi, ma che attualmente non sono visibili ai motori di ricerca i quali censiscono solo le singole pagine statiche dei siti, e cioè quelle che BrightPlanet definisce surface web.
L'uscita dello studio di BrightPlanet è stata anche l'occasione per presentare la tecnologia LexiBot che sarebbe in grado di scandagliare anche il deep web. LexiBot è infatti un software, definito search agent, in grado di effettuare delle ricerche on-line interrogando centinaia di archivi on-line.
LexiBot è già un software
disponibile sul mercato, attualmente solo in versione per Windows;
costa circa 90 dollari e ne è prevista anche una funzione trial.
Il programma si presenta molto flessibile ma con un'interfaccia
un po' fuori dall'ordinario. Le potenzialità di ricerca sono effettivamente
molto vaste, potendo accedere a ben 600 fonti da interrogare (che
peraltro prossimamente dovrebbero essere estese a diverse migliaia),
anche se i tempi di risposta sono piuttosto lunghi, almeno rispetto
all'operatività dei motori di ricerca tradizionali. Daltronde,
le ricerche gestite dal software, vengono tramutate in singole
richieste ai vari siti e archivi selezionati, e ciò richiede un
consistente tempo di elaborazione.
Ma torniamo allo studio sulle dimensioni del web, per capire meglio la composizione di questa babele di dati finora mai definita cosi' in dettaglio. Queste sono le principali categorie di siti del deep web:
- Archivi in genere: database medici, finanziari (come ad esempio la classificazione SEC), brevetti, ecc.; questa categoria rappresenta circa il 54% dell'intero deep web
- Siti aziendali consultabili mediante interrogazioni, come ad esempio Microsoft Knowledge
- Pubblicazioni in genere: libri, giornali, ecc.
- Annunci
- Portali
- Biblioteche, librerie
- Yellow/White pages e cataloghi del genere
L'elemento importante da sottolineare è che almeno il 95% del deep web è accessibile liberamente ai navigatori della Rete. Sul sito CompletePlanet sono riportati ben 22.000 siti, la maggior parte dei quali è praticamente invisibile ai tradizionali motori di ricerca. A titolo esemplificativo, questi sono alcuni dei siti pubblici che compongono il deep web:
| Fonte | Dimensioni archivio |
| National Climatic Data Cnter | 366.000 Gb |
| NASA | 219.000 Gb |
| National Oceanographic Data Center | 32.940 Gb |
| MP3.com | 4.300 Gb |
| Amazon | 461 Gb |
| Library Of Congress Online Catalog | 116 Gb |
E come se non bastasse, c'è da evidenziare che nel valutare le dimensioni del deep web, lo studio non ha volutamente considerato le reti intranet di organizzazioni ed aziende (alcune di queste accessibili pubblicamente) e soprattutto sembra aver analizzato solo fonti nord-americane. BrightPlanet ha comunque ribadito in modo concreto che i motori di ricerca censiscono solo una piccola parte di quello che esiste sul web. Questo fatto, pur essendo già noto, probabilmente non lo era in queste dimensioni.
E se il boom dei sistemi peer-to-peer, i quali permettono di condividere files tra singoli utenti della Rete (su cui si basa ad esempio Napster), sarà esteso verso un concetto di ricerche di informazioni e documenti, ci troveremo di fronte ad un ulteriore, incredibile, allargamento delle risorse a cui accedere dal nostro pc.
Mauro Lupi
Ad Maiora
settembre 2000
|