Il Web Invisibile
A cura
di
Raffaele Galano
|
In un articolo
di Mauro Lupi presente in questo stesso sito abbiamo cercato
di spiegare che cosa s'intende per "Deep Web" e quale
sia la mole di informazioni relamente presente in Rete, quindi
quale sia la sua dimensione totale.
Ma esiste una parte del Web che rimane tutt'oggi accessibile
solamente secondo particolari modalità e punti d'ingresso
e che sempre più velocemente cerca di essere integrata
dalle risorse deputate alla ricerca d'informazioni in Rete.
Il Cosiddetto "Web Invisibile" diventa quindi
sempre più visibile e navigabile.
Normalmente vengono utilizzati i motori di ricerca per cercare
in Rete ma dobbiamo riconoscere che ancora non è possibile
reperire tutta l'informazione attraverso questi strumenti obiettivamente
limitati: ne rimane fuori una gran parte, sicuramente la maggior
parte.
Quale percentuale sia effettivamente conosciuta e reperibile e
quale non lo sia, non è facile stabilirlo: secondo lo studio
più esaustivo sulle dimensioni della Rete, svolto dall'organizzazione
del South Dakota BrightPlanet
nel 2000, esisterebbero oltre 550 miliardi di documenti e
se pensiamo che Google ne indicizza correntemente poco meno di
2 miliardi, la percentuale sembra inferiore all'1%!
|
Search Engine
|
Stima
(milioni)
|
Dichiarano
(milioni)
|
| Google |
968
|
1,500
|
| WiseNut |
579
|
1,500
|
| AllTheWeb |
580
|
507
|
| Northern Light |
417
|
358
|
| AltaVista |
397
|
500
|
| Hotbot |
332
|
500
|
| MSN Search |
292
|
500
|
Fonte: Searchengineshowdown
I documenti teoricamente raggiungibili in Rete
sono quindi tantissimi e non tutti sotto forma di pagine html.
Inoltre tutti i motori di ricerca necessitano di tempi tecnici
per l'indicizzazione delle pagine, per cui al momento della
nostra ricerca i documenti indicizzati saranno sempre minori
e/o diversi da quelli effettivamente presenti in Rete. Anche
secondo più ottimistiche analisi che ritagliano dalla
Rete solo quello che noi chiamiamo Web, lasciando quindi fuori
sotto-reti o protocolli diversi dall'HTTP, i motori non riescono
a catalogare una porzione superiore al 20%.
Cosa fanno i motori di ricerca più
conosciuti?
Google, da pioniere di altri
tempi, ha da molti mesi cominciato ad aggiungere al suo motore
la possibilità di indicizzare molti tipi di file diversi
dall'html, come le immagini (gif o jpg), i documenti
PDF, TXT, PostScript, quelli del pacchetto
Micrososft Office e altri formati in cui comunemente lavoriamo
tutti noi. Per onore di cronaca anche molte altre risorse includono
oggi formati di file diversi dal semplice HTML, ma Goggle
rimane quello che per primo li ha introdotti e costantemente amplia
la gamma di queste estensioni supportate, arrivando agli inizi
del 2002 a contare circa 2 miliardi di documenti.
Partecipa quindi a rendere costantemente più ampio il database
che rappresenta per noi l'intero Web: dipende infatti da com'è
strutturato il sofware di indicizzazione del motore di ricerca
se alcuni link a particolari documenti possono essere seguiti,
raccogliendo e catalogando le informazioni necessarie a renderli
disponibili alle successive ricerche.
Dobbiamo ricordare, inoltre, che molti siti ricchissimi di informazioni
prevedono un accesso dinamico ai contenuti: un ingresso personalizzato
al database, tramite cookies o password. I motori non possono
accedere a queste pagine e non è certo interesse di questi
siti rendere più agevole la reperibilità dei loro
contenuti on-line.
Sempre più siti, agli inizi del 2002, hanno introdotto
una forma di pagamento e comunque una registrazione, quindi una
protezione ai loro siti o almeno ad una parte degli stessi, per
motivi di sicurezza oppure come fonte di profitto.
Ricordiamo il NewYork
Times, che prevede la registrazione (gratuita)
per accedere ai contenuti degli articoli ed anche La
Repubblica che, dietro abbonamento mensile, consente
la lettura dell'intero quotidiano, la possibilità di stamparlo
e l'accesso ad ulteriori approfondimenti.
I motori e le directory del Web lavorano per aggiungere la possibilità
di reperire sempre nuovi formati di file, sulla scia di Google,
ma cercano nel contempo di creare dei punti d'incontro fra il
Web visibile e facilmente indicizzabile e quello invisibile.
AltaVista: ha creato ed inserito
nel database alcuni link che puntano direttamente alle migliori
risorse del deep-web e che sono inseriti fra i possibili
risultati delle nostre query. Sono siti che non possono essere
indicizzati dai motori di ricerca per diversi motivi ma che AltaVista
ha deciso di rendere in qualche modo disponibili, facendoli emergere
almeno di qualche livello dalle profondità della Rete.
Google: l'archivio d'immagini
ha superato i 330 milioni di file, mentre sono on-line oltre 700
milioni di messaggi dei newsgroup (il database è stato
aggiornato al 1981!); permette la ricerca all'interno di oltre
600 cataloghi
di Outlet Off-line, come l'Ikea o il negozio del Metropolitan
Museum, scansionati e indicizzati con un sistema di riconoscimento
ottico.
Per accedere al "Web sommerso" e nascosto ai
motori di ricerca, sono nati alcuni siti/database specializzati,
che ne rendono più semplice la navigazione, catalogando
i siti in categorie e sotto-categorie. In pratica sono strumenti
di precisione, delle "trivelle" del Web che per alcuni
aspetti possono andare più in profondità di quanto
possa fare un motore di ricerca classico, ma necessitano di qualche
sforzo in più da parte del navigatore. Risorse conosciute
sono:
-
Invisible-Web una directory che raccoglie oltre 1000 siti
in una lista delle migliori risorse del "Web invisibile"
- MoreOver
che permette di ricercare le ultimissime informazioni per diversi
e particolari settori, raccolte dai suoi spider in oltre 2000
fonti.
- Infomine
raccoglie oltre 23.000 risorse accademiche di grande valore
- Resource
Discovery Network dove molti professori, professionisti
e organizzazioni partecipano alla raccolta e catalogazione di
fonti importanti per la ricerca, l'apprendimento o l'insegnamento.
Raffaele Galano
Ad Maiora
Maggio 2002
|