MotoriDiRicerca.IT - homepage
Principali
Ricerche
Suggerimenti
Inserimento
motori di ricerca pagina precedente
Cerca sul sito:
Newsletter gratis! Scrivi la tua e-mail:
Cerca con Yahoo! Search
  Collegamenti
Notizie

Novità

Registrazione gratis
nei motori di ricerca


Libri sui
motori di ricerca


Statistiche e classifiche

Software gratuito

Che ne pensi del sito?

Dicono di noi

Pubblicità

Collegati al sito!

Il Web Invisibile


A cura di
Raffaele Galano

In un articolo di Mauro Lupi presente in questo stesso sito abbiamo cercato di spiegare che cosa s'intende per "Deep Web" e quale sia la mole di informazioni relamente presente in Rete, quindi quale sia la sua dimensione totale.

Ma esiste una parte del Web che rimane tutt'oggi accessibile solamente secondo particolari modalità e punti d'ingresso e che sempre più velocemente cerca di essere integrata dalle risorse deputate alla ricerca d'informazioni in Rete.
Il Cosiddetto "Web Invisibile" diventa quindi sempre più visibile e navigabile.

Normalmente vengono utilizzati i motori di ricerca per cercare in Rete ma dobbiamo riconoscere che ancora non è possibile reperire tutta l'informazione attraverso questi strumenti obiettivamente limitati: ne rimane fuori una gran parte, sicuramente la maggior parte.
Quale percentuale sia effettivamente conosciuta e reperibile e quale non lo sia, non è facile stabilirlo: secondo lo studio più esaustivo sulle dimensioni della Rete, svolto dall'organizzazione del South Dakota BrightPlanet nel 2000, esisterebbero oltre 550 miliardi di documenti e se pensiamo che Google ne indicizza correntemente poco meno di 2 miliardi, la percentuale sembra inferiore all'1%!

Search Engine
Stima
(milioni)
Dichiarano
(milioni)
Google
968
1,500
WiseNut
579
1,500
AllTheWeb
580
507
Northern Light
417
358
AltaVista
397
500
Hotbot
332
500
MSN Search
292
500


Fonte: Searchengineshowdown

I documenti teoricamente raggiungibili in Rete sono quindi tantissimi e non tutti sotto forma di pagine html. Inoltre tutti i motori di ricerca necessitano di tempi tecnici per l'indicizzazione delle pagine, per cui al momento della nostra ricerca i documenti indicizzati saranno sempre minori e/o diversi da quelli effettivamente presenti in Rete. Anche secondo più ottimistiche analisi che ritagliano dalla Rete solo quello che noi chiamiamo Web, lasciando quindi fuori sotto-reti o protocolli diversi dall'HTTP, i motori non riescono a catalogare una porzione superiore al 20%.

Cosa fanno i motori di ricerca più conosciuti?

Google, da pioniere di altri tempi, ha da molti mesi cominciato ad aggiungere al suo motore la possibilità di indicizzare molti tipi di file diversi dall'html, come le immagini (gif o jpg), i documenti PDF, TXT, PostScript, quelli del pacchetto Micrososft Office e altri formati in cui comunemente lavoriamo tutti noi. Per onore di cronaca anche molte altre risorse includono oggi formati di file diversi dal semplice HTML, ma Goggle rimane quello che per primo li ha introdotti e costantemente amplia la gamma di queste estensioni supportate, arrivando agli inizi del 2002 a contare circa 2 miliardi di documenti.
Partecipa quindi a rendere costantemente più ampio il database che rappresenta per noi l'intero Web: dipende infatti da com'è strutturato il sofware di indicizzazione del motore di ricerca se alcuni link a particolari documenti possono essere seguiti, raccogliendo e catalogando le informazioni necessarie a renderli disponibili alle successive ricerche.

Dobbiamo ricordare, inoltre, che molti siti ricchissimi di informazioni prevedono un accesso dinamico ai contenuti: un ingresso personalizzato al database, tramite cookies o password. I motori non possono accedere a queste pagine e non è certo interesse di questi siti rendere più agevole la reperibilità dei loro contenuti on-line.
Sempre più siti, agli inizi del 2002, hanno introdotto una forma di pagamento e comunque una registrazione, quindi una protezione ai loro siti o almeno ad una parte degli stessi, per motivi di sicurezza oppure come fonte di profitto.
Ricordiamo il NewYork Times, che prevede la registrazione (gratuita) per accedere ai contenuti degli articoli ed anche La Repubblica che, dietro abbonamento mensile, consente la lettura dell'intero quotidiano, la possibilità di stamparlo e l'accesso ad ulteriori approfondimenti.

I motori e le directory del Web lavorano per aggiungere la possibilità di reperire sempre nuovi formati di file, sulla scia di Google, ma cercano nel contempo di creare dei punti d'incontro fra il Web visibile e facilmente indicizzabile e quello invisibile.

AltaVista: ha creato ed inserito nel database alcuni link che puntano direttamente alle migliori risorse del deep-web e che sono inseriti fra i possibili risultati delle nostre query. Sono siti che non possono essere indicizzati dai motori di ricerca per diversi motivi ma che AltaVista ha deciso di rendere in qualche modo disponibili, facendoli emergere almeno di qualche livello dalle profondità della Rete.

Google: l'archivio d'immagini ha superato i 330 milioni di file, mentre sono on-line oltre 700 milioni di messaggi dei newsgroup (il database è stato aggiornato al 1981!); permette la ricerca all'interno di oltre 600 cataloghi di Outlet Off-line, come l'Ikea o il negozio del Metropolitan Museum, scansionati e indicizzati con un sistema di riconoscimento ottico.

Per accedere al "Web sommerso" e nascosto ai motori di ricerca, sono nati alcuni siti/database specializzati, che ne rendono più semplice la navigazione, catalogando i siti in categorie e sotto-categorie. In pratica sono strumenti di precisione, delle "trivelle" del Web che per alcuni aspetti possono andare più in profondità di quanto possa fare un motore di ricerca classico, ma necessitano di qualche sforzo in più da parte del navigatore. Risorse conosciute sono:
- Invisible-Web una directory che raccoglie oltre 1000 siti in una lista delle migliori risorse del "Web invisibile"
- MoreOver che permette di ricercare le ultimissime informazioni per diversi e particolari settori, raccolte dai suoi spider in oltre 2000 fonti.
- Infomine raccoglie oltre 23.000 risorse accademiche di grande valore
- Resource Discovery Network dove molti professori, professionisti e organizzazioni partecipano alla raccolta e catalogazione di fonti importanti per la ricerca, l'apprendimento o l'insegnamento.

 


Raffaele Galano
Ad Maiora
Maggio 2002

Segnala questo sito
ad un amico!

News in tempo reale sui motori di ricerca


 

Home |  Principali |  Ricerche |  Suggerimenti |  Inserimento |  Collegamenti |  Notizie

e-mail:

Ad Maiora
"MotoriDiRicerca.IT"
è un progetto Ad Maiora




LinkExchange Network

Copyright 1997-2006 Ad Maiora S.p.A.