Come funzionano i motori di ricerca

I motori di ricerca svolgono una serie di operazioni cruciali che consentono loro di fornire risultati pertinenti quando un utente usa il loro sistema per cercare informazioni.

  1. Il crawling del web
    I motori di ricerca utilizzano dei programmi automatici, detti “robot” o “spider”, che usano la struttura ipertestuale del web per analizzare le pagine e i documenti che costituiscono il World Wide Web. Si stima che su circa 20 miliardi di pagine esistenti, i motori di ricerca ne abbiano analizzate tra gli 8 e i 10 miliardi.
  2. Indicizzazione dei documenti
    Quando una pagina è stata analizzata, i suoi contenuti possono essere “indicizzati”, ovvero immagazzinati in un enorme database di documenti che costituisce l’“indice” di un motore di ricerca. Tale indice deve essere ben amministrato per far sì che le ricerche, che devono cercare tra miliardi di documenti, possano essere completate in poche frazioni di secondo.
  3. Elaborazione delle ricerche
    Quando si effettua una richiesta su un motore (centinaia di milioni di volte al giorno), questo recupera dal suo indice tutti i documenti che corrispondono a quella determinata ricerca. Si determina una corrispondenza quando il termine o la frase cercata si trova nella pagina nella maniera specificata dall’utente. Ad esempio, la ricerca di annunci vendita immobili su Google attualmente restituisce 282.000 risultati, ma la ricerca della stessa frase tra virgolette ("annunci vendita immobili") attualmente restituisce soltanto 15.300 risultati. Nel primo caso, comunemente noto come metodo Findall, Google ha incluso tra i risultati tutti i documenti contenenti le parole “annunci”, “vendita” e “immobili”, mentre nel secondo caso sono state incluse tra i risultati soltanto le pagine contenenti la frase esatta “annunci vendita immobili”. Altri operatori avanzati di ricerca (Google ne ha 11) possono modificare i criteri di ricerca per una determinata query.
  4. Classificazione dei risultati
    Quando il motore di ricerca ha determinato quali risultati corrispondono alla ricerca, l’algoritmo di quel motore (un’equazione matematica comunemente usata per ordinare i risultati) inizia i calcoli per determinare quali siano i risultati più pertinenti alla ricerca effettuata. Questi vengono poi visualizzati nella pagina dei risultati dal più rilevante al meno rilevante, in modo che gli utenti possano scegliere il documento che preferiscono.

Anche se le operazioni svolte dai motori di ricerca non sono particolarmente lunghe, sistemi come quelli di Google, Yahoo! e MSN Live sono tra i più complessi, potenti ed efficaci  al mondo, dovendo gestire milioni di calcoli al secondo e indirizzare ogni giorno le richieste di informazioni di un numero impressionante di utenti.

Ostacoli e Barriere

Alcune modalità di navigazione potrebbero ostacolare o impedire completamente ai motori di ricerca di raggiungere i contenuti del vostro sito. Nel navigare il web, gli spider si affidano alla struttura ipertestuale dei siti per trovare nuovi documenti e rivisitare quelli che potrebbero essere stati modificati. Analogamente ad un ostacolo o ad una barriera, URL e strutture ipertestuali complesse (molto profonde e con pochi contenuti) possono ostacolare le visite degli spider, così come i documenti che non hanno link accessibili possono impedirne completamente l'accesso.

Alcuni possibili ostacoli per i motori di ricerca:

  • URL che contengono più di due parametri dinamici, ad esempio http://www.sito.com/index.php?id=12&Q=g2&Utente=%Mario%  (gli spider potrebbero essere riluttanti ad analizzare URL complesse come questa perché spesso restituiscono errori ad una scansione automatizzata).
  • Pagine con più di 100 link verso altre pagine del sito (gli spider potrebbero non riuscire a seguirli tutti).
  • Pagine nascoste in profondità che richiedono più di 3 click dalla home page del sito (a meno che non ci siano molti altri link esterni che puntano al sito, gli spider di solito ignorano tali pagine).
  • Pagine che richiedono un ID di sessione o Cookie per abilitare la navigazione (gli spider potrebbero non riuscire a conservare questi elementi).
  • Pagine divise in “frame” possono impedire l’analisi e generare confusione su quali pagine inserire tra i risultati.

Alcune possibili barriere per gli spider dei motori di ricerca:

  • Pagine accessibili unicamente tramite form e pulsanti.
  • Pagine che richiedono un menu a tendina (drop down menu) per accedere.
  • Documenti accessibili soltanto attraverso una casella di ricerca.
  • Documenti resi inaccessibili intenzionalmente (attraverso il meta tag robots o un file robots.txt).
  • Pagine che hanno bisogno di autenticazione.
  • Pagine che reindirizzano prima di visualizzare i contenuti (i motori di ricerca definiscono questa pratica "cloaking" e puniscono severamente i siti che ne fanno uso rimuovendoli dai loro indici e quindi escludendoli per sempre dai risultati delle ricerche).

Il segreto per assicurarsi che i contenuti di un sito siano totalmente accessibili è di fornire link diretti, in HTML, ad ognuna delle pagine che si vuole vengano indicizzate dagli spider. Ricordate che se una pagina non è accessibile dalla home page (dove è più probabile che gli spider inizino l’analisi), probabilmente non verrà indicizzata sui motori di ricerca. Una "sitemap" può essere di enorme aiuto a questo proposito.

Analisi della pertinenza e della popolarità

I moderni motori di ricerca si affidano alla tecnologia di reperimento delle informazioni (information retrieval - IR). Tale tecnologia esiste dalla metà del ventesimo secolo, quando i sistemi per il recupero delle informazioni equipaggiavano i computer delle biblioteche, delle strutture di ricerca e dei laboratori governativi. All’inizio dello sviluppo dei sistemi di ricerca, gli scienziati dell’IR intuirono che vi erano due importanti elementi critici alla base delle funzionalità di ricerca:

La pertinenza - ovvero il grado di corrispondenza tra il contenuto dei documenti inclusi nei risultati della ricerca e le intenzioni ed i termini utilizzati dall’utente nella query. La pertinenza di un documento aumenta se i termini o la frase cercati dall’utente compaiono più volte e sono presenti anche nel titolo o in intestazioni e sottotitoli importanti del documento.

La popolarità - ovvero l’importanza relativa, misurata attraverso le citazioni (l’atto per cui un documento fa riferimento ad un altro, come accade di solito nei documenti accademici o aziendali) di un dato documento che corrisponde alla ricerca dell’utente. La popolarità di un determinato documento aumenta proporzionalmente per ogni altro documento che lo cita come riferimento.

Questi due elementi sono stati trasferiti alla ricerca nel web 40 anni dopo e si manifestano sottoforma di analisi dei contenuti e dei link.

Nell’analisi dei contenuti, i motori di ricerca verificano che i termini ricercati siano presenti in aree importanti del documento, come il titolo, i meta dati, gli Heading Tags e il corpo del testo. Tentano inoltre di misurare automaticamente la qualità del documento (attraverso sistemi molto complessi, che vanno oltre gli scopi di questa guida).

Nell’analisi dei link, i motori di ricerca valutano non solo chi ha un link verso un sito o verso una pagina web, ma anche cosa dice a proposito di quella pagina/sito. Inoltre, riescono a capire se si tratta di un link affiliato (attraverso dati storici sui link, sulla registrazione del dominio e altre fonti), oppure se il link è degno di fiducia e quindi considerato attendibile (link provenienti da siti di università, enti governativi e statali sono generalmente considerati più attendibili) e altre informazioni contestuali sul sito che ospita la pagina (chi ha dei link a quel sito, cosa dice di quel sito, ecc.).

L’analisi dei documenti e dei link combina e sovrappone centinaia di fattori che vengono valutati individualmente e filtrati dagli algoritmi dei motori di ricerca (l’insieme di istruzioni che indicano ai motori quale importanza assegnare ad ogni fattore). L’algoritmo poi determina il punteggio del documento e (idealmente) classifica i risultati in ordine decrescente di importanza (ranking).

Informazioni affidabili per i motori di ricerca

Quando i motori di ricerca indicizzano la struttura dei link e i contenuti delle pagine web, si trovano di fronte a due tipi di informazioni su quel determinato sito o pagina: gli attributi della pagina/sito stesso e le descrizioni di quel sito/pagina da parte di altre pagine. Poiché il web è anche un mercato commerciale, e in tanti sono interessati ad avere un buon posizionamento per particolari parole chiave, i motori hanno imparato che non sempre possono fidarsi delle dichiarazioni dei siti riguardo la loro importanza. Di conseguenza, i tempi in cui i meta tag imbottiti di informazioni e le pagine piene di keyword dominavano i risultati delle ricerche (prima del 1998) sono finiti e hanno lasciato spazio a motori di ricerca che misurano l’attendibilità dei siti attraverso i link ed i contenuti.

Questa teoria sostiene che se centinaia di migliaia di altri siti web hanno dei link verso il vostro, allora il vostro sito deve essere molto popolare e, quindi, di valore. Se poi questi link provengono da siti molto popolari ed importanti (e quindi attendibili), allora il loro valore è ancora maggiore perché indicano che il vostro sito è una risorsa importante. Link da siti come CNN.com, AOL.com, Amazon.com ed altri godono di una fiducia intrinseca che i motori di ricerca utilizzano per aumentare il posizionamento del vostro sito nei risultati della ricerca. D’altro canto, se i link al vostro sito provengono da siti di scarsa qualità collegati tra di loro con link di scambio incrociati oppure provengono da "domini spazzatura", meglio conosciuti come link farm, i motori di ricerca diminuiranno il valore di tali link considerandolo a volte nullo e in casi estremi addirittura negativo.

Il sistema più conosciuto per la classificazione dei siti, basato sui link, è il PageRank, la formula semplicistica sviluppata dai fondatori di Google. Il PageRank fa assegnamento su una formula matematica basata sulla ricerca di un determinato documento attraverso una modalità di navigazione casuale tramite link.

Il PageRank si basa unicamente sulla natura democratica del web, usando la sua vasta rete di link come indicatore del valore di una singola pagina. In sostanza, Google interpreta un link da Pagina A a Pagina B come un voto per la Pagina B espresso dalla Pagina A. Ma Google prende in considerazione molto più che il semplice numero di voti o di link che la pagina riceve; considera anche l'importanza di ogni pagina che esprime un voto. I voti espressi da pagine “importanti” sono considerati di maggior valore, attribuendo quindi alla pagina collegata un valore più elevato.

Google usa un valore di procura per il PageRank, attraverso un logaritmo che traduce il vero PageRank di un documento in un valore compreso tra 1 e 10.

Google Toolbar

La Toolbar di Google (disponibile qui) include un icona che mostra il valore del PageRank da 0 a 10.

In sostanza, il PageRank è un sistema approssimativo per stimare il valore di un determinato link, sulla base dei link che puntano alla pagina host. Dall’avvento del PageRank alla fine degli anni ’90, sistemi più sofisticati per l’analisi dei link hanno preso il posto del PageRank. Quindi, nell’era moderna del SEO, la misurazione del PageRank attraverso la Toolbar di Google o la sua directory e attraverso altri siti che consultano questo servizio, ha un valore limitato. Pagine con un PR8 possono trovarsi 20-30 posizioni più in basso rispetto a pagine con PR3 o PR4. Quindi, piuttosto che focalizzarsi sul PageRank, è importante considerare il valore di un link.

Di seguito riportiamo un breve elenco dei principali fattori che i motori di ricerca prendono in considerazione nella valutazione di un link:

Anchor text di un link - L’anchor text corrisponde ai caratteri e alle parole visibili che compongono un link ad un altro documento o sito web. Ad esempio, nella frase “La CNN è una buona fonte di notizie, ma attualmente preferisco le informazioni della BBC”, ci sono due porzioni di anchor text: “CNN” è l’anchor text che punta al sito http://www.cnn.com, mentre “le informazioni della BBC” punta al sito http://news.bbc.co.uk. I motori di ricerca utilizzano questo testo per cercare di determinare l’argomento trattato dal documento linkato. Nell’esempio, i link indicherebbero ai motori di ricerca che quando gli utenti cercano “CNN”, noi consideriamo il sito http://www.cnn.com rilevante per il termine “CNN” , mentre consideriamo rilevante http://news.bbc.co.uk per la frase “le informazioni della BBC”. Se centinaia di migliaia di siti considerano una specifica pagina rilevante per una determinata espressione, quella pagina può ottenere buoni posizionamenti anche se quei termini non compaiono MAI all’interno dei contenuti della pagina stessa.

Popolarità globale del sito - Siti popolari, come indicato dal numero e dalla forza dei link che puntano ad essi, forniscono a loro volta  link con un valore più elevato. Quindi, mentre un link dal nostro sito può essere un voto prezioso per un altro sito, un link da bbc.co.uk o da cnn.com ha un peso maggiore. In questo ambito, il PageRank (ammesso che sia accurato) potrebbe essere un buon indicatore, dal momento che è stato progettato per calcolare la popolarità globale.

Popolarità del sito all’interno di community specifiche - Nell’esempio precedente, il peso o forza del voto di un sito è calcolato in base alla popolarità di quel sito nel web. Più i motori di ricerca diventano sofisticati ed esigenti, più sono portati a riconoscere l’esistenza di community su specifici argomenti; siti che trattano lo stesso argomento spesso sono collegati tra di loro attraverso dei link, facendo riferimenti a documenti e fornendo informazioni su uno specifico argomento. I link provenienti da siti all’interno di una di queste comunità forniscono un valore maggiore rispetto a siti non pertinenti ad uno specifico argomento.

Testo attorno ai link ­- Si è notato che i motori di ricerca attribuiscono maggiore importanza e rilevanza al testo che circonda direttamente un link rispetto al resto del testo presente nella pagina. Di conseguenza, un link all’interno di un paragrafo attinente a quel determinato argomento ha un peso maggiore rispetto ad un link contenuto nel menu di navigazione o a fondo pagina.

Argomento della pagina da cui proviene il link - La relazione tematica tra l’argomento trattato in un determinato documento e i siti/pagine a cui puntano i link di quel documento, può influenzare il valore che un motore di ricerca assegna a quel link. Quindi, è preferibile ricevere link da pagine che trattano lo stesso argomento del nostro sito/pagina, piuttosto che riceverne da pagine che hanno poco a che fare con i contenuti del nostro sito.

Questi sono solo alcuni dei fattori che i motori di ricerca prendono in considerazione nella valutazione dei link.

Attraverso la metrica dei link i motori di ricerca posso stabilire quali informazioni sono affidabili. Nel mondo accademico, più citazioni autorevoli indicano una maggiore importanza, ma in un contesto commerciale, manipolazioni e conflitti di interessi interferiscono con la correttezza delle misurazioni basate sulle citazioni. Nel web moderno, la fonte, lo stile e il contesto delle citazioni sono di vitale importanza per garantire risultati di alta qualità.

L’analisi di un collegamento ipertestuale

Il codice HTML di un collegamento ipertestuale si presenta così:

<a href="http://www.genesi.it">Realizzazione siti web</a>
Realizzazione siti web

In questo esempio, il codice indica semplicemente che il testo “Realizzazione siti web” (detto anchor text del link) contiene un link alla pagina http://www.genesi.it. Un motore di ricerca interpreterà questo codice come un messaggio che la pagina che contiene tale codice considera la pagina http://www.genesi.it attinente al testo ed in particolare al termine “Realizzazione siti web”.

Una porzione di codice HTML più complessa può contenere attributi aggiuntivi come:

<a href="http://www.yahoo.it" title="Motore di Ricerca Yahoo!" rel="nofollow">Yahoo!</a>
Yahoo!

In questo esempio, nuovi elementi come il titolo del link e l’attributo rel possono influenzare la visione del link da parte del motore di ricerca. L’attributo title può servire a fornire informazioni aggiuntive, informando il motore di ricerca che http://www.yahoo.it, oltre  ad essere in relazione con il termine Yahoo!, è attinente alla frase “Motore di Ricerca Yahoo!”. L’attributo rel, originariamente progettato per descrivere la relazione tra la pagina alla quale punta il link e la pagina che lo contiene, con la recente comparsa della descrizione “nofollow”, ha assunto una connotazione più complessa.

“Nofollow” è un tag progettato specificamente per i motori di ricerca. Quando viene attribuito ad un link nell’attributo REL, informa il motore di ricerca che quel link non deve essere considerato un “voto” per la pagina alla quale punta il link. Attualmente, tutti e tre i principali motori di ricerca (Google, Yahoo! e Bing) supportano il tag “nofollow”. Alcuni motori meno importanti non supportano questo tag e ne ignorano la presenza nel codice di un link.

Alcuni link possono essere assegnati ad immagini, piuttosto che a porzioni di testo:

<a href="http://www.genesi.it/posizionamento-nei-motori-di-ricerca.html"><img src="http://www.promozione.net/sito-web/posizionamento-nei-motori-di-ricerca.gif" alt="Posizionamento nei motori di ricerca"></a>
Posizionamento nei motori di ricerca

Questo esempio mostra un’immagine denominata "posizionamento-nei-motori-di-ricerca.gif" che contiene un link alla pagina http://www.genesi.it/posizionamento-nei-motori-di-ricerca.html. L’attributo alt, originariamente progettato per essere visualizzato al posto delle immagini troppo lente da caricare o sui browser testuali come ad esempio Lynx, recita “Posizionamento nei motori di ricerca” (in molti browser è possibile vedere il testo alt soffermandosi con il mouse sulle immagini). I motori di ricerca utilizzano le informazioni contenute nei link su immagini, inclusi il nome del file e l’attributo alt, per interpretare il contenuto della pagina alla quale punta il link.

Nel web possono essere utilizzate altre tipologie di link, la maggior parte delle quali non serve ad incrementare il ranking o il valore per gli spider poiché utilizzano il redirect, Javascript o altre tecnologie. Un link che non ha il classico formato <a href="URL">testo</a>, che sia un immagine o testuale, generalmente non dovrebbe aumentare il valore complessivo dei link in entrata per i motori di ricerca (anche se in rari casi i motori potrebbero cercare di seguire questi link più complessi).

È importante comprendere che, sulla base dell’analisi dei link, i motori di ricerca possono (o meno) interpretare ed usare i dati in essi contenuti, a seconda di come queste informazioni vengono gestite. Mentre la giusta tipologia di link può fornire un grande valore, la tipologia sbagliata può essere praticamente inutile (in funzione del ranking).

Keywords e ricerche

I motori di ricerca fanno affidamento sui termini ricercati dagli utenti per determinare quali risultati sottoporre ai loro algoritmi, come ordinarli e restituirli. Ma piuttosto che riconoscere e recuperare semplicemente le corrispondenze esatte per i termini di una query, i motori di ricerca sfruttano la propria conoscenza della semantica (la scienza del linguaggio) per elaborare corrispondenze intelligenti. Un esempio potrebbe essere la ricerca per la frase "prestiti personali" che restituisce anche risultati che non contengono quella specifica frase, ma piuttosto termini come "finanziarie" o "banche".

Attraverso il web i motori di ricerca raccolgono dati sulla frequenza d’uso dei termini e sulle correlazioni tra parole o frasi. Se alcuni termini e frasi si trovano spesso insieme nelle pagine o nei siti, i motori di ricerca sono in grado di elaborare teorie intelligenti sulla loro correlazione. Ricavare dati semantici direttamente da quel corpus incredibile che è Internet, ha fornito ai motori di ricerca le nozioni più accurate riguardo le ontologie e i collegamenti tra parole assemblate artificiosamente. Questa immensa conoscenza del linguaggio e dei suoi usi, dà loro la possibilità di determinare quali pagine in un sito trattano lo stesso argomento, qual'è l’argomento di una pagina, come la struttura dei link divide il web in community su specifici argomenti e molto altro ancora...

La crescente conoscenza dei motori di ricerca in materia di linguaggio, indica che le query restituiranno risultati sempre più intelligenti ed evoluti. Questo enorme investimento nel campo dell’Elaborazione del Linguaggio Naturale (NLP, dall’inglese Natural Language Processing) aiuterà  i motori di ricerca a comprendere meglio il significato e l’intenzione delle ricerche dei propri utenti. Nel lungo termine, gli utenti possono sperare che l'esito di questo lavoro produca risultati di maggior pertinenza nelle SERP (Search Engine Results Pages, risultati nelle pagine dei motori di ricerca) e quindi un'interpretazione più accurata da parte dei motori di ricerca riguardo agli scopi degli utenti.

Distinguere il buono dal cattivo

Nel mondo dell’Information Retrieval tradizionale, dove non esistono interessi commerciali, si possono utilizzare algoritmi molto semplici per ottenere ottimi risultati. Nel World Wide Web, invece, è vero il contrario. Gli interessi commerciali verso le SERP sono un problema costante per i moderni motori di ricerca. Ad ogni nuova miglioria sul controllo di qualità e sulla pertinenza dei risultati delle ricerche, corrispondono migliaia di individui (molti anche nel settore SEO) che consacrano la loro attività alla manipolazione di questi fattori per controllare le SERP, solitamente con l’obiettivo di posizionare i propri siti/pagine tra i primi risultati.

Il peggior genere di risultato è quello che la comunità internet definisce "spam nei motori di ricerca", ovvero pagine e siti di scarso valore reale, contenenti principalmente redirect ad altre pagine, elenchi di link, contenuti copiati, ecc. Queste pagine sono talmente irrilevanti ed inutili che i motori di ricerca sono continuamente impegnati a rimuoverle dai propri indici. Naturalmente, gli incentivi economici sono simili a quelli per lo spam via e-mail: sebbene le visite siano poche ed i click (che sono la fonte di introiti per chi pubblica questo tipo di spam) ancora meno, la mera quantità è il fattore decisivo nella produzione di profitti.

Altri risultati considerati spam variano da siti di bassa qualità o affiliati, che i motori di ricerca preferirebbero non includere nei risultati, a siti di ottima qualità o imprese che usano i collegamenti ipertestuali di cui si compone il web per manipolare i risultati in proprio favore. I motori di ricerca sono costantemente all’opera per eliminare ogni tipo di manipolazione e creare algoritmi organici e pertinenti per determinare un ordine nel ranking. I cosiddetti "search engine spammers" hanno ingaggiato una battaglia continua contro queste tattiche e sono sempre alla ricerca di nuovi espedienti e metodi per manipolare i risultati, dando vita ad una lotta perenne.

L'intento di questa guida NON è quello di fornire informazioni su come manipolare i motori di ricerca per realizzare dei buoni posizionamenti (che durerebbero solo poche settimane e potrebbero addirittura portare all'esclusione dagli indici dei motori), ma piuttosto quello di fornire consigli su come realizzare un sito web che sia i motori di ricerca sia gli utenti saranno lieti di mantenere permanentemente nelle prime posizioni, grazie alla propria pertinenza con le ricerche, alla fruibilità e alla qualità dei contenuti.

Risultati sponsorizzati

Le pagine dei risultati dei motori di ricerca non contengono soltanto documenti considerati pertinenti alla ricerca dell’utente (risultati organici), ma anche risultati sponsorizzati. Google, ad esempio, pubblica annunci pubblicitari tramite il noto servizio AdWords (che attualmente costituisce oltre il 99% dei suoi introiti).

Ma gli annunci pubblicitari a pagamento non sono sicuramente la scelta migliore, infatti i siti e le pagine indicizzate nei risultati "organici" fanno la parte del leone per numero di clic ricevuti: circa il 60-70% dei click si concentra sui cosiddetti risultati "organici" ovvero NON sponsorizzati.

Le operazioni di ottimizzazione per i risultati sponsorizzati vengono dette SEM, Search Engine Marketing ovvero Marketing mediante i Motori di Ricerca, questa pratica, pur essendo un valido strumento per una campagna di marketing locale o a breve termine, non rientra negli scopi di questa guida. Il nostro unico obiettivo restano i risultati organici.