Indicizzazione del sito web

Visita anche Risorse per i webmaster
archivio di risorse per la creazione di pagine web
Questa pagina è parte della guida Come creare un sito da zero

Le azioni da compiere per una buona indicizzazione del sito

Una volta pubblicato il sito, la preoccupazione di tutti è farlo indicizzare da Google il più velocemente possibile.
L'indicizzazione non è il posizionamento, ma la fase precedente tramite la quale chiediamo a Google di inserire gli url delle pagine del sito nei suoi indici, affinchè sia possibile raggiungerle tramite le chiavi di ricerca.
Per indicizzare le pagine del sito, Google le deve scansionare e deve verificare che soddisfino i requisiti richiesti, sia nella compilazione del codice, che nell'ottimizzazione per i dispositivi mobili.
Ora vedremo quali sono i passi da compiere per ottenere l'indicizzazione del proprio sito web.
Se, come spero, il vostro sito è un sito creato in HTML5 e avete seguito la mia guida, o avete usato uno dei miei template, non dovreste avere alcun problema.

Procedura

Validazione

Prima di richiedere a Google la scansione del sito, è buona cosa validare ogni pagina con il validatore W3C per correggere eventuali errori nel codice:

https://validator.w3.org/

Nota: se i filtri di sicurezza impediscono la scansione, si può provare con questa versione del validatore: https://validator.w3.org/nu/

Test performance

Fatto questo, è altrettanto importante effettuare il test della performance, tramite lo strumento messo a disposizione da Google stesso, per migliorare la velocità di caricamento delle pagine:

Google pagespeed insights/

NOTA: quando si usa questo strumento di Google, è necessario ripetere il test più volte, perchè il risultato è influenzato da diversi fattori di connessione. Il risultato giusto è sempre il migliore ottenuto.

Sitemap xml

Completate queste operazioni, dovete creare la sitemap.xml del vostro sito.
In rete ci sono diversi tool online per la creazione della sitemap.
Ve ne indico uno:

Sitemap xml

Nella pagina Layout HTML5 di base della sezione "Risorse per i webmaster" del sito, potete trovare esempi scaricabili di sitemap.xml

Ottenuta la sitemap.xml, leggetela per controllare che tutte le pagine da indicizzare siano presenti.
Se la compilazione è corretta, dovete caricarla nella root del vostro sito.
Di norma, il nome è sitemap.xml, ma potete nominarla come preferite, purchè l'estensione sia .xml.
Ora il sito è pronto per affrontare la scansione dei robots di Google (web crawler). I robots sono due: Googlebot Desktop e Googlebot per smartphone.

Registrazione su Google Search Console

Il passo successivo è la registrazione del sito su Google Search Console


Seguite la procedura indicata per la registrazione.
Alla fine, scegliete il metodo di verifica della proprietà che preferite.
Se state utilizzando uno dei miei template, vedrete che nella pagina index è già indicato il posto dove inserite il tag html.
Quale che sia il metodo che avete scelto, cliccate su "verifica" per avviare il processo che sarà praticamente immediato.

Ora che la proprietà del vostro sito è stata verificata da Google, dovete inviare la sitemap per chiedere a Google di procedere alla scansione.
Per fare questo, sempre in Search Console, cliccate sulla voce "sitemap" nel menù laterale di sinistra e poi inserite il nome della vostra sitemap (con la sua estensione .xml) nella casella indicata.
Inviate e apparirà la conferma di riuscita.

Ora non resta che attendere la scansione che, in genere, avviene dopo qualche giorno. In caso di problemi, Google vi avviserà via email.

Il file robots.txt

Il file robots.txt è un semplice file di testo che viene messo nella root del sito.
Questo file permette di comunicare con il motore di ricerca e dare indicazioni sulla scansione.
Tramite il file robots.txt è possibile indicare le cartelle, o le pagine che non si desidera vengano scansionate. È anche opportuno indicare il percorso della sitemap.

Esempio di compilazione del file robots.txt:
User-agent: *
Disallow:
Disallow: /doc/

sitemap: https://www.lachiavenelpozzo.com/sitemap.xml

Il termine "Disallow:", senza slash finale, permette l'accesso a tutto il sito da parte del crawler dei motori di ricerca. Scritto con lo slash finale, invece, "Disallow: /", lo proibisce.
L'indicazione "Disallow: /doc/" indica che la cartella "doc" non deve essere scansionata.
È anche possibile bloccare una cartella, ma escludere dal blocco un singolo file (pagina) in essa contenuto.
Esempio:
Disallow: /folder/
Allow: /folder/file.html


Per maggiori informazioni: Google support

Testate il file robots.txt con questo strumento:

Robots testing tool

Lo strumento serve anche per il debug della sitemap memorizzata nella cache di Google in caso di modifiche.

Nella sezione "Risorse per i webmaster" -> Layout HTML5 di base potete trovare un esempio di file robots.txt da scaricare.

Conclusione

Non è indispensabile utilizzare tutte queste procedure, perchè i motori di ricerca scansionano in automatico tutti i siti web pubblicati, ma questi strumenti e queste azioni favoriscono una rapida ed efficace indicizzazione e il successivo posizionamente, che dipende sempre, ovviamente, in primis, dalla reputazione del sito e dal valore dei suoi contenuti.

Nella sezione "Strumenti per i webmaster" puoi trovare moltissime soluzioni e risorse da scaricare.


Elenco argomenti di questa guida:
Altro di interesse
Torna alla pagina principale:Creare un sito da zero ->>