Sitemap

Parliamo oggi di due strumenti che si rendono utili per fornire informazioni sul tuo sito ai motori di ricerca, precisamente su come indicizzare le pagine di un sito. Stiamo parlando, quindi dei file robots.txt e della sitemap.

In particolare possiamo dire che la sitemap indica a Google la gerarchia delle pagine del sito e in questo modo permette ai navigatori del web di comprendere l’organizzazione dei contenuti del sito.

Il file robots.txt, invece, fornisce ai motori di ricerca informazioni che consentono di impedire l’indicizzazione di alcuni specifici contenuti pur necessari in un sito ma che non è opportuno mostrare tra i risultati di ricerca, quali, ad esempio, la pagina della privacy policy o la pagina di login.

La Sitemap

C’è da dire che i crawler di Google sono in grado di trovare quasi tutti i contenuti di un sito. Tuttavia se ci troviamo di fronte ad un sito molto grande, oppure recente o con una link interna non ottimale, per il bot è senz’altro più facile scansionare un sito in cui è presente la sitemap.

Nella Search Console di Google è possibile monitorare l’indicizzazione di un sito. Il formato più comune utilizzato per la sitemap è .xml. Nella sitemap è possibile indicare quali sono le pagine più importanti rispetto alle altre indicando con alcuni meta dati la frequenza di aggiornamento di una pagina o la priorità di crawling. Alla seguente pagina www.sitemaps.org/it/protocol.html è possibile vedere quali sono gli elementi che interessano la creazione di una sitemap.

Come dotare il sito di una Sitemap

Se se utilizzi WordPress puoi ottenere automaticamente la sitemap con il plugin Yoast SEO.Altrimenti puoi utilizzare Google Sitemap Generator, uno dei tanti tool online creati a tale scopo.

Successivamente seguendo le istruzioni presenti in questa pagina https://support.google.com/webmasters/answer/183668?hl=it potrai caricare la sitemap tramite la Search Console di Google

Per quanto questo strumento sia utile non è però garantito che tutte le pagine saranno indicizzare immediatamente e per alcune potrebbe volerci più tempo prima di essere inserite nel suo indice da parte di Google.

Robots.txt

Come scritto in precedenza nel file robots.txt è possibile indicare quali pagine non dovranno essere mostrate nei risultati di ricerca (per esempio la privacy policy). Il contenuto del file robots.txt è pubblico, infatti basta aggiungere robots.txt dopo l’url di qualsiasi sito per visualizzare cosa c’è al suo interno. Perciò se ci sono pagine che volete tenere nascoste, inserirle nel file robots.txt non è la soluzione.

Sono tre i comandi che si utilizzano nel file robots.txt standard per raggiungere gli scopi per cui è stato inventato e cioè “user-agent”, “disallow” e “allow”.

User-agent

Indica a quale bot saranno applicate le regole che andremo a scrivere. Si utilizza l’asterisco nella formula User-agent: * per indicare tutti i bot.

Disallow

Questo è il comando che indica agli user-agent quali sono le pagine da non scansionare. Un classico disallow della pagina login è scritto cosi:

Disallow: /wp-admin/

Allow

Cosa fare se con il comando precedente abbiamo impedito la scansione di una intera parent directory ma al suo interno c’è una child directory che invece vogliamo sia scansionata? Utilizziamo il comando Allow. Ecco un esempio:

Allow: /wp-admin/admin-ajax.php

Ecco di seguito le istruzioni presenti nel file robots.txt di questo sito:

User-agent: *
Disallow: /wp-admin/
Disallow: /page/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.seofaidate.com/sitemap_index.xml

Come si vede, nel file robots.txt ho aggiunto il percorso da seguire per trovare la sitemap, nonostante l’abbia già inviata attraverso la Search Console.

Per conoscere le istruzioni complete di Google su come creare e caricare un file robots.txt vi rimando a questa pagina https://support.google.com/webmasters/answer/6062596?hl=it.

Questo file va caricato nella Search Console di Google dove avrete la possibilità di controllare che sia corretto prima di inviarlo.

Indicizzare un sito: il file robots.txt e la sitemap

Pasquale Palmiotto

Avvicinatomi alla SEO per necessità nel 2011, sono rimasto affascinato da questo mondo e dalle persone che lo frequentavano. Ho conosciuto gente in gamba che mi ha aiutato nel mio percorso di crescita e nel mio piccolo provo a fare altrettanto verso chi dovesse chiedermi un consiglio.