Oggi scopriamo come compilare correttamente il file robots.txt per essere letto dagli spider dei motori di ricerca.
Fondamentale per istruire i motori
Il file robots.txt è il primo elemento che viene cercato dai motori di ricerca all’interno di un sito perchè li istruisce su come devono comportarsi durante la cosiddetta operazione di crawling, ovverosia di scansione del sito alla ricerca di contenuti da indicizzare.
È un normalissimo file di testo, con estensione, appunto “txt”, tutto scritto in minuscolo e con una sintassi particolare.
Indicazioni su “fare” e “non fare”
Essenzialmente, tutti i comandi che si usano all’interno del file robots.txt consentono di spiegare al motore di ricerca che ci sono delle cose che deve fare e altre che deve non fare. Per esempio, il comando Disallow impedisce una operazione.
Tutti i comandi sono preceduti dalla direttiva User-Agent che specifica a quale motore di ricerca è diretto un particolare comando che segue.
Escludere directory “tecniche”
L’esclusione di directory fa si che, anche se il motore di ricerca viene informato dell’esistenza di un particolare percorso, non vi entri con lo scopo di indicizzare i file.
È una cosa diversa dalla protezione di una directory con password lato server, perchè comunque quello darebbe la possibilità al motore di indicizzare la singola cartella (pur non potendo indicizzare quanto vi è all’interno).
Indicare la presenza della sitemap
Mediante la direttiva Sitemap indichiamo al motore di ricerca la presenza di un file XML (compresso o meno) da utilizzare per sapere quali sono le pagine che vanno indicizzate in un particolare ambiente. È sempre bene che sia prevista.
File robots.txt e CMS
CMS tradizionali come ad esempio WordPress, creano virtualmente questo file, la cui visualizzazione è gestita tramite il controller delle pagine e non c’è un file fisicamente presente nel filesystem. Crearne uno è profondamente sbagliato, perchè comunque non si aggancerebbe alle modifiche dinamiche che fa il CMS stesso.
Deve sempre essere presente
Prevedere l’inserimento di un file robots in qualsiasi situazione è sempre una pratica corretta, perchè ci consente di essere sicuri che qualsiasi motore di ricerca effettui una operazione di crawling del nostro sito, riesca a sapere da subito tutte le informazioni di cui ha bisogno.
Esempi pratici
Per permettere l’accesso a tutto il sito web, non indicare niente nella direttiva Disallow:
Disallow:
Per bloccare un intero sito, si utilizza uno “slash”:
Disallow: /
Per bloccare una directory e il relativo contenuto, fai seguire il nome della cartella o directory da una barra:
Disallow: /mia-directory/
Per bloccare una pagina, va indicata la pagina in questione:
Disallow: pagina-che-vogliamo-bloccare.html