Oggi scopriamo come compilare correttamente il file robots.txt per essere letto dagli spider dei motori di ricerca.
Il file robots.txt è il primo elemento che viene cercato dai motori di ricerca all’interno di un sito perchè li istruisce su come devono comportarsi durante la cosiddetta operazione di crawling, ovverosia di scansione del sito alla ricerca di contenuti da indicizzare.
È un normalissimo file di testo, con estensione, appunto “txt”, tutto scritto in minuscolo e con una sintassi particolare.
Essenzialmente, tutti i comandi che si usano all’interno del file robots.txt consentono di spiegare al motore di ricerca che ci sono delle cose che deve fare e altre che deve non fare. Per esempio, il comando Disallow impedisce una operazione.
Tutti i comandi sono preceduti dalla direttiva User-Agent che specifica a quale motore di ricerca è diretto un particolare comando che segue.
L’esclusione di directory fa si che, anche se il motore di ricerca viene informato dell’esistenza di un particolare percorso, non vi entri con lo scopo di indicizzare i file.
È una cosa diversa dalla protezione di una directory con password lato server, perchè comunque quello darebbe la possibilità al motore di indicizzare la singola cartella (pur non potendo indicizzare quanto vi è all’interno).
Mediante la direttiva Sitemap indichiamo al motore di ricerca la presenza di un file XML (compresso o meno) da utilizzare per sapere quali sono le pagine che vanno indicizzate in un particolare ambiente. È sempre bene che sia prevista.
CMS tradizionali come ad esempio WordPress, creano virtualmente questo file, la cui visualizzazione è gestita tramite il controller delle pagine e non c’è un file fisicamente presente nel filesystem. Crearne uno è profondamente sbagliato, perchè comunque non si aggancerebbe alle modifiche dinamiche che fa il CMS stesso.
Prevedere l’inserimento di un file robots in qualsiasi situazione è sempre una pratica corretta, perchè ci consente di essere sicuri che qualsiasi motore di ricerca effettui una operazione di crawling del nostro sito, riesca a sapere da subito tutte le informazioni di cui ha bisogno.
Per permettere l’accesso a tutto il sito web, non indicare niente nella direttiva Disallow:
Per bloccare un intero sito, si utilizza uno “slash”:
Per bloccare una directory e il relativo contenuto, fai seguire il nome della cartella o directory da una barra:
Per bloccare una pagina, va indicata la pagina in questione:
In questo articolo parleremo dell'importanza della SEO per le attività locali. Ottimizzare il proprio sito…
Max Del Rosso è un esperto SEO di lunga esperienza, con una solida reputazione nel…
Quando ho collegato il ricevitore USB Unify di Logitech al mio portatile, Windows non è…
Il copywriting è l’arte di scrivere testi pubblicitari con l’obiettivo di persuadere un pubblico a…
Quanto costa la consulenza SEO? Scopri il valore dei servizi di ottimizzazione per i motori…
Sei pronto a sfruttare al meglio il potenziale di Facebook? Questo social network può essere…
Questo sito utilizza cookie per migliorare la tua esperienza di navigazione. Navigando in questo sito accetti l'uso di cookie.