File robots.txt. Cos’è e quali sono i contenuti

Il file robots.txt definisce il protocollo di esclusione di un sito web e fornisce un metodo efficace per definire le direttive di crawling e quindi di indicizzazione di un sito o di un blog. La sua semplicità è però un’arma a doppio taglio; Se mal configurato si rischia di far scomparire il proprio sito dai radar dei motori di ricerca.

In questo articolo vedremo cosa deve contenere un file robots.txt e come testarlo per intercettare eventuali errori.

 

Requisiti fondamentali del file

  • Il nome del file deve essere riportato con lettere minuscole (i.e. robots.txt)
  • Il suo accesso deve essere libero
  • Il formato del file testuale deve essere standard (UTF-8, ASCII)
  • Il file va posizionato nella directory principale.

 

Di seguito alcuni esempi di URL di file robots.txt (fonte. Google developers)

 

 

Come è strutturato il file?

Il file contiene direttive specifiche; Ogni direttiva va riportata su una riga ed è costituita da una coppia di istruzioni. Di seguito le direttive:

  • User‐agent:
    Specifica a quale web robot vengono applicate le direttive contenute nel file (se rivolto a tutti inserire il carattere “*”.)
  • Allow:
    Fornisce regole più complesse e perfeziona le istruzioni inserite nella direttiva Disallow. In caso di conflitto le direttive Disallow hanno la priorità.
  • Disallow:
    specifica il file, la directory o la cartella da escludere dall’accesso dei web robot.
  • Sitemap:
  • Noindex:
    Dipende dalla direttiva Disallow e comporta la rimozione degli URL da parte dei motori di ricerca
  • Crawl‐delay:
    Direttiva non supportata da Google che impone una pausa tra le richieste. Serve a rallentare la velocità di crawling.
  • # (commento)

 

Quì il tool per testare la validità del tuo file robots.txt

 

 

 

 

 

You may also like