Configurare il file robots.txt

Indice

Il file robots.txt viene utilizzato per comunicare ai motori di ricerca Google, Yahoo, Bing, ecc i contenuti da indicizzare su un determinato sito web. Prima di eseguire la scansione di una pagina Web, “Ehi, guarda qui, non indicizzarmi!”. Questo può essere fatto per una serie di motivi, uno dei quali è quello di evitare contenuti duplicati o pagine che in realtà non portano benefici agli utenti finali.

I file potrebbero non essere consentiti su qualsiasi livello di directory. Se non vuoi che appaia il tuo sito, è possibile utilizzare “disallow: /”.

Cosa metterci dentro

User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / ~ joe /

 Escludere tutti i robot dall’intero server

User-agent: *
Disallow: /

Consentire a tutti i robot di accedere completamente

User-agent: *
Disallow:

Escludere tutti i robot da una parte del server

User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /

Escludere un singolo robot

Agente utente: BadBot
Disallow: /
Consentire un singolo robot
User-agent: Google
Disallow:

User-agent: *
Disallow: /

Escludere tutti i file tranne uno

User-agent: *
Disallow: / ~ joe / stuff /

In alternativa puoi disabilitare esplicitamente tutte le pagine non consentite:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

Per maggiori informazioni sul file Robots.txt, visita Robots.org 

Ora, non farti prendere dal panico perché grazie a questa guida riuscirai anche tu a creare il file robots.txt senza grossi problemi. Se dovessi avere dei dubbi comunque puoi sempre lasciarmi un tuo commento in fondo all’articolo.

Leggi anche
8 estensioni indispensabili per chi fa SEO Google Chrome

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui