Powered by ZigaForm version 3.8.4

Il file Robots.txt. A che cosa serve ? Come si realizza?

RUBRICHE >> Internet >> SEO >> Il file robots.txt

Il file robots.txt è un file di testo, codificato in formato UTF-8, che contiene comandi e direttive che servono ad istruire i motori di ricerca su eventuali restrizioni applicate alle pagine di un sito Internet. Il suo funzionamento si basa sul protocollo REP (Robots Exclusion Protocol), un protocollo che permette di rendere invisibile agli spider (o crawler) dei motori di ricerca l’intero sito web o singole pagine. Uno spider è un software che analizza in maniera metodica ed automatizzata i contenuti dei diversi siti pubblicati su Internet, inserendo le pagine visitate in un indice. Il file robots.txt deve essere caricato nella directory principale del dominio (root directory) e può essere creato attraverso un semplice editor di testo (anche “notepad”). Tutti gli spider dei motori di ricerca che supportano il protocollo REP, se trovano il file robots.txt, seguiranno le direttive contenute al suo interno.

Struttura del file robots.txt
Il file robots.txt contiene dei record, composti da 2 campi: il campo User-agent, che indica a quale robot/spider si applicano i comandi successivi ed il campo Disallow, che serve ad indicare qual’è il contenuto a cui non può accedere lo spider. Per capirne esattamente il funzionamento vediamo alcuni esempi di file robots.txt:

User-agent: *
Disallow: /

Blocca l’indicizzazione dell’intero sito web a tutti gli spider. Il valore “*” specifica che tale comando viene applicato a tutti i robot/spider, mentre “/” indica che deve essere bloccato il contenuto dell’intero sito web.

 

User-agent: *
Disallow:

Il sito è completamente accessibile a tutti gli spider (per consentire l’accesso a tutti gli spider dobbiamo lasciare uno spazio vuoto dopo i 2 punti che seguono la dicitura Disallow).

 

User-agent: *
Disallow: /
Allow: /public/

Viene impedito l’accesso a tutte le cartelle tranne alla cartella public.

 

User-agent: scooter
Disallow: /

User-agent: googlebot
Disallow: /intestazione.html
Disallow: /links.html
Disallow: /temporanei/
Disallow: /cgi-bin/

User-agent: *
Disallow:

Questo file robots.txt blocca del tutto Altavista, non permette a Google l’accesso ad alcuni file e directory e non pone vincoli a tutti gli altri motori di ricerca.

Elenco crawler/spider dei principali motori di ricerca

Nome Robot Funzione
Google
Googlebot Analizza le pagine web
Googlebot-Mobile Analizza le pagine web per mobile
Googlebot-Image Analizza le immagini
Mediapartners-Google Analizza i contenuti AdSense
AdsBot-Google Analizza i contenuti AdWords
Yahoo
Slurp Analizza le pagine web
Yahoo-MMCrawler Analizza le immagini
Yahoo-MMAudVid Analizza i contenuti video
Bing
MSNBot Analizza le pagine web
MSNBot-Media Analizza i contenuti multimediali
MSNBot-News Analizza i feed delle news
Altavista
Scooter Analizza le pagine web
Mercator
Vscooter Analizza le immagini ed i contenuti multimediali


Per avere una lista dei nomi dei principali crawler cliccate sul seguente link: lista crawler.

Creare il file robots.txt
Il file robots.txt può essere creato manualmente. Se però si vuole evitare di commettere errori si possono usare dei tools online gratuiti per la sua generazione, come ad esempio Robot Control Code Generation Tool o Robots Text Generator Tool.

By | 2015-01-28T21:49:58+00:00 gennaio 28th, 2015|SEO, Uncategorized|

Leave A Comment