WebRecursos.com - Recursos gratis para webmasters
 
Añadir a Favoritos    
       
 

ROBOTS.TXT

 
 
Algunos buscadores usan robots para indexar tus páginas. Para ello buscan un fichero de texto llamado robots.txt en el que puedes indicar que partes de tu sitio son indexables y que robots pueden acceder a estas.
 

 

   
 
   
 
 
   
   
   
 
 
Los buscadores o crawlers que funcionan lanzando su robot a la caza de las páginas que irán recolectando para añadir a su base de datos, para su posterior inclusión e indexación, comprueban unicamente los contenidos del fichero robots.txt. Este fichero lo buscan en el directorio raíz del web site y es un fichero de texto plano, no un fichero HTML.

La existencia y el funcionamiento del fichero robots.txt se deben a los protocolos del W3, con la intención de que el webmaster pueda ocultar al robot aquellos contenidos que no se desea hacer públicos o aplicar dichas reglas sólo para algún o algunos robots en concreto.

El robot busca primero en http//www.tudominio.com/robots.txt cuando aterriza en tu website, de manera que ahí es donde deberás incluir tu fichero robots.txt. El número de peticiones que reciba este ficherito y que constará en las estadísticas nos indicará pues el número de veces que hemos sido visitados por el robot.

En caso de que no dispongas del fichero, el robot considera que no hay ninguna exclusión y podrá rastrear cualquier página del web site sin excepción.

 
 

Ejemplos:

User-agent: *
Disallow :

El asterisco * significa TODOS LOS ROBOTS. En este caso no hay ninguna regla especial, así que este fichero no restringe el acceso a ninguna página ni a ningún robot. Implica acceso total.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /borrador/

Todos los robots tienen restringido el acceso a los directorios /cgi-bin, al /tmp o / borrador .

Atención porque necesitarás una sentencia para cada directorio.

User-agent: *
Disallow: /

Todos los robots tienen prohibido el acceso a cualquier directorio del web site.

User-agent: Googlebot
Disallow : /

Excluir un determinado robot, en este caso el robot de Google no tiene acceso a ningún directorio.

User-agent: Googlebot
Disallow : /
User-agent: *
Disallow:/borrador/pruebas.html

Ahora Google no tiene acceso a ningún directorio, en cambio, todos los otros robots tienen acceso ilimitado excepto para la página pruebas.html del directorio borrador que está restringido.

 

Lo importante es restringir teniendo en cuenta la ruta de acceso a ese fichero o directorio.

Y también puedes restringir el acceso a una página determinada, con las etiquetas META <META NAME="robots" CONTENT = "noindex">

No abuses de las restricciones, recuerda que cuantas más páginas estén indexadas mucho mejor para lograr la promoción que deseas para tu web.