Robots.txt es un
archivo de los muchos que hay en
el software que gestiona nuestro
servidor (ubicado por ejemplo en
http://www.tu dominio.com/robots.txt).
Identifica a los robots, y les indica
qué pueden o no visitar del
árbol de tu directorio de
ficheros.
También es recomendable ayudarse
de los metatags, que pueden indicar
si el robot puede indexar y/o seguir
visitando ese directorio, o cada
cuánto la página hace
un "refresh", informando
al robot buscador (en el caso de
google, googlebot) de tu periodicidad
de inclusión de contenido
novedoso.
Ojito con eso, porque si le ponemos
un refresh muy rápido, puede
ser que a los buscadores no les
guste, y te penalizen, bien bajándote
en los puestos de ránking,
bien incluso eliminándote
de su base de datos.
Ahí va un poco de información
para los que quieran controlar al
detalle cómo visitan los
robots nuestro sitio web, no sólo
google, todos; si vamos a enseñarles
todo nuestro contenido, o hay apartados
privados (sobre todo para extranets
de portales corporativas) que no
queremos que sean indexados por
los robots. Hablan exactamente de
cómo funciona el protocolo
de exclusión de robots (Standard
for Robot Exclusion), y el fichero
robots.txt. Espero que sirva:
(Este articulo pertenece y ha sido cedido por Trucos
de Google -
trucosdegoogle@terra.es )