Validator de robots.txt
e inspector , necesitamos un poco de forraje de la prueba.
Enviamos una araña para no hacer nada sino para
descargar las páginas de robots.txt. Nos arrastramos
a través de sitios en el proyecto abierto del
directorio para los acoplamientos y los dominios. Terminamos
para arriba con un total de 2,4 millones de urls que
spidered y encontramos cerca de 75k robots.txt.
Durante ese funcionamiento, encontramos una amplia gama
de problemas con los archivos de la gente robots.txt.
Encontramos más los de 5% del mal estilo usado
robots.txt y los hasta 2% fueron formados tan gravemente
que no serían reconocidos por ninguna araña.
Las listas siguientes algunos de los problemas que descubrimos.
Problemas con Robots.txt
--------------------------------------------------------------------------------
Al revés Sintaxis
Uno de los errores más comunes es al revés
sintaxis:
Usuario-agente: * Rechace: scooter
Cuál debe ser:
Usuario-agente: el scooter rechaza:
*
El múltiplo rechaza en una línea:
Una gran cantidad de gente tenía directorios
múltiples por línea.
Rechace: cgi-compartimiento// imágenes/
La mayoría de las arañas misinterpret
esa línea en la variedad de maneras. Algunos
lanzarán fuera del espacio e intentar utilizar/css//cgi-bin//images/o
ellos puede utilizar apenas/las imágenes/o/css/u
olvidarse de la cosa entera.
El sintaxis correcto sería:
Rechace: css/rechaza: cgi-compartimiento/rechaza:
Línea Enders del DOS:
Otro error común, está corrigiendo su
robots.txt en modo del DOS. Aunque es un problema tan
común, eso somos seguros que los motores de búsqueda
lo explica, él es mala práctica. Corrija
su robots.txt en el modo de UNIX y upload siempre en
el ASCII. Muchos clientes del ftp harán la transformación
a los enders de la línea de Unix para usted seamlessly,
pero algunos no obviamente. Golpee su editor de textos
con el pie en el modo de Unix antes de corregir un archivo
de robots.txt.
Comentarios en el extremo de la línea:
Por estándar, esto es aceptable:
Rechace: cgi-compartimiento/# esto prohíbe robustezas
de nuestro cgi-compartimiento
En el pasado, ha habido los motores de búsqueda
que sacudirían fuera de la línea entera.
¿Nosotros sabe de ningún motor de búsqueda
importante actual que tenga un problema con ella, pero
puede usted permitirse arriesgarla? Ponga los comentarios
en una línea por sí mismos.
Espacios principales:
Rechace:El estándar no trata específicamente
esto, sino que es mal estilo. ¿Una vez más
puede usted permitirse arriesgarlo?
404 vuelve a dirigir
que conduce a otra página:
Absolutamente común es el website sin un robots.txt
que seamlessly vuelva a dirigir la petición a
otra página. Eso vuelve a dirigir a menudo se
hace sin la generación de un error del estado
del servidor o vuelve a dirigir el mensaje del estado.
Está entonces hasta la araña para calcular
hacia fuera si está mirando un robots.txt o un
archivo del HTML. ¿Aunque no debe causarle ninguna
problemas, puede usted permitirse arriesgarlo? Para
fijarlo sin configurar de nuevo su servidor, coloque
un archivo en blanco de robots.txt en su raíz.
Declaraciones Que están en conflicto:
¿Si usted fuera slurp, qué usted haría?
Usuario-agente:
* Rechace: Usuario-agente: el slurp rechaza:
¿ Tiene en cuenta la invalidación del
slurp rechazan , o rechazan el slurp de la invalidación?
Tenemos poca fe en la robusteza menos compleja que puede
deducir la diferencia y tomar la acción apropiada.
En el ejemplo, el slurp caminaría a la derecha
adentro y tendría un ir en su sitio. Todos los
otros serían prohibidos.
Capitalización - Estilo Peor
Usuario-agente: EXCITE RECHAZAN:
Aunque el estándar no es caso sensible, el directorio
y los filnames son caso sensible. Presagia bien para
seguir los ejemplos en el estándar y para capitalizar
a usuario y rechaza solamente.
Listado de todos los archivos
Otro error común del estilo está especificando
cada archivo en un directorio:
Rechace: Rechazan: Rechazan: Rechazan: Rechazan:
El antedicho podía ser substituido usando la
opción del directorio:
Rechace: AL Rechaza:
Recuerde, una raya vertical que se arrastra indica a
la araña que el directorio es offlimits. Es una
cuestión del estilo y del tamaño. No es
malo si usted tiene solamente algunos archivos docena
a excluir, pero el ejemplo era de un robots.txt que
era 400k de largo que especificaron sobre 4000 archivos.
Nos preguntamos cuántos nunca acaban de dar vuelta
las arañas alrededor para volverse.
¡Rechace, Para no permitir!
Hay ningún permite , sólo rechace . Esto
es incorrecto:
Usuario-agente: El Punto Rechaza: Esto está correcto:
Usuario-agente: El Punto Rechaza:
Ninguna raya vertical principal
Qué si una araña hace con esto:
Usuario-agente: El Punto Rechaza: Juan
Por estándar, rechaza filenamed "Juan"
y el directorio nombrado Juan. Utilice las rayas verticales
que conducen y que se arrastran en todas las trayectorias
para ser seguro.
Otras cosas que vimos eran gente que intentaba poner
palabras claves en su robots.txt (cabeza de la sacudida
- porqué?).
Gente que intenta hacer su robots.txt como documento
del HTML (usted no puede utilizar FrontPage para hacer
un robots.txt accuratly)
Servidores De Misconfigured
¿Por qué una petición para un robots.txt
generaría un archivo binario? Esto podía
suceder solamente de a misconfigured al servidor o a
cliente del ftp.
Compruebe siempre su archivo de robots.txt después
de usted lugar él en el servidor. Una petición
simple:
http://www.mydomain.com/robots.txt
Es todo que toma para ser seguro.
Server/Domain
Cultiva
Una manera fácil para que los motores de búsqueda
detecten el servidor o el dominio cultiva (los grupos
enormes de sitios), es mirar el robots.txt. Encontramos
las granjas enormes de 400-500 dominios que eran todos
que usaban el mismo archivo único de robots.txt.
Eso adelante es una extremidad apagado a los motores
de búsqueda que los sitios todos están
relacionados.
--------------------------------------------------------------------------------
Nueva ayuda de
Google para los comodines:
Google es el primer motor de búsqueda para apoyar
extensiones de archivo del comodín.
Usuario-agente: el googlebot rechaza:
* cgi
Usted debe utilizar el nombre "googlebot"
del agente y no arriesgar el sintaxis antedicho con
cualquier otro motor.
Puedo poner al día esto más
adelante en la semana después de que se compilen
más datos. El antedicho es de impresiones iniciales.