Cargando



Estándar de exclusión de robots o Robots.txt y el rastreo en motores de búsqueda

El Robots Exclusion Protocol o también denominado Estándar de exclusión de robots archivo robots.txt es una de los elementos mas importantes de la configuración de un sitio web y tiene una gran importancia en la en el proceso de posicionamiento web, ya que permite comunicarse directamente con los robots de los buscadores, que son quienes cada cierto tiempo leen ese archivo para actualizar información de nuestra web aparte del sitemap.


oct 10 2013 12:29
Profesional
oct 10 2013 12:30
Hola a todos, me estreno con este tutorial sobre robots.txt, espero que les sea de su agrado ;)

Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código fuente. El archivo robots.txt, tiene ciertas directivas que se deben cumplir.

Vamos a analizar y especificar distintos código fuente de un robots.txt:

robots.jpg


Permitir que todos los robots visiten todos los archivos que se encuentran almacenados en el directorio raíz de la web:

User-agent: *
Disallow:



Impedir acceso a todos los robots y todos los archivos almacenados en el directorio raíz:

User-agent: *
Disallow: /


Permitir que solo un robots acceda, en este ejemplo solo Google podra rastrear

User-agent: googlebot
Disallow:
User-agent: *
Disallow: /

Los robots mas conocidos tiene el un nombre para utilizar en user-agent

googlebot => para Google
msnbot => MSN Search
yahoo-slurp => Yahoo
scrubby => Scrub The Web
robozilla => DMOZ Checker
ia_archiver => Alexa/Wayback
baiduspider => Baidu

También están los robots mas específicos como los de imágenes

googlebot-image => Google Image
googlebot-mobile => Google Mobile

Otro ejemplo para que todos los subdirectorios que incluyan el comodín (/) deben ser bloqueados, únicamente éstos, exceptuando a todos los demás archivos y directorios que no contienen un comodín, nomrmal mente se bloquean los directorios de sistema o back end:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /adminstrador/

Impedir que un archivo concreto sea rastreado

User-agent: *
Disallow: /pagina.htm

Esto se utiliza mucho cuando queremos eliminar una pagina que da error 404 o para eliminar una pagina de los resultados de busqueda, asi evitamos que sea rastreada.

Gestionar la frecuencia de rastreo de los robots

Desde Google analytics y desde webmastertools se puede ver las estadísticas también puedes observar que a veces algunos robots se toman mucho tiempo revisando nuestro sitio y someten a peticiones al servidor, los robots consumen ancho de banda y recursos como si fueran un visitantes mas.
Existe un modo de que no se descontrolen los robots, podemos decirle a cada uno
User-agent: googlebot Crawl-delay: 30

Con esto le informamos al robot de Google que espere 30 segundos entre cada rastreo. Cuidado, porque Crawl-delay puede que no lo soportan todos los buscadores, Bing y Google si lo soportan.

La web oficial de robots.txt es http://www.robotstxt.org/ donde encontraremos los nombre de todos los robots, especificaciones sobre el codigo. Aqui se expone que los robots sirven para estandarizar los que deben rastrear y son utilizados en otras plataformas para rastrear y validar html, validar enlaces, indexar informacion, actualizar contenido en buscadores, proteger sitios web.

¿Te ayudó este Tutorial?


1 Comentarios


Hector Olmedo
oct 10 2013 13:11
Gracias por compartirlo y bienvenido.
No esperes más y entra en Solvetic
Deja tus comentarios y aprovecha las ventajas de la cuenta de usuario ¡Únete!

X