Zona HTML Zona Java Zona PHP Zona ASP Zona Bases de datos
Inicio > Artículos > Internet > Generales > Crear un fichero robots.txt
-Artículos

Crear un fichero robots.txt

1 . User-Agent
2 . Disallow
3 . Ejemplos

Los buscadores tipo "araña", como Google o Altavista, siempre buscan en el directorio raíz de un sitio web el fichero "robots.txt". Este fichero les indica qué archivos deben incluir en su base de datos. En la mayoría de los casos no lo utilizaremos, pero si deseamos excluir parte de nuestro web de la mirada inquisitiva de estas arañas, deberemos crear un fichero con este nombre. Estará formado por uno o varios registros, cada uno de los cuales está formado por dos campos: una línea User-Agent y una o más líneas Disallow. El formato de cada línea es como sigue:

Campo : Valor

Podemos incluir comentarios empleando la almohadilla. Todo lo que haya desde que pongamos el carácter # hasta el final de la línea será ignorado.

User-Agent

Esta línea indica la araña a la que queremos impedir el acceso a ciertas zonas de nuestra web. La mayoría de los buscadores tienen nombres cortos para sus arañas. Google utiliza el googlebot y Altavista el scooter, por ejemplo. No obstante, aqui tenéis una lista completa de arañas. Un ejemplo:

User-agent: googlebot

También se puede utilizar el asterisco como caracter comodín para indicar que lo siguiente será aplicable a todas las arañas:

User-agent: *

Si tienes acceso a los ficheros log de tu web, puedes buscar en ellos posibles arañas observando las peticiones que se realicen al fichero robots.txt.

Disallow

Después de User-agent se deben especificar una o más líneas Disallow. Como valor de este campos se pueden especificar nombres de directorios:

Disallow: /imagenes/

O de ficheros:

Disallow: index.htm

Incluso podemos especificarlos a la vez. Si ponemos:

Disallow: /roma

Impediremos el acceso tanto a los ficheros que empiecen por roma como al directorio del mismo nombre. También podemos usar asteriscos

Ejemplos

El primer ejemplo impide a cualquier araña acceder a los directorios de los CGI y las imágenes:

User-agent: *
Disallow: /cgi-bin/
Disallow: /imagenes/

El siguiente ejemplo permitiría la entrada al robot de Google pero no al de Altavista:

User-agent: googlebot
Disallow:

User-agent: scooter
Disallow: /

De este modo podremos impedir que los buscadores metan la nariz más de lo deseable. Si deseas comprobar si tu fichero cumple las especificaciones puedes emplear un validador.

 

Últimos comentarios
Últimos 5 comentarios

me gusta los doblejes de anime. (24/01/2010)

Por
Yo creo en le fe de los mexicanos tiene un lindo voz en esprezar un anime eso es lizzen creo en le tarea
eso es bello tiene en le tiempo veo
creo le exelente de mexico eso es
jenial oir en tu mundo es jenial asi
visto en le tiempo de evoluxion.
amo le estilo de vida pa crear le ndsi
juegos de animes sean lindo fantasia
amo mucho los juegos en español.
yo kiero producir mas juegos en español eso es exelente creo en le ...
valor crear le traduxion basico.
castellanos som explosivos igual la
granadas nuestro idiome es español.

mas informacion (26/06/2005)

Por
quiero recibir mas informacion sobre robots.txt, gracias ;)

mas informacion (26/06/2005)

Por
quiero recibir mas informacion sobre robots.txt, gracias ;)

mas informacion (26/06/2005)

Por
quiero recibir mas informacion sobre robots.txt, gracias ;)

Robots (11/09/2003)

Por
Como puedo crear un robot para mi buscador, de manera que encuentre y actualice constantemente mi base de datos..?

Saludos...!!!
 
Tienda
Patrocinados
 

Copyright © 1999-2010 Programación en castellano. Todos los derechos reservados.
Formulario de Contacto - Datos legales - Publicidad

diseño y desarrollo web por Color Vivo Internet. Un proyecto de los Hermanos Carrero