|
Googlebot
Googlebot es el robot que utiliza Google para 'rastrear'
los sitios de Internet. No solamente indexa páginas web
(HTML), sino que también extrae información de ficheros PDF,
PS, XLS, DOC y algunos
otros más.
La frecuencia con la que Googlebot accede a un sitio web
depende del PageRank
de éste. Contra mayor sea este valor, el robot accederá más
asiduamente a sus páginas.
Por ejemplo, podemos comprobar que los sitios con PR10 (el
valor más alto), como yahoo.com o usatoday.com, han sido
'rastreados' por Googlebot ayer o incluso o hoy mismo,
mientras que otros han sido accedidos hace varias semanas.
Esto se puede comprobar accediendo al 'cache' de esta página.
Para comprobar si Googlebot ha accedido a nuestro sitio
web, deberemos echar un vistazo a los logs de nuestro
servidor. En ellos, deberemos observar si hay registros de
accesos en los que aparezca 'googlebot'. Generalmente aparecerá
el nombre del servidor, el cual podrá ser alguno de estos:
| SERVIDOR |
DIRECCION IP |
| crawl1.googlebot.com |
216.239.46.20 |
| crawl2.googlebot.com |
216.239.46.39 |
| crawl3.googlebot.com |
216.239.46.61 |
| crawl4.googlebot.com |
216.239.46.82 |
| ... |
... |
| crawl9.googlebot.com |
216.239.46.234 |
| crawler1.googlebot.com |
64.68.86.9 |
| crawler2.googlebot.com |
64.68.86.55 |
| ... |
... |
| crawler14.googlebot.com |
64.68.82.138 |
Googlebot intentará acceder, como hacen la mayoría de los
robots de los motores de búsqueda, al fichero 'robots.txt'.
En este archivo se deberán indicar las zonas de nuestro sitio
web donde no queremos que entre ni Googlebot ni el resto de
los buscadores. Para conocer más sobre 'robots.txt', existe
un magnígico recurso: www.robotstxt.org.
Una vez que Googlebot haya 'rastreado' nuestra página,
seguirá los enlaces que en ella encuentre (los HREF y los
SRC).
Por lo tanto, si quieres que Googlebot indexe tu página
web, solamente es necesario que algún otro sitio tenga un
hiperenlace al tuyo. Si no es así, siempre puedes
añadir
directamente tu URL.
Además de este robot GoogleBot, existe otro, llamado
FreshBot que
'rastrea' con mayor frecuencia los sitios webs con las
noticias 'más frescas'
LO ÚLTIMO
en tu Correo.
Suscríbete Gratis a NUESTRO BOLETÍN !!
Te Agradeceríamos nos informes si encuentras un
ENLACE
ROTO
|