como funcionan los spider?

magoote · #1 (**permalink**) 23/02/2005, 11:18

Siempre se habla de los buscadores y spider, mi curiosidad es saber de que forma trabajan, osea concretamente, es un equipo(de que caracteristicas) que mediante un algoritmo rastrea la red, este algoritmo en que lenguaje esta programado, que conexion necesita, rastrea por ip al azar por rangos..etc, bueno en resumen cualquiera que conozca un poco o sepa donde encontrar la informacon se agradece.

#2 (**permalink**) 23/02/2005, 12:02

magoote, valga sea la redundancia, para saber sobre buscadores busca en buscadores. Sólo se que google una de las cosas que tiene su spider es que salta por enlaces, vamos, según parece se "expande" porque a la vez que busca los enlaces internos de tu página, después se va a los enlaces externos a otras páginas, memoriza los enlaces de una página, los internos...
Lenguaje, la verdad que ni idea eso ya es mu tecnico

lisandro Arg · #3 (**permalink**) 23/02/2005, 12:37

Lo del lenguaje no solo es muy tecnico si no que cada buscador tendra sus mezclas de lenguajes.

Yo tengo un pequeño sipider en php y se de otros tambien en php.

yenerich · #4 (**permalink**) 23/02/2005, 12:55

Dicho de modo facil, lo que hace un buscador es visitar una pagina (por ejemplo esta), guarda en su base de datos el html y despues sigue cada uno de los links que ahi encuentra, repitiendo la operacion cada vez identica.
Si lo piensan bien, siguiendo esa estrategia pronto habran visitado la mayor parte de los sitios y tendran en la base de datos casi todos.
La parte compleja del algoritmo no es esa, sino como hacer las busquedas dentro de la base de datos y presentar primero los resultados mas 'relevantes', pero indexar paginas es relativamente simple.

Ocrum2004 · #5 (**permalink**) 23/02/2005, 17:11

Comento como funciona el spider de cuasarBot.
1. Añades una web (formulario de alta).
2. El spider comprueba si la url ya existe.
3. Si no existe hace lo siguiente:
3.1 Comprueba la existencia del fichero robots.txt
3.2 Descarga la url
3.3 Almacena la página como HTML
4. Analiza el contenido de la página en busca de URLs
5. Todas las URLs van al paso 1.

Existen muchos pasos más, pero eso ya depende del algoritmo de cada buscador, pero lo básico es lo que comentaba.
Existen muchos spider ya programados, el spider de cuasarBot está programado desde 0 y son 4 procesos que se encargan de descargar páginas (muy pronto pondré 10 procesos).

Hay muchos detalles para el desarrollo de un buen spider, por ejemplo las redirecciones (http 302), ...

El lenguaje de cuasarBot es C++ y el sistema Linux Suse.
Tengo una página dedicada al estado del spider, en esta página puedo comprobar como afecta cualquier cambio:

http://www.cuasar.com/blogs/status.php

oscarva · #6 (**permalink**) 23/02/2005, 17:36

Hola y hay alguna forma de hacer un pequeño robot para mi web, es decir, mi web genera muchisimas paginas dinamicas y utilizo el mod_rewrite para hacerlas mas amigables, pero me gustaria saber cuantas paginas exactas tiene mi web. es posible?

magoote · #7 (**permalink**) 23/02/2005, 18:48

Ocrum2004, gracias eso es lo que queria saber, basicamente la metodologia y el lenguaje de programacion, y tenes el spider montado en un equipo dedicado a eso , con que conexion?, la base de datos debe tener un tamaño importante no?
bueno por supuesto los vuelvo a felicitar por el trabajo de www.cuasar.com, mas ahora que me entero que es un desarrollo desde 0.

Ocrum2004 · #8 (**permalink**) 24/02/2005, 02:27

El spider de cuasar está alojado en un servidor dedicado con conexión a 1 Mega, 3 Discos duros de 200 Gigas. ¿la base de datos?, pues ya te puedes imaginar lo que ocupa.
Espero que muy pronto podamos hacer las primeras búsquedas en cuasar.com, pero primero tengo que filtrar páginas basura y clasificar la información.

josemi · #9 (**permalink**) 24/02/2005, 02:34

Hola,

Cita:

Iniciado por oscarva

Hola y hay alguna forma de hacer un pequeño robot para mi web, es decir, mi web genera muchisimas paginas dinamicas y utilizo el mod_rewrite para hacerlas mas amigables, pero me gustaria saber cuantas paginas exactas tiene mi web. es posible?

En www.sf.net y en www.freshmeat.net tienes una amplia variedad de robots, spiders y crawlers. Seria cuestion de encontrar uno al que puedas limitar su "territorio" de recorrido a tu dominio.

De todas formas, muchos de estos robots estan limitados a ciertos tipos de enlaces. Por ejemplo, muchos no siguen el action de los formularios, el flash se les atraganta, y los enlaces javascript (popups) tampoco suelen ser de su agrado. Asi que pueden no encontrar el 100% de tus URLs.

saludos.

PD: Pensaba que se llamaban spiders porque recorrian la web (spider-web: telaraña).

magoote · #10 (**permalink**) 24/02/2005, 05:53

Oooooo pabada de discos heeee ? , es impresionante la informacion que se maneja...impresionante.
Y para cuando tenemos el buscador disponible?????

Ocrum2004 · #11 (**permalink**) 24/02/2005, 06:12

Me gustaría que para dentro de un mes podamos hacer las primeras búsquedas, luego tendremos que ir afinando las búsquedas, eso ya será entre todos. ¿ok?

El spider ya está estable, filtra, capturas páginas, extrae direcciones, identifica el idioma, cachea, identifica contenidos flash (idea de PGBWebs), última modificación y tamaño de página.

Ahora estoy con la categorización, cuasar pretende categorizar las páginas principales de cada web de manera automática, de momento ya identifica páginas porno (estoy haciendo pruebas con esto, anda que no hay en internet, uffff) y las separa.

magoote · #12 (**permalink**) 24/02/2005, 06:16

buenisimo, y cualquier cosa en que se pueda dar una mano ..avise nomas.

yenerich · #13 (**permalink**) 24/02/2005, 13:34

y cuasar.com esta planeada como negocio? como experimento?

Ocrum2004 · #14 (**permalink**) 27/02/2005, 03:57

de momento cuasar es un experimiento un poco caro para mi bolsillo :(