| |||
magoote, valga sea la redundancia, para saber sobre buscadores busca en buscadores. Sólo se que google una de las cosas que tiene su spider es que salta por enlaces, vamos, según parece se "expande" porque a la vez que busca los enlaces internos de tu página, después se va a los enlaces externos a otras páginas, memoriza los enlaces de una página, los internos... Lenguaje, la verdad que ni idea eso ya es mu tecnico |
| ||||
Lo del lenguaje no solo es muy tecnico si no que cada buscador tendra sus mezclas de lenguajes. Yo tengo un pequeño sipider en php y se de otros tambien en php.
__________________ Silex-Skeleton+Northwind+DoctrineORM+TwitterBootstrap |
| |||
Dicho de modo facil, lo que hace un buscador es visitar una pagina (por ejemplo esta), guarda en su base de datos el html y despues sigue cada uno de los links que ahi encuentra, repitiendo la operacion cada vez identica. Si lo piensan bien, siguiendo esa estrategia pronto habran visitado la mayor parte de los sitios y tendran en la base de datos casi todos. La parte compleja del algoritmo no es esa, sino como hacer las busquedas dentro de la base de datos y presentar primero los resultados mas 'relevantes', pero indexar paginas es relativamente simple. |
| |||
Comento como funciona el spider de cuasarBot. 1. Añades una web (formulario de alta). 2. El spider comprueba si la url ya existe. 3. Si no existe hace lo siguiente: 3.1 Comprueba la existencia del fichero robots.txt 3.2 Descarga la url 3.3 Almacena la página como HTML 4. Analiza el contenido de la página en busca de URLs 5. Todas las URLs van al paso 1. Existen muchos pasos más, pero eso ya depende del algoritmo de cada buscador, pero lo básico es lo que comentaba. Existen muchos spider ya programados, el spider de cuasarBot está programado desde 0 y son 4 procesos que se encargan de descargar páginas (muy pronto pondré 10 procesos). Hay muchos detalles para el desarrollo de un buen spider, por ejemplo las redirecciones (http 302), ... El lenguaje de cuasarBot es C++ y el sistema Linux Suse. Tengo una página dedicada al estado del spider, en esta página puedo comprobar como afecta cualquier cambio: http://www.cuasar.com/blogs/status.php |
| ||||
Hola y hay alguna forma de hacer un pequeño robot para mi web, es decir, mi web genera muchisimas paginas dinamicas y utilizo el mod_rewrite para hacerlas mas amigables, pero me gustaria saber cuantas paginas exactas tiene mi web. es posible?
__________________ Colsitio. Guía de Hosting |
| ||||
Ocrum2004, gracias eso es lo que queria saber, basicamente la metodologia y el lenguaje de programacion, y tenes el spider montado en un equipo dedicado a eso , con que conexion?, la base de datos debe tener un tamaño importante no? bueno por supuesto los vuelvo a felicitar por el trabajo de www.cuasar.com, mas ahora que me entero que es un desarrollo desde 0.
__________________ Desarrollo sitios web portales hosting Neuquen Argentina • La imaginación es más importante que el conocimiento Albert Einstein (1879-1955) |
| |||
El spider de cuasar está alojado en un servidor dedicado con conexión a 1 Mega, 3 Discos duros de 200 Gigas. ¿la base de datos?, pues ya te puedes imaginar lo que ocupa. Espero que muy pronto podamos hacer las primeras búsquedas en cuasar.com, pero primero tengo que filtrar páginas basura y clasificar la información. |
| |||
Hola, Cita: En www.sf.net y en www.freshmeat.net tienes una amplia variedad de robots, spiders y crawlers. Seria cuestion de encontrar uno al que puedas limitar su "territorio" de recorrido a tu dominio.
Iniciado por oscarva Hola y hay alguna forma de hacer un pequeño robot para mi web, es decir, mi web genera muchisimas paginas dinamicas y utilizo el mod_rewrite para hacerlas mas amigables, pero me gustaria saber cuantas paginas exactas tiene mi web. es posible? De todas formas, muchos de estos robots estan limitados a ciertos tipos de enlaces. Por ejemplo, muchos no siguen el action de los formularios, el flash se les atraganta, y los enlaces javascript (popups) tampoco suelen ser de su agrado. Asi que pueden no encontrar el 100% de tus URLs. saludos. PD: Pensaba que se llamaban spiders porque recorrian la web (spider-web: telaraña).
__________________ Josemi Aprendiz de mucho, maestro de poco. |
| ||||
Oooooo pabada de discos heeee ? , es impresionante la informacion que se maneja...impresionante. Y para cuando tenemos el buscador disponible?????
__________________ Desarrollo sitios web portales hosting Neuquen Argentina • La imaginación es más importante que el conocimiento Albert Einstein (1879-1955) |
| |||
Me gustaría que para dentro de un mes podamos hacer las primeras búsquedas, luego tendremos que ir afinando las búsquedas, eso ya será entre todos. ¿ok? El spider ya está estable, filtra, capturas páginas, extrae direcciones, identifica el idioma, cachea, identifica contenidos flash (idea de PGBWebs), última modificación y tamaño de página. Ahora estoy con la categorización, cuasar pretende categorizar las páginas principales de cada web de manera automática, de momento ya identifica páginas porno (estoy haciendo pruebas con esto, anda que no hay en internet, uffff) y las separa. |
| ||||
buenisimo, y cualquier cosa en que se pueda dar una mano ..avise nomas.
__________________ Desarrollo sitios web portales hosting Neuquen Argentina • La imaginación es más importante que el conocimiento Albert Einstein (1879-1955) |
| |||
y cuasar.com esta planeada como negocio? como experimento? |