Foros del Web - Ver Mensaje Individual

xarmagedonx · #1 (**permalink**) 23/06/2012, 15:22

Hola programadores, expertos, novatos y todos los usuarios de FDW!!, hace ya algunas semanas que estoy investigando sobre los spiders y webcrawlers, y me di cuenta que aunque en PHP haya más programadores no hay tanta información sobre estos robots como en Python.

El web crawler funcional que encontré está escrito en phyton, al igual que muchos otros. Encontré también muchas peticiones de como desarrollar un spider.

Por eso les hago una propuesta:

Creemos un spider en PHP para todos los usuarios de FDW, todos pueden colaborar y lo armaremos entre todos.

Para que el web crawler sea funcional para todos debe hacer lo siguiente:

Cita:

*Conectarse a una DB (base de datos)
*Explorar la url que se le entregue,
*Si es funcional: {
Extraer la url y colocarla en la DB.
Explorar el código html y extraer lo que se encuentre en <title> </title>, añadir a DB.
Buscar las metatags. En caso de que no existan:
Extraer primer párrafo para la descripción y añadir a DB.
Extraer encabezados (h1,h2,h3...) y texto en negrita (<b></b>) para las keywords.
}

Es un trabajo bastante grande, así que podríamos dividirlo en varias partes y que cada usuario vaya publicando parte del código.

Si les parece válida e interesante la propuesta podemos empezar con el código.

El código será libre por lo que todos podrán modificarlo y compartirlo (mientras admitan que fue desarrollado por los usuarios de FDW).