El web crawler funcional que encontré está escrito en phyton, al igual que muchos otros. Encontré también muchas peticiones de como desarrollar un spider.
Por eso les hago una propuesta:
Creemos un spider en PHP para todos los usuarios de FDW, todos pueden colaborar y lo armaremos entre todos.
Para que el web crawler sea funcional para todos debe hacer lo siguiente:
Cita:
Es un trabajo bastante grande, así que podríamos dividirlo en varias partes y que cada usuario vaya publicando parte del código.*Conectarse a una DB (base de datos)
*Explorar la url que se le entregue,
*Si es funcional: {
Extraer la url y colocarla en la DB.
Explorar el código html y extraer lo que se encuentre en <title> </title>, añadir a DB.
Buscar las metatags. En caso de que no existan:
Extraer primer párrafo para la descripción y añadir a DB.
Extraer encabezados (h1,h2,h3...) y texto en negrita (<b></b>) para las keywords.
}
*Explorar la url que se le entregue,
*Si es funcional: {
Extraer la url y colocarla en la DB.
Explorar el código html y extraer lo que se encuentre en <title> </title>, añadir a DB.
Buscar las metatags. En caso de que no existan:
Extraer primer párrafo para la descripción y añadir a DB.
Extraer encabezados (h1,h2,h3...) y texto en negrita (<b></b>) para las keywords.
}
Si les parece válida e interesante la propuesta podemos empezar con el código.
El código será libre por lo que todos podrán modificarlo y compartirlo (mientras admitan que fue desarrollado por los usuarios de FDW).