[Ayuda]Webcrawler casi terminado

Naica · #1 (**permalink**) 27/06/2012, 11:02

Hola!, ya tengo mi webcrawler practicamente terminado, lo único que me falta es conectarlo a una base de datos para probar como funciona. El problema es que no se como lograrlo.

El código se los regalo para todos los que quieran desarrollarlo un poco más, si alguien puede ayudarme a conectarlo con una DB se lo agradezco mucho.

El webcrawler tiene la siguiente función: busca en el código de la página un enlace, luego sigue los enlaces que contiene esa página y se le asigna a cada página una keyword. Así si uno busca "sandía" le aparecerán todas las páginas que tengan asignada la keyword "sandía".

Código Python:

Ver originaldef get_next_target(page):
    start_link = page.find('<a href=')
    if start_link == -1:
        return None, 0
    start_quote = page.find('"', start_link)
    end_quote = page.find('"', start_quote + 1)
    url = page[start_quote + 1:end_quote]
    return url, end_quote
 
def get_all_links(page):
    links = []
    while True:
        url, endpos = get_next_target(page)
        if url:
            links.append(url)
            page = page[endpos:]
        else:
            break
        return links
 
def add_to_index(index, keyword, url):
    for entry in index:
        if entry[0] == keyword:
            entry[1].append(url)
            return
        index.append([keyword, [url]])
 
def lookup(index, keyword):
    for entry in index:
        if entry[0] == keyword:
            return entry[1]
        return[]
 
    def crawl_web(seed)
    tocrawl = [seed]
    crawled = []
    index = []
    while tocrawl:
        page = tocrawl.pop()
        if page not in crawled:
            content = get_page(page)
            [add_page_to_index(index,page,content)]
            union (tocrawl, get_all_links(content))
            crawled.append(page)
            return index

Muchas gracias!

PD: está en inglés porque el tutorial online que seguí para crearlo era en inglés =P

razpeitia · #2 (**permalink**) 27/06/2012, 11:12

Un web crawler lo puedes dividir en 2 partes:

La parte de crawling y la parte de scraping. La parte de crawling consiste en seguir links mientras que el scrapping consiste en obtener datos de las paginas crawleadas.

Por cierto hay herramientas ya hechas para hacer el crawling, por ejemplo scrapy.

Otra cosa, a que base de datos lo quieres conectar? puedes usar sqlite3 para pruebas.

Naica · #3 (**permalink**) 27/06/2012, 12:31

Quería intentar subirlo a una base de datos con phpMyAdmin.

Si utilizo scrapy para el crawling, ¿tendría que crear un webcrawler que se encarge del scraping editando los registros añadidos por 'scrapy' a la base de datos, para sumar el titulo, keywords, descripción y lo que se encuentre?

razpeitia · #4 (**permalink**) 27/06/2012, 13:29

Cita:

Iniciado por Naica

Quería intentar subirlo a una base de datos con phpMyAdmin.

Si utilizo scrapy para el crawling, ¿tendría que crear un webcrawler que se encarge del scraping editando los registros añadidos por 'scrapy' a la base de datos, para sumar el titulo, keywords, descripción y lo que se encuentre?

Si, lo único que tendrías que hacer es darle la(s) url(s) donde comienza.

Modelar la base de datos en este caso sería un solo modelo.

Y finalmente indicarle como va a sacar los con xpath.

#5 (**permalink**) 28/06/2012, 07:27

Esto es parte de http://www.udacity.com/overview/Course/cs101, ¿no?

conectarlo a una BBDD es una buena forma de expandirlo :) Primero que nada deberías crear tu modelo de datos (qué datos guardar y cómo distribuirlos en la BBDD). Luego, la forma más sencilla de trabajar con una BBDD es utilizar un ORM, en Python el más completo es SQLAlchemy.
Tendrás que elegir qué BBDD usar, python incluye SQLite pero MySQL o PostgreSQL son fáciles de conectar también.

Saludos.