Foros del Web - Ver Mensaje Individual

Ricrever · #22 (**permalink**) 23/02/2011, 09:33

Bien amigos,he seguido trabjando con mi crawler, y ahora tengo un pequeño problema, resulta que tengo una lista de url separadas por una coma, es decir:
['http://www.pagina1.com/','http://www.pagina2.com/'] lo que quiero es recorrer esta lista y coger cada url y descargarme las imagenes, como el paso anterior.
Tengo el siguiente codigo, pero no me rula y no puedo entender porque!!!!

Código Python:

Ver originalnom_archiu = raw_input('introducir el archivo .txt: ')
f = open (nom_archiu)
datos = f.read()
 
lista = string.split(datos)
print lista
 
for i in range(len(lista)):
    sock = urllib.urlopen(lista[i])
    data = sock.read()
    sock.close()
    soup = BeautifulSoup(data) 
    for counter, img in enumerate(soup.findAll('img')):
        if img['src'].startswith("http://"):
            ipath = img['src']
        else:
            ipath = url + img['src']
   
        try:
            local = open((img['src'].split("/")[-1]), "wb")
            internet = urllib.urlopen(ipath)
        except IOError: 
            continue
        
        data = internet.read()
        local.write(data)
 
        internet.close()
        local.close()

creo que el error esta en el if, he debugado el codigo y cuando llega al if me peta el program, pero no entiendo porque....
igual es que al coger el elemento de la lista me lo coge como un string i no como una url, nolose... o igual es culpa del segundo for que no lo cierro bien.... llevo varias horas dandole al tema...
me gustaria mucho vustra ayuda amigos!!!!

gracias de antemano!!!