Bien amigos,he seguido trabjando con mi crawler, y ahora tengo un pequeño problema, resulta que tengo una lista de url separadas por una coma, es decir:
['http://www.pagina1.com/','http://www.pagina2.com/'] lo que quiero es recorrer esta lista y coger cada url y descargarme las imagenes, como el paso anterior.
Tengo el siguiente codigo, pero no me rula y no puedo entender porque!!!!
Código Python:
Ver originalnom_archiu = raw_input('introducir el archivo .txt: ')
f = open (nom_archiu)
datos = f.read()
lista = string.split(datos)
print lista
for i in range(len(lista)):
sock = urllib.urlopen(lista[i])
data = sock.read()
sock.close()
soup = BeautifulSoup(data)
for counter, img in enumerate(soup.findAll('img')):
if img['src'].startswith("http://"):
ipath = img['src']
else:
ipath = url + img['src']
try:
local = open((img['src'].split("/")[-1]), "wb")
internet = urllib.urlopen(ipath)
except IOError:
continue
data = internet.read()
local.write(data)
internet.close()
local.close()
creo que el error esta en el if, he debugado el codigo y cuando llega al if me peta el program, pero no entiendo porque....
igual es que al coger el elemento de la lista me lo coge como un string i no como una url, nolose... o igual es culpa del segundo for que no lo cierro bien.... llevo varias horas dandole al tema...
me gustaria mucho vustra ayuda amigos!!!!
gracias de antemano!!!