Estoy leyendo una pagina con python con la intención que me obtenga los valores de una etiqueta href y su descripción. me explico:
tengo lo siguiente, de una lista de fechas de nacimiento, donde al hacer click al id lleva a mas datos de la persona.
Código HTML:
Ver original<a href="index.php?id=1111">23/08/1980
</a> <a href="index.php?id=1111">CARLOS RIQUELME
</a>
<a href="index.php?id=1112">20-04-1983
</a> <a href="index.php?id=1112">Luis Sobarso
</a>
<a href="index.php?id=1113">11/03
</a> <a href="index.php?id=1113">
Ana López
Si se fijan cada id tiene dos valores fecha y nombre, como tiene que ser la exprecion regular para que me encuentre todos??
tengo lo siguiente que encontré por ahí
Código Python:
Ver originalimport httplib2
import re
h = httplib2.Http('.cache')
response, content = h.request(url)
link = re.compile(b'<a href=\"index.php\?id=([\d]+)\">(.*?)<\/a>')
personas = link_of.findall(content)
obtengo un array de las personas, pero no esta Ana Lopez (seguro que por los \r\n\t no se como y donde ponerlos) y en Carlos Riquelme me deja el