codigoi es el codigo fuente de una web en tipo String.
Código Javascript:
Ver original
Pattern p = Pattern.compile("<a href=\"/(\\w+)/en.html\">(\\w+)</a>");; Matcher m = p.matcher(codigoi); while (m.find()) { ediciones.put(m.group(1), m.group(2)); }
Esto en principio me funciona bien, el problema lo tengo con las expresiones regulares. Os opngo 2 ejemplos:
Código HTML:
Ver original
En casos como el segundo, el patrón no funciona, he estado mirando la api de java sobre pattern, pero lo cierto es que no la acabo de entender muy bien, he encontrado algunos ejemplos por ahí buscando y tampoco.
La cosa es que parece que el grupo (\\w) solo coje cuando no hay espacios ni caracteres etc.. Y mi idea es que lo contemple también, porque necesito extraer el contenido de todos los enlaces.