Hola, tengo un problemilla desarrollando una aplicación en java. Tengo codigo tal así:
codigoi es el codigo fuente de una web en tipo String.
Código Javascript
:
Ver originalPattern p = Pattern.compile("<a href=\"/(\\w+)/en.html\">(\\w+)</a>");;
Matcher m = p.matcher(codigoi);
while (m.find())
{
ediciones.put(m.group(1), m.group(2));
}
Esto en principio me funciona bien, el problema lo tengo con las expresiones regulares. Os opngo 2 ejemplos:
Código HTML:
Ver original<a href="/extraer1/en.html">Extraer1texto
</a> <a href="/extraer2/en.html">Extraer 2 : texto
</a>
En casos como el segundo, el patrón no funciona, he estado mirando la api de java sobre pattern, pero lo cierto es que no la acabo de entender muy bien, he encontrado algunos ejemplos por ahí buscando y tampoco.
La cosa es que parece que el grupo (\\w) solo coje cuando no hay espacios ni caracteres etc.. Y mi idea es que lo contemple también, porque necesito extraer el contenido de todos los enlaces.