Hola me interesaria recoger solamente las URL's del codigo fuente HTML que guardo en la variable "content".
Solo he logrado conseguir que me devuelva algo como esto:
Código:
<a href="http://www.marca.com/corporativo/contacto.html">Contacto</a>
Esta es mi funcion:
Código:
public List<String> obtenerLinks() {
String regex = "<\\s*?[a|A]\\s+?.*?>.*?<\\s*?/[a|A]\\s* ?>";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(this.content);
//Voy añadiendo uno a uno los links dentro del ArrayList listalinks
List listaLinks=new ArrayList();
while (matcher.find()) {
listaLinks.add(matcher.group());
}
//Imprimo los links que encuentro
System.out.println("Links Encontrados:");
for (int i = 0; i < listaLinks.size(); i++) {
System.out.println(listaLinks.get(i));
}
//Y el total encontrados.
System.out.println("Total links encontrados: " + listaLinks.size());
return listaLinks;
}
Necesito vuestra ayuda!!! Muchas gracias de antemano ;)