Ver Mensaje Individual
  #1 (permalink)  
Antiguo 06/08/2008, 05:48
Belzebu
 
Fecha de Ingreso: enero-2007
Mensajes: 78
Antigüedad: 18 años
Puntos: 0
Filtro links web

Buenas, estoy programando una especie de crawler y me ha surgido un problema que no se me ocurre como resolver.

El problema es que no se que función utilizar para detectar los links dentro de la web, debido a los múltiples formatos que estos pueden tener...

Por el momento he desarrollado uno que funciona para links sin mas información que la web a la que referencian. Lo hago filtrando todos los tags y buscando "<a href", hasta aqui todo perfecto, pero no puedo cojer TODOS los links de manera correcta.

El filtro es algo asi:
Código PHP:
if(texto.contains("href")){
texto texto.substring(8,texto.lastIndexOf(" ")-1);
System.out.println(texto);} 

Alguien sabe de alguna API que lo haga, algún lugar donde mirar o simplemente una idea?

Saludos y gracias