Extractor de urls en un documento

xcorpion · #1 (**permalink**) 24/07/2008, 09:50

Hola que tal, estoy de vuelta por los foros, queria hacerles una pequeña consulta, alguien por aqui conoce algun script en php que extraiga todas las urls que coincidan con un determinado dominio desde un documento html? además tendrias que tener un metodo eficiente, consumir poca memoria y correr rápido.
Si alguien puede ayudarme se lo agradeseria mucho.
Saludos

Carlojas · #2 (**permalink**) 24/07/2008, 10:05

Que tal xcorpion, dudo que haya un script como tal que realize lo que deseas, pero se podria plantear con algunas funciones tales como fread y fopen , para leer y recorrer el documento, y puedes utlizar expresiones regulares para buscar las posibles coincidencias de las urls y el dominio, puedes mirar esta función preg_match

Saludos.

xcorpion · #3 (**permalink**) 24/07/2008, 10:11

Muchas gracias por tu respuesta. Si me paso por la mente hacerlo así, solo que no soy muy bueno programando y necesito que el script tenga una eficiencia máxima, voy a seguir buscando un script que pueda hacer esto, si no encuentro algo voy a tener que programarlo yo mismo y el servidor va a sufrir las consecuencias :P

LoveMeNot · #4 (**permalink**) 24/07/2008, 10:29

Código PHP:

  $html = file_get_contents("http://dominio.com/foo/bar.php");

preg_match_all('#<a  ([^>]* )?href=("|\')([^>]+)("|\')[^>]*>'Uim,$html,$coincidencias);

//En $coincidencias[3] tienes un array con TODOS los links.

Y luego solo te queda comprobar las que son del mismo dominio(puede hacerse en el propio regex también).
Ten en cuenta que hay tres tipos de enlaces que cumplen lo que buscas:

"http://dominio.com/carpeta/archivo.php" (completas?)
"carpeta/archivo.php" (relativas)
y "/carpeta/archivo.php" (absolutas)

xcorpion · #5 (**permalink**) 24/07/2008, 10:33

Gracias LoveMeNot, encontre un script que hace algo similar:
http://w-shadow.com/blog/2007/07/16/...age-using-php/

Aun que tu lo pusiste más simplificado.
Gracias de nuevo

un saludo

LoveMeNot · #6 (**permalink**) 24/07/2008, 10:51

Me parece muy completo, aunque su eficiencia es mejorable.

Por otro lado, si quisieras hacer algo parecido a un rastreador de páginas web es mala idea usar PHP. Si es alguna otra cosa que necesitas hacer a pequeña escala pues entonces perfecto.

Saludos :)

xcorpion · #7 (**permalink**) 24/07/2008, 11:00

Le hice algunos ajustes esperando que mejore la eficiencia, si tienes alguna sugerencia para mejorarlo porfavor dimela. No es un crawler pero si hay alguna mejorarlo sería bueno probar.

LoveMeNot · #8 (**permalink**) 24/07/2008, 11:11

Hay algunas expresiones regulares y partes del algoritmo que se pueden retocar, pero no son muy importantes.
El problema que veo está en el uso de la función in_array que es recomendable solo para arrays pequeños. Para que te hagas una idea, si encuentra 200 links, hace 20100 comparaciones, si hay 300 links 45150, etc.

De todas formas solo te compensa retocarlo si la eficiencia es muy importante.
Y además pensándolo bien se te escapa tiempo de ejecución por otras partes, como en el mismo curl. Nos estariamos preocupando por un par de segundos, cuando al abrir una página con curl puedes perder 30 segundos perfectamente.

xcorpion · #9 (**permalink**) 24/07/2008, 11:21

Si es bastante importante, aun que no creo que afecte mucho, solo pienso extraer un máximo de 50 links por pagina, lo que voy a intentar es descartar las urls que no coincidan con el dominio e intentar que recolete urls que no necesariamente pertenescan a un link, todo esto modificando la expresion regular. El unico problema: que soy malisimo con regexp, pero bueno, de cualquier forma voy a intentarlo.
Saludos y gracias por el apoyo

xcorpion · #10 (**permalink**) 24/07/2008, 11:44

Intente con esto pero no me funciona:

Código PHP:

  preg_match_all('/http:\/\/(www\.)?[(dminio\.com)(dominio2\.com)]\/[^\"\'\s<)]*/i', $html, $m);