Foros del Web » Programando para Internet » Python »

Buscador de url

Estas en el tema de Buscador de url en el foro de Python en Foros del Web. Hola amigos, hace unos meses propuse un tema similar a este, pero lo aparque. Ahora me interesa volver a sacar el tema y haver si ...
  #1 (permalink)  
Antiguo 20/04/2011, 09:22
 
Fecha de Ingreso: febrero-2011
Ubicación: Tarragona, España
Mensajes: 51
Antigüedad: 13 años, 9 meses
Puntos: 0
Buscador de url

Hola amigos, hace unos meses propuse un tema similar a este, pero lo aparque.
Ahora me interesa volver a sacar el tema y haver si alguien me da una solución.
Explico, necesitaria crear un buscador de url's, es decir que metieramos una palabra y un nivel de profundidad y el scrip me encontrada todas las url's que contengan dicha palabra en su contenido web. y me diera todas estas url's en un archivo .csv
Nose si existe alguna libreria o lo tendria que implementar de 0.
Alguna idea pythoneros????
  #2 (permalink)  
Antiguo 20/04/2011, 09:39
Avatar de razpeitia
Moderador
 
Fecha de Ingreso: marzo-2005
Ubicación: Monterrey, México
Mensajes: 7.321
Antigüedad: 19 años, 8 meses
Puntos: 1360
Respuesta: Buscador de url

Usar un parser de html como lxml. Sacar el contenido web y usar regex. Regularmente no recomiendo regex pero creo que aquí se aplica muy bien.
  #3 (permalink)  
Antiguo 21/04/2011, 08:43
AlvaroG
Invitado
 
Mensajes: n/a
Puntos:
Respuesta: Buscador de url

Si, en este caso en el que el requisito es cualquier clase de url y no solamente enlaces, una expresión regular va mejor, aunque más compleja.

Supongo que algo rápido como 'http(s)?://[^ "><]+? (cadenas comenzando con http o https y luego todo hasta encontrar un espacio, una comilla o arcos de apertura o cierre de una etiqueta) sería un buen comienzo, aunque seguro anda por la web alguna mejor.

Aunque claro: falla con rutas relativas. Como las rutas relativas son usadas casi siempre en enlaces, podrías hacer otro patrón tal que obtenga los href de cada enlace, y si no comienza con http lo considere una ruta relativa, y la "complete" como debe ser.

Por acá un ejemplo de cómo se puede hacer con wget y awk:
http://superuser.com/questions/47089...-a-file-server
  #4 (permalink)  
Antiguo 28/04/2011, 03:50
 
Fecha de Ingreso: febrero-2011
Ubicación: Tarragona, España
Mensajes: 51
Antigüedad: 13 años, 9 meses
Puntos: 0
Respuesta: Buscador de url

Hola AlvaroG he estado provando lo comentado:
http(s)?://[^ "><]+? (cadenas comenzando con http o https y luego todo hasta encontrar un espacio, una comilla o arcos de apertura o cierre de una etiqueta...
el problema es que falla con las rutas relativas, vamos k no me las coge todas..
algun ejemplo de como hacer un href de cada enlace....
he mirado el ejemplo con wget y awk... no lo entiendo!!!

Algun ejemplo practico??
  #5 (permalink)  
Antiguo 28/04/2011, 20:22
AlvaroG
Invitado
 
Mensajes: n/a
Puntos:
Respuesta: Buscador de url

Lo de las rutas relativas podrías arreglarlo simplemente tomando toda cadena luego de un

href="

o

src="

y agregando la parte faltante. después de todo, se supone que ya sabés la ruta base de la página!

wget y awk son programas de UNIX (y por extensión de Linux), por lo que si estás en Windows deberás descargarlas. Simplemente fijate en la página que vinculé, al final hay un ejemplo. No puedo leer la documentación por vos

Etiquetas: arañaweb, crawler, spider, url
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 14:33.