Necesito un script que busque emails de una página HTML. Lo he intentado con expresiones regulares, pero no he conseguido nada.
¿sabeis de algun script que ya lo haga?
| |||
Buscar email en una pagina Necesito un script que busque emails de una página HTML. Lo he intentado con expresiones regulares, pero no he conseguido nada. ¿sabeis de algun script que ya lo haga? |
| |||
código hola Ocrum2004 alli te envió un código que encontré en la red es gratis lee las condiones de la licencia a lo mejor te sirva adaptalo y por lo menos agradecer al author #!/usr/bin/python # vim: set expandtab tabstop=4 shiftwidth=4: # +----------------------------------------------------------------------+ # | MailingListStat: | # | Herramienta de analisis de listas de correo-e | # | Modulo de descarga de archivos de listas | # +----------------------------------------------------------------------+ # | http://barba.dat.escet.urjc.es:9080/grex/pfc/jcrespo | # +----------------------------------------------------------------------+ # | Copyright (c) 2004 Javier Crespo Martin(Madrid, Spain) | # +----------------------------------------------------------------------+ # | This program is free software. You can redistribute it and/or modify | # | it under the terms of the GNU General Public License as published by | # | the Free Software Foundation; either version 2 or later of the GPL. | # +----------------------------------------------------------------------+ # | Authors: | # | Javier Crespo Martin <[email protected]> | # +----------------------------------------------------------------------+ # '''Modulo de descarga de archivos de listas @author: Javier Crespo Martin @organization: Grupo de Sistemas y Comunicaciones, Universidad Rey Juan Carlos @copyright: 2004 Javier Crespo Martin(Madrid, Spain)) @license: GNU GPL version 2 or any later version @contact: [email protected] ''' import sys, re, urllib, pydoc, os from config import * def ObtenArchivos(url = config_url): ''' 0. Funcion para parsear una pagina html y obtener y descargar los archivos de listas de correo 1. Documentacion optimizada para epydocc 2. Versión 1.00 3. Descripcion: Se conecta a una url y parsea la pagina en busca de archivos de listas de correos y los guarda en disco local. @param url: Esta es la direcion a al que se conecta el programas para descargarse los archivos de listas de correo. @param dir: Ruta donde se van a guardar los archivos. @type url: string variable @type dir: string variable @return: guarda los archivos en disco local, en la ruta especificada ''' #informacion print 'Pagina en la que se va a buscar\n' + url #se obtine la pagina de la web print 'Conectando a la pagina' urllib.urlretrieve(url, filename = config_mainDirectory + 'pagina.htm') #os.system('wget ' + url + ' -O ' + config_mainDirectory + 'pagina.htm') #se crean los patrones de busqueda <td><A href="2003-July.txt">[ Texto 438 KB ]</a></td> patron0 = re.compile('^(.*)A|a href="((.*)'+ config_tipos +')"(.*)') patron1 = re.compile('(.*)/((.*)'+ config_tipos +')') print 'se van a buscar los siguiente tipos de archivos\n' + config_tipos #se abre el fichero fichero = open (config_mainDirectory + 'pagina.htm') list = [] #Buscando y guardando archivos print '\nBuscando y guardando archivos' # Crea el directorio si no existe if not os.path.isdir(config_filesComprimidos): os.mkdir(config_filesComprimidos) while 1: linea = fichero.readline() if not linea: break resultado0 = patron0.match(linea) if resultado0: archivo = patron1.match(resultado0.group(2)) list.append(resultado0.group(2)) print 'Descargando fichero: ' + resultado0.group(2) urllib.urlretrieve(url + '/' + resultado0.group(2), filename = config_filesComprimidos + resultado0.group(2)) continue print 'Lista de archivos obtenidos' print list |
| |||
siento la demora, acabo de leer tu mensaje en el foro de las estadisticas y me he dado cuenta de tu pequeño enfado (y con razón) por no responder a tu ayuda. No me ha servido el código, ya que no entiendo muy bien que es lo que hace el código, parece que busca enlaces pero no veo la sentencia que busque los emails. Pero te agradezco la ayuda. El script que necesito es para buscar emails en una página HTML, es para el spider que estoy creando (puedes ver la url en el foro de posicionamiento), sirve para comprobar si tu página web es bien vista por Google y una de las opciones que me gustaría poner es si encuentra emails. |
| |||
hola Ocrum2004 [php]¿Cómo hacer un extractor de e-mails? Pues muy fácil... En un textbox metemos la cadena de texto que queremos procesar y el script automáticamente extrae cualquier e-mail encontrado. Muy últil !!! Código PHP: <?php //Verificamos si se introdujo alguna cadena if (!isset($cadena)) { echo "Debe introducir una cadena de texto."; } else { stripslashes($cadena); $regexp_email = '[_a-z0-9\-]+(\.[_a-z0-9\-]+)*\@[_a-z0-9\-]+(\.[a-z]{1,4})+'; //Extraemos los e-mails que concuerden con la expresión regular $encontrado = preg_match_all ("/$regexp_email/i", $cadena, $emparejados, PREG_SET_ORDER); //Si se encuentra, no los muestra cada uno en una lista if ($encontrado) { foreach ($emparejados AS $i => $contenidoParentesis) { printf ('Emparejamiento %d = <span class="emparejamiento">%s</span>' . "<br />\n", $i, $contenidoParentesis[0]); } } else { echo "No se encontró nada"; } } echo <<< HTML <html> <head> <title>Extractor de e-mails</title> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> </head> <body> <form method="post" action=""> <textarea name="cadena" cols="120" rows="30"></textarea> <input type="submit" name="Submit" value="Procesar"> </form> </body> </html> HTML; ?> [php] Eso es todo, insertar el texto y sacar e-mails. Escrito por drcyber esto lo encontré en las faq del foro buscando otro tema me encontré este es un extractor de email no se si este te vale el anterior fué Algo que encontré navegando y pense que te podrá servir pero no lo he analizado bueno espero que este te sirva como siempre escribir un thank you al author hasta la próxima |