Buscar email en una pagina

Ocrum2004 · #1 (**permalink**) 23/01/2005, 09:39

Necesito un script que busque emails de una página HTML. Lo he intentado con expresiones regulares, pero no he conseguido nada.

¿sabeis de algun script que ya lo haga?

carlos3074 · #2 (**permalink**) 23/01/2005, 10:18

hola

Ocrum2004 alli te envió un código que encontré en la red es gratis lee las condiones de la licencia a lo mejor te sirva

adaptalo y por lo menos agradecer al author

#!/usr/bin/python
# vim: set expandtab tabstop=4 shiftwidth=4:
# +----------------------------------------------------------------------+
# | MailingListStat: |
# | Herramienta de analisis de listas de correo-e |
# | Modulo de descarga de archivos de listas |
# +----------------------------------------------------------------------+
# | http://barba.dat.escet.urjc.es:9080/grex/pfc/jcrespo |
# +----------------------------------------------------------------------+
# | Copyright (c) 2004 Javier Crespo Martin(Madrid, Spain) |
# +----------------------------------------------------------------------+
# | This program is free software. You can redistribute it and/or modify |
# | it under the terms of the GNU General Public License as published by |
# | the Free Software Foundation; either version 2 or later of the GPL. |
# +----------------------------------------------------------------------+
# | Authors: |
# | Javier Crespo Martin <[email protected]> |
# +----------------------------------------------------------------------+
#
'''Modulo de descarga de archivos de listas
@author: Javier Crespo Martin
@organization: Grupo de Sistemas y Comunicaciones, Universidad Rey Juan Carlos
@copyright: 2004 Javier Crespo Martin(Madrid, Spain))
@license: GNU GPL version 2 or any later version
@contact: [email protected]
'''

import sys, re, urllib, pydoc, os
from config import *

def ObtenArchivos(url = config_url):
'''
0. Funcion para parsear una pagina html y obtener y descargar
los archivos de listas de correo

1. Documentacion optimizada para epydocc

2. Versión 1.00

3. Descripcion: Se conecta a una url y parsea la pagina en busca de
archivos de listas de correos y los guarda en disco local.
@param url: Esta es la direcion a al que se conecta el programas
para descargarse los archivos de listas de correo.
@param dir: Ruta donde se van a guardar los archivos.
@type url: string variable
@type dir: string variable
@return: guarda los archivos en disco local, en la ruta especificada
'''

#informacion
print 'Pagina en la que se va a buscar\n' + url

#se obtine la pagina de la web
print 'Conectando a la pagina'
urllib.urlretrieve(url, filename = config_mainDirectory + 'pagina.htm')
#os.system('wget ' + url + ' -O ' + config_mainDirectory + 'pagina.htm')

#se crean los patrones de busqueda <td><A href="2003-July.txt">[ Texto 438 KB ]</a></td>
patron0 = re.compile('^(.*)A|a href="((.*)'+ config_tipos +')"(.*)')
patron1 = re.compile('(.*)/((.*)'+ config_tipos +')')
print 'se van a buscar los siguiente tipos de archivos\n' + config_tipos

#se abre el fichero
fichero = open (config_mainDirectory + 'pagina.htm')
list = []

#Buscando y guardando archivos
print '\nBuscando y guardando archivos'

# Crea el directorio si no existe
if not os.path.isdir(config_filesComprimidos):
os.mkdir(config_filesComprimidos)
while 1:
linea = fichero.readline()
if not linea:
break
resultado0 = patron0.match(linea)
if resultado0:
archivo = patron1.match(resultado0.group(2))
list.append(resultado0.group(2))
print 'Descargando fichero: ' + resultado0.group(2)
urllib.urlretrieve(url + '/' + resultado0.group(2), filename = config_filesComprimidos + resultado0.group(2))
continue

print 'Lista de archivos obtenidos'
print list

Ocrum2004 · #3 (**permalink**) 26/01/2005, 02:46

siento la demora, acabo de leer tu mensaje en el foro de las estadisticas y me he dado cuenta de tu pequeño enfado (y con razón) por no responder a tu ayuda. No me ha servido el código, ya que no entiendo muy bien que es lo que hace el código, parece que busca enlaces pero no veo la sentencia que busque los emails. Pero te agradezco la ayuda. El script que necesito es para buscar emails en una página HTML, es para el spider que estoy creando (puedes ver la url en el foro de posicionamiento), sirve para comprobar si tu página web es bien vista por Google y una de las opciones que me gustaría poner es si encuentra emails.

carlos3074 · #4 (**permalink**) 29/01/2005, 12:27

[php]¿Cómo hacer un extractor de e-mails?

Pues muy fácil...

En un textbox metemos la cadena de texto que queremos procesar y el script automáticamente extrae cualquier e-mail encontrado. Muy últil !!!
Código PHP:

<?php
//Verificamos si se introdujo alguna cadena
if (!isset($cadena)) {
echo "Debe introducir una cadena de texto.";
} else {
stripslashes($cadena);

$regexp_email = '[_a-z0-9\-]+(\.[_a-z0-9\-]+)*\@[_a-z0-9\-]+(\.[a-z]{1,4})+';
//Extraemos los e-mails que concuerden con la expresión regular
$encontrado = preg_match_all ("/$regexp_email/i", $cadena, $emparejados, PREG_SET_ORDER);
//Si se encuentra, no los muestra cada uno en una lista
if ($encontrado) {
foreach ($emparejados AS $i => $contenidoParentesis) {
printf ('Emparejamiento %d = <span class="emparejamiento">%s</span>' .
"<br />\n", $i, $contenidoParentesis[0]);
}
} else {
echo "No se encontró nada";
}
}

echo <<< HTML

<html>
<head>
<title>Extractor de e-mails</title>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
</head>

<body>
<form method="post" action="">
<textarea name="cadena" cols="120" rows="30"></textarea>
<input type="submit" name="Submit" value="Procesar">
</form>
</body>
</html>

HTML;

?>
[php]
Eso es todo, insertar el texto y sacar e-mails.

Escrito por

drcyber

esto lo encontré en las faq del foro buscando otro tema me encontré este
es un extractor de email
no se si este te vale el anterior fué Algo que encontré navegando y pense que te podrá servir pero no lo he analizado

bueno espero que este te sirva
como siempre escribir un thank you al author

hasta la próxima