Bueno en principio decirles que había dejado este post en otro foro y siguiendo la recomendación de un usuario lo pregunto aquí.
El post original es este
Muchas gracias
| ||||
Software de robot, araña, spider, crawler o como lo llamen Bueno en principio decirles que había dejado este post en otro foro y siguiendo la recomendación de un usuario lo pregunto aquí. El post original es este Muchas gracias |
| ||||
Gracias linkses La idea es montar un script en el que yo indique unas keyword, me busque las webs que tienen esas keywords, y me indexe la url, el título y la descripción en una base de datos access. No sé si podré hacerlo. Lo ideal sería conseguirlo en ASP porque yo de php ni idea. Ya sé que es difícil pero seguiré buscando. FeLiZ AñO NuEvO. [email protected] |
| ||||
hola, no es exactamente un webspider, pero si te hace exactamente lo que estas pidiendo.. yo lo he usado y me funciona perfectamente, esta en asp y acccess. suerte esta es la direccion de donde lo puedes bajar y encontrar documentacion para que aprendas sobre su funcionamiento. http://www.webwizguide.info/asp/samp...ine_script.asp
__________________ Control de Visitantes, Control de Accesos, Minutas digitales, Manejo de Correspondencia http://www.controldevisitantes.com |
| ||||
Gracias Lexus. Pero creoque después de examinarloc creo que el script es un buscador, muy bueno por cierto pero un buscador no un indexador. ¿O me equivoco?, que yo con el inglés estoy un poco perdida. Muchas gracias y espero tu aclaración. |
| ||||
![]() Saludos, estas en lo cierto, en el mensaje anterior decia que no era exactamente un spider sino un buscador, yo tambien ando detras de un indexador tal y como lo pides desde hace mucho tiempo y nadie me ha dado respuesta.. espero aqui lo hagan para poder empezar a trabajar en ello. se que con asp se puede hacer porque ya lo he visto funcionando en varios sitios. alguien que responda como hacer un indexador o metabuscador con asp ojala alguien sepa.. que estes bien
__________________ Control de Visitantes, Control de Accesos, Minutas digitales, Manejo de Correspondencia http://www.controldevisitantes.com |
| ||||
POr fin !!! Bueno pues parece que he encontrado algo que aunque no es ASP a mí me va ala perfección. Aquí les de jo el enlace. Muchas gracias a todos por las aportaciones. |
| ||||
hola, bueno pero es un programa .exe, solo funciona en tu maquina, seria bueno que alguien nos diga como hacer un metabuscador para paginas en internet con asp..
__________________ Control de Visitantes, Control de Accesos, Minutas digitales, Manejo de Correspondencia http://www.controldevisitantes.com |
| ||||
![]() Una vez estuve buscando como hacer un metabuscador en ASP y recuerdo haber guardado las direcciones interesantes para lo que quería en Mis Favoritos... y como soy una maniática de tenerlo ordenadito.... Encontré esto: ![]() Busca META Indexer Quizás ahí encuentres justo lo que buscas. ![]() Suerte! ![]() |
| ||||
hola, tu enlace esta roto, no va a ningun lado, por favor lo revisas y lo vuelves a colocar, este tema es muy interesante y nos gustaria poder encontrar algo asi.. muchas gracias.
__________________ Control de Visitantes, Control de Accesos, Minutas digitales, Manejo de Correspondencia http://www.controldevisitantes.com |
| |||
Bueno Creo que esto es tema antiguo, hace unos días, coloque no solo un post con un pequeño pero potente espider, sino que tambien el codigo fuente...... si lo que desean es buscar los metaname titulo, description y keyword...... Aqui lo tienen.... Valla que me rompi la Cabezota co este script, pero lo logre. si lo que deseas es verlo funcionando: Spider El furmulario para enviar la url a indexar....... <<<<<<<<<<<<<<<<<urlspider.asp>>>>>>>>>>>>>>>>>> > <%@LANGUAGE="VBSCRIPT" CODEPAGE="1252"%> <html> <head> <title>Documento sin título</title> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> </head> <body> <table width="450" border="0"> <tr> <td><form action="spider.asp" method="post" name="form" id="form"> <input name="url" type="text" id="url" value="http://www.forosdelweb.com" size="55"> <input type="submit" name="Submit" value="Indexar"> </form></td> </tr> </table> </body> </html> <<<<<<<<<<<<<<<<<<<<<<<<<>>>>>>>>>>>>>>>>>>>> El script que indexa las páginas... <<<<<<<<<<<<<<<<<<<<spider.asp>>>>>>>>>>>>>>>>>> <%@LANGUAGE="VBSCRIPT" CODEPAGE="1252"%> <% dim HTTP, url url=Request.Form("url") set HTTP=Server.CreateObject("Microsoft.XMLHTTP") HTTP.open "GET", url , False HTTP.Send stu=HTTP.statusText if HTTP.statusText="OK" then strFileContents = HTTP.ResponseText else Response.write "Error obteniendo Página " & HTTP.statustext end if set HTTP = nothing %> <% Dim key1, key2, errorkey, errordes strFileContents = replace(strFileContents, "<meta name=keywords", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<meta NAME=keywords", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META NAME=keywords", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META NAME=KEYWORDS", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META name=keywords", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META name=KEYWORDS", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<meta NAME=KEYWORDS", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<meta name='keywords'", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<meta NAME='keywords'", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META NAME='keywords'", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META NAME='KEYWORDS'", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META name='keywords'", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META name='KEYWORDS'", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<meta NAME='KEYWORDS'", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<meta name=""keywords""", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<meta NAME=""keywords""", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META NAME=""keywords""", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META NAME=""KEYWORDS""", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META name=""keywords""", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<META name=""KEYWORDS""", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<meta NAME=""KEYWORDS""", "<meta name=""keywords""") strFileContents = replace(strFileContents, "<meta name=description", "<meta name=""description""") strFileContents = replace(strFileContents, "<meta NAME=description", "<meta name=""description""") strFileContents = replace(strFileContents, "<META NAME=description", "<meta name=""description""") strFileContents = replace(strFileContents, "<META NAME=DESCRIPTION", "<meta name=""description""") strFileContents = replace(strFileContents, "<META name=description", "<meta name=""description""") strFileContents = replace(strFileContents, "<META name=DESCRIPTION", "<meta name=""description""") strFileContents = replace(strFileContents, "<meta NAME=DESCRIPTION", "<meta name=""description""") strFileContents = replace(strFileContents, "<meta name='description'", "<meta name=""description""") strFileContents = replace(strFileContents, "<meta NAME='description'", "<meta name=""description""") strFileContents = replace(strFileContents, "<META NAME='description'", "<meta name=""description""") strFileContents = replace(strFileContents, "<META NAME='DESCRIPTION'", "<meta name=""description""") strFileContents = replace(strFileContents, "<META name='description'", "<meta name=""description""") strFileContents = replace(strFileContents, "<META name='DESCRIPTION'", "<meta name=""description""") strFileContents = replace(strFileContents, "<meta NAME='DESCRIPTION'", "<meta name=""description""") strFileContents = replace(strFileContents, "<meta name=""description""", "<meta name=""description""") strFileContents = replace(strFileContents, "<meta NAME=""description""", "<meta name=""description""") strFileContents = replace(strFileContents, "<META NAME=""description""", "<meta name=""description""") strFileContents = replace(strFileContents, "<META NAME=""DESCRIPTION""", "<meta name=""description""") strFileContents = replace(strFileContents, "<META name=""description""", "<meta name=""description""") strFileContents = replace(strFileContents, "<META name=""DESCRIPTION""", "<meta name=""description""") strFileContents = replace(strFileContents, "<meta NAME=""DESCRIPTION""", "<meta name=""description""") strFileContents = replace(strFileContents, "<TITLE>", "<title>") strFileContents = replace(strFileContents, "</TITLE>", "</title>") if InStr(1, strFileContents, "<meta name=""keywords""",1) > 0 then key1 = InStr(1, strFileContents, "<meta name=""keywords""", 1) key1 = key1 + Len("<meta name=""keywords""") key2 = InStr(key1, strFileContents, """>", 1) keywords = Trim(Mid(strFileContents, key1, (key2 - key1))) keywords = Replace (keywords, "Content=""", "") keywords = Replace (keywords, "content=""", "") keywords = Replace (keywords, "CONTENT=""", "") keywords = Replace (keywords, "content=", "") keywords = Replace (keywords, "CONTENT=", "") keywords = Replace (keywords, "content='", "") keywords = Replace (keywords, "CONTENT='", "") Dim desc1, desc2 if InStr(1, strFileContents, "<meta name=""description""",1) > 0 then desc1 = InStr(1, strFileContents, "<meta name=""description""", 1) desc1 = desc1 + Len("<meta name=""description""") desc2 = InStr(desc1, strFileContents, """>", 1) descripcion = Trim(Mid(strFileContents, desc1, (desc2 - desc1))) descripcion = Replace (descripcion , "Content=""", "") descripcion = Replace (descripcion , "content=""", "") descripcion = Replace (descripcion , "CONTENT=""", "") descripcion = Replace (descripcion , "content=", "") descripcion = Replace (descripcion , "CONTENT=", "") descripcion = Replace (descripcion , "content='", "") descripcion = Replace (descripcion , "CONTENT='", "") if InStr(1, strFileContents, "<title>",1) > 0 then tit1 = InStr(1, strFileContents, "<title>", 1) tit1 = tit1 + Len("<title>") tit2 = InStr(tit1, strFileContents, "</title>", 1) titulo = Trim(Mid(strFileContents, tit1, (tit2 - tit1))) titulo = Replace (titulo, "'", " ") if keywords <> "" then response.Write("<strong>pagina Indexable</strong><br><br>") response.Write("<strong>"+stu+"</strong><br><br>") response.Write(keywords) response.Write("<br><br>") response.Write(descripcion) response.Write("<br><br>") response.Write(titulo) else response.Write("pagina No Indexable") 'response.Write("<br><br>") end if end if end if end if 'set HTTP = nothing %> <HTML> <HEAD> <TITLE></TITLE> </HEAD> <BODY> <p> </p> <p> </p> <table width="450" border="0"> <tr> <td><form name="form1" method="post" action="spider.asp"> <input name="url" type="text" id="url" value="http://" size="55"> <input type="submit" name="Submit" value="Indexar"> </form></td> </tr> </table> </BODY> </HTML> <<<<<<<<<<<<<<<<<<>>>>>>>>>>>>>>>>>>>>> Por cierto aprovechen y le echan un vistazo a una tienda virtual que tengo montada en: tienda si me convencen le doy el codigo...Je Je Je,. era una broma pongo el codigo a la orden... ![]() Última edición por RakoVky; 19/02/2003 a las 17:22 |
| ||||
Ummmm... ![]() Explica también lo que haces con key1, key2, desc1, desc2... pleaseeeee ![]() Un beso ![]() Última edición por Helbira; 20/02/2003 a las 02:20 |
| ||||
Me parece que en Webexperto.com.ar tienen un buscador que se conecta directamente a bases de datos y hace la busqueda ahi
__________________ garcef Facebook: url]https://www.facebook.com/memelandiax[/url] Twitter: @Memelandiax Vine:memelandiax Instagram: memelandiax Youtube: memelandiax |
| ||||
Muchas gracias rakovky, yo ya probé tu script y funciona de maravilla, lo que pasa es que debes saber la URL de la página de la que quieres ver sus meta, para eso me bastaría con ir a la dirección y ver código fuente. O utilizar tu script y luego copy-paste en la tabla de la bd. La idea es encontrar un sript o programilla que lo haga solo. Hay un programa que se llama web data extractor y se puede descargar una versión shareware en www.rafasoft.com , sería algo por el estilo lo que yo busco pero que además indexara el texto de las páginas ya que muchas web no están bien diseñadas y no tiene etiquetas meta, por lo qiue dejas de indexar muchas webs. Un saludo y gracias por el script. |
| |||
Bueno Maestros... saludos desde Venezuela. Bueno este como ven es un script experimental. pero se pueden hacer muchas cosas con el, por ejemplo: response.Write(keywords) response.Write("<br><br>") response.Write(descripcion) response.Write("<br><br>") response.Write(titulo) estos resultados lo puedes colocar en una BD. En realidad lo que yo particularmente quuiero lograr con este scripts, es crear un sistema capaz de indexar url previamentes guardas en una BD. es decir las solicitudes de petición de indexación que hacen los usuarios cada semana, esto si seria un verdadero robot o spider al estilo Yahoo. Hasta este punto lo que he logrado no cabe la menor duda de que es bastante. Lamento no haber terminado esto. pero resulta que abandone el proyecto cuando me entere que google ha hecho publicas sus bases de datos en sus 7000 servidores. lo que estoy haciendo es modificando mi spider para que se alimente con las bases de datos de google. para mayor info: Información lo malo: lo estoy haciendo en PHP..... Debido ha que existen mayores posibilidades que con ASP |
| |||
Elvira...... ¿Por qué haces todos esos "replace"? Me refiero a que no seria más fácil convertirlo todo a minúsculas? esta es una forma de hacerlo, recuerda que se crea una comparación de lo que posiblemente encontrariamos en los valores meta de la url a indexar. Por lo que es posible (la voz de la experiencia) que al comparar las cadenas nos encontermos con por ejemplo: "<meta name=keywords" que es diferente a "<meta name=""keywords""" cierto verdad si este patron de comparación no existe, el spider sencillamente no arrojara los meta de las página a indexar. por lo que he colocado los errores mas comunes en la estructura de los meta, pero admito es una forma de hacerlo, por lo que se aceptan sugerencias...... Explica también lo que haces con key1, key2, desc1, desc2... pleaseeeee if InStr(1, strFileContents, "<meta name=""keywords""",1) > 0 then key1 = InStr(1, strFileContents, "<meta name=""keywords""", 1) key1 = key1 + Len("<meta name=""keywords""") key2 = InStr(key1, strFileContents, """>", 1) supongamos que la página no tiene Keywords sencillamente no se cumple la condición, el valor arrojado es 0 if InStr(1, strFileContents, "<meta name=""keywords""",1) > 0 por otro parte si se cumple: supongamos que InStr no da la posición en la que se encuentra "<meta name=""keywords""" supongamos que es 355 almacenamos este valor en key1 la instrucción siguiente nos da el numero de caracter de la cadena y los suma a el resultado anterior. "<meta name=""keywords""" = 21 355 + 21 = 376 la posición exacta en donde comienzan la palabras clave. ¿que hago con todo esto?, muy simple: almaceno en la variable key2 la posición en la que se encuentra el cierre del valor del meta es decir: """>" por supuesto buscado desde el comienzo de los valores del meta buscado(376=key1) key2 = InStr(key1, strFileContents, """>", 1) supongamos que el valor arrojado es 520 entonces ya conseguimos el comienzo y fin exacto del contenido del METANAME KEYWORDS, serian: 376 <aqui estan las palabras claves> 520 entonces: obtenemos el contenido con keywords = Trim(Mid(strFileContents, key1 , (key2 - key1 ))) esto lo utilizo en la busqueda de todos lo meta................. mid (cadena, inicio, longitud). Devuelve una subcadena de otra, empezando por inicio y de longitud el inicio de la cadena: 476 , la longitud 520-476 Elvira el asunto creo que radica en entender los parametros de INSTR ....... INSTR (comienzo, cadena 1, cadena 2) Busca la primera aparición de la cadena 2 dentro de la cadena 1. Los parámetros comienzo y comparación son opcionales. El parámetro comienzo indica a partir de que carácter de la cadena 1 se empieza a buscar la cadena 2. Si se omite, la búsqueda se inicia desde el primer carácter. Un verdadero placer haber compartido todo esto con tu persona ![]() ![]() ![]() ![]() |
| ||||
Queridos maestros, un saludo y darles de nuevo las gracias por aportar sus conocimientos en este humilde post. Aquí les dejo un link para que puedan ver un artículo de cómo construir un spider en asp. Yo, como una aficoinada no puedo sacarle partido pero ustedes eguro que sí. Espero que si alguien saca provecho de este artículo siga compartiéndolo con todos. UN saludo y gracias de nuevo a todos los participantes. ![]() |
| ||||
RakoVky...... ![]() ![]() ![]() Un beso ![]() |
| |||
reflote Hoy he posteado un mensaje que pregunatva algo parecido a este, un usuario me ha indicado el enlace con este y me interesa mucho el tema. A ver si ahora alguien sabe como hacer un script que lea páginas y busque palabras que contengan una determinada cadena con ASP. Por cierto, el enlace no funciona. Gracias. |
| ||||
bueno aqui tengo algo, pero la verdad es que no lo puedo probar porque me sale un error espero que alguien pueda verlo y pulirlo un poco para ver si funciona o no http://sourceforge.net/project/showf...ease_id=343012
__________________ ---->Sin ayuda no se llega a ningun lado<---- Virla |