Foros del Web » Creando para Internet » Diseño web »

El funcionamiento de un Spider Web

Estas en el tema de El funcionamiento de un Spider Web en el foro de Diseño web en Foros del Web. Como lo hacen los spiders para indexar todas las web que existen? por ejemplo, google, como hace para almacenar en su base de datos información ...
  #1 (permalink)  
Antiguo 17/04/2010, 10:39
 
Fecha de Ingreso: abril-2009
Mensajes: 37
Antigüedad: 15 años, 6 meses
Puntos: 3
Pregunta El funcionamiento de un Spider Web

Como lo hacen los spiders para indexar todas las web que existen? por ejemplo, google, como hace para almacenar en su base de datos información de tanta pagina. Supongo que ahora les sera facil, ya que tendran una base de datos con millones de urls y un algoritmo pasara por ellas cada X tiempo, pero mi duda surgue para saber como se han hecho con la base de datos de tanta web.

Su algoritmo que ha ido visitando desde las IPs 1.1.1.1 a la 254.254.254.254 y alamacena su nombre e informacion??

Saludos
  #2 (permalink)  
Antiguo 17/04/2010, 14:55
Avatar de maycolalvarez
Colaborador
 
Fecha de Ingreso: julio-2008
Ubicación: Caracas
Mensajes: 12.120
Antigüedad: 16 años, 3 meses
Puntos: 1532
Respuesta: El funcionamiento de un Spider Web

básicamente así, de echo tienen una pagina de registro en donde puedes registrar tu dominio en una lista, y así dentro de muy poco el spider pasará por allí XD
  #3 (permalink)  
Antiguo 17/04/2010, 15:10
Tew
 
Fecha de Ingreso: enero-2006
Mensajes: 1.562
Antigüedad: 18 años, 10 meses
Puntos: 17
Respuesta: El funcionamiento de un Spider Web

A mi me gusto esta metafora del funcionamiento de un spider.

Es una explicacion muy basica, pero responde a tu duda. Y basicamente para que indexe una web se necesita tener enlaces en otras webs ya indexadas o enviarla mediante el formulario al que hace referencia maycolalvarez.
  #4 (permalink)  
Antiguo 19/04/2010, 10:39
 
Fecha de Ingreso: abril-2009
Mensajes: 37
Antigüedad: 15 años, 6 meses
Puntos: 3
Respuesta: El funcionamiento de un Spider Web

emmms, me he dado cuenta de una cosa que me contradice mucho... para hacer un spider no se puede hacer mirando desde las Ips 1.1.1.1 a la 254.254.254.254 ya que existen diferentes hostings y esto lo dificulta todo, es decir, si se le hace ping a una blog de google por ejemplo, este devuelve una IP, que es LA MISMA para todos los blogs, ya que ese blog está alojado en los servidores de google, y ya google segun la peticion a su ip, devuelve un blog u otro, asi que hay que hacerlo de otra forma, de este modo si el spider hace un rastreo a esa ip, se lo hace a una web de google y no a los blogs, por poner un ejemplo.

Sigo pensando en los DNS, hacerle una peticion a ellos para obtener listas con webs, pero no se como.
  #5 (permalink)  
Antiguo 20/04/2010, 10:53
 
Fecha de Ingreso: marzo-2010
Mensajes: 432
Antigüedad: 14 años, 8 meses
Puntos: 11
Respuesta: El funcionamiento de un Spider Web

Habria que usar un robot en Java la aplicacion debe contener por lo menos algo de IA para que pueda identificar casos como los que dices de google y sus blog, pueden existir miles de sitios extranjeros que usen ese sistema pero en fin, tambien se usarian la IP como las DNS y falta algo más.

Esta el problema de los correos, Twitter, Facebook y otros, como se considera pagina web o no ya que contiene grupos, entidades, etc.

Tambien agregar usar procesadores de GPU para incrementar sustancialmente los procesos y ademas de tener internet calidad aceptable.

El proceso pueden ser primero capturar los link, luego los valida si existen o no una cosa asi.

Que los valide al la ves que los captura.

Etiquetas: funcionamiento, spider
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 07:47.