Foros del Web » Programando para Internet » PHP »

Crear Buscadores

Estas en el tema de Crear Buscadores en el foro de PHP en Foros del Web. Hola Me gustaría saber de que forma indexan los buscadores cómo Google, Altavista, alltheweb, etc..., la información de las páginas webs que ofrecen posteriormente en ...
  #1 (permalink)  
Antiguo 05/02/2004, 13:58
 
Fecha de Ingreso: febrero-2004
Mensajes: 6
Antigüedad: 20 años, 9 meses
Puntos: 0
Crear Buscadores

Hola
Me gustaría saber de que forma indexan los buscadores cómo Google, Altavista, alltheweb, etc..., la información de las páginas webs que ofrecen posteriormente en la lista de resultados de busqueda.

Enlazando con la consulta anterior me gustaría saber lo siguiente:
Imaginar que yo deseo hacer un periódico on-line y para facilitar la tarea a mis visitantes quiero crear un buscador interno para mi web, donde introduciendo una palabra aparezcan todos los artículos que la contengan.
Mi preguntas son:
¿Los artículos han de estar en un campo dentro de la base de datos?
En el caso de que quiera que mi buscador también busque artículos de otros medios de prensa externos a mi pagina web ¿como lo podría hacer?.
¿Tendría que indexar todos los artículos de ese otro periodico on-line a mi base de datos para que mi buscador tb pudiera rescatar esos artículos para mis visitantes?.
¿Cómo funcionan los robots o spiders de los buscadores para actualizar sus bases de datos?

Segun he leido, los programas de Altavista o Excite están hechos con C/C++.
¿Con PHP se pude hacer algo similar?

Si me pudierais contestar o dirigir a algun manual donde tb pudieran existir ejemplos de codigo en PHP os lo agradecería.

Gracias anticipadas.
Un saludo cordial.
  #2 (permalink)  
Antiguo 05/02/2004, 14:16
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 10 meses
Puntos: 129
Sobre el tema de "indexar".. pricipalmente lo que hacen es trabajar como "spiders" (arañas) .. es decir:

Dada una pàgina de inicio de un sistio (ejemplo www.tal.tal que apuntaría a un index.??? ) se localizan los links que tenga esa página y se van abriendo dichos links (paginas) en busqueda recursiva de más links (tantos niveles como "resolución" quieras .. esto vá directamente proporcianal al tiempo de proceso ). El proceso de indexación consite en eliminar todo código que exista (entre < y > se supone que es código HTML/etc) para quedarse con el "contenido" de la página .. y de ahí se va evaluando ese "contenido" y se buscan palabras repetidas .. indexando las que mas se repitan (con cierto nivel de repeticiones míminio a indexar para no indexar "artículos" y palabras cortas repetitivas (de -3 caracteres suele ser).

Esta "rueda" ya está más que reinventada .. En sitios como www.hotscripts.com puedes ver las soluciones PHP a este problema.

Ahora .. para tu sitio web .. En general .. para que un buscador trabaje mejor .. lo ideal es separa el código fuente del contenido en sí, es decir .. tener tus "textos, articulos ..etc" (sólo el contenido, nada de HTML de su presentación ..) en algún sitio externo tipo base de datos (mucho más optimo las buquedas) o archivos de texto plano .. o incluso en archivos con estructura XML ...por decir algunos ejemplos.

Un saludo,
__________________
Por motivos personales ya no puedo estar con Uds. Fue grato haber compartido todos estos años. Igualmente los seguiré leyendo.
  #3 (permalink)  
Antiguo 05/02/2004, 15:12
 
Fecha de Ingreso: febrero-2004
Mensajes: 6
Antigüedad: 20 años, 9 meses
Puntos: 0
Cluster, Gracias por tu informacion.
Un saludo.
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 14:44.