Ver Mensaje Individual
  #2 (permalink)  
Antiguo 01/09/2006, 20:45
Avatar de ArrauKano
ArrauKano
 
Fecha de Ingreso: noviembre-2002
Ubicación: Santiago
Mensajes: 664
Antigüedad: 22 años
Puntos: 4
disculpa que no te ninguna solucion, pero debo corregirte, el formato *.doc no es un formato abierto, es un formato propietario y veo dificil hacer una app en php que las lea (no digo imposible porque probablemente si hay como).

si ya sabes como obtener las palabras de un pdf con una libreria para php, entonces no veo donde esta el inconveniente para hacer precisamente eso, instalar la libreria y leer los pdf.

Lo que no me imagino como hacer es la estructura de la base de datos, para poder guardar las palaras y que se puedan consultar por tema al estilo google.

una solución menos refinada que "leer" el pdf es usar un sistemas de "tags" como lo hace del.icio.us para referenciarte a un contenido. Me explico, la idea es que junto con subir el archivo, el usuario indique con que "temas" esta relacionado el archivo, cada tema sería una palabra corta (un tag), luego puedes hacer un buscador que diga por ejemplo en que tag hay + archivos, en cual menos. Tambien podrias permitir al usuario ingresar sus propios tags.

otra alternativa que se me ocurre, es que si encuentras alguna aplicacion por consola que permita retornar el pdf como texto plano, entonces puedes ocupar dicho ejecutable llamandolo dentro de php y capturando la salida, al estilo de los CGI.