Tengo que extraer el texto de un pdf para poderlo guardar los datos en la base de datos?
Alguien ha hecho esto. No encuentro información en el manual.
| |||
Me parece que no existe extensión o función en sí de PHP para tal fín .. (tal vez alguna classe o similar: ¿buscastes en sitios como hotscripts.com o phpclasses.org ?) Ahora .. (por si no encuentras nada hecho ya .. y si lo encuentras: avisa). Piensa en tu PDF como un archivo más .. eso sí con cierto formato mas o menos "legible" (no sé si será "binario/codificado" .. Si resultase que no es "codificado o binario" .. podrías abrir el archivo (con funciones como fopen() y similares de PHP) y entrarías a lo más "duro": "parsear" el archivo (evaluar, filtrar ...) para localizar la información que buscas; para esto usarías un buen montón de expresiones regulares y dependerá de "donde" o "por donde" esté el dato que buscas para localizarlo. Un saludo, |
| |||
Algo he encontrado pero se trata de comandos de uniX que por tanto se tendria que usar exec. http://www.die.net/doc/linux/man/man1/pdftotext.1.html he buscado en el google : pdftotext php / pdf2text php / extract text of pdf php En la revista php|architect de mayo, havia una articulo de como modificar pdf. Ahora he encontrado un trozo de codigo transforma un pdf en un string, veremos a ver si funciona. |
| |||
Con el software pdftotext puedes pasar de pdf a txt de hecho el motor de busqueda phpdig utiliza ese ejecutable para ingresar los registros con texto encontrado en los pdf y así poder realizar las busquedas. Un saludo. |