Extraer texto de un pdf

jmaribau · #1 (**permalink**) 27/08/2004, 20:51

Tengo que extraer el texto de un pdf para poderlo guardar los datos en la base de datos?

Alguien ha hecho esto. No encuentro información en el manual.

Cluster · #2 (**permalink**) 27/08/2004, 21:07

Me parece que no existe extensión o función en sí de PHP para tal fín .. (tal vez alguna classe o similar: ¿buscastes en sitios como hotscripts.com o phpclasses.org ?)

Ahora .. (por si no encuentras nada hecho ya .. y si lo encuentras: avisa). Piensa en tu PDF como un archivo más .. eso sí con cierto formato mas o menos "legible" (no sé si será "binario/codificado" .. Si resultase que no es "codificado o binario" .. podrías abrir el archivo (con funciones como fopen() y similares de PHP) y entrarías a lo más "duro": "parsear" el archivo (evaluar, filtrar ...) para localizar la información que buscas; para esto usarías un buen montón de expresiones regulares y dependerá de "donde" o "por donde" esté el dato que buscas para localizarlo.

Un saludo,

jmaribau · #3 (**permalink**) 27/08/2004, 22:04

Algo he encontrado pero se trata de comandos de uniX que por tanto se tendria que usar exec.
http://www.die.net/doc/linux/man/man1/pdftotext.1.html

he buscado en el google : pdftotext php / pdf2text php / extract text of pdf php

En la revista php|architect de mayo, havia una articulo de como modificar pdf.

Ahora he encontrado un trozo de codigo transforma un pdf en un string, veremos a ver si funciona.

Zertiko · #4 (**permalink**) 28/08/2004, 10:12

Con el software pdftotext puedes pasar de pdf a txt de hecho el motor de busqueda phpdig utiliza ese ejecutable para ingresar los registros con texto encontrado en los pdf y así poder realizar las busquedas.

Un saludo.