Foros del Web » Programando para Internet » PHP »

Extraer texto de un pdf

Estas en el tema de Extraer texto de un pdf en el foro de PHP en Foros del Web. Tengo que extraer el texto de un pdf para poderlo guardar los datos en la base de datos? Alguien ha hecho esto. No encuentro información ...
  #1 (permalink)  
Antiguo 27/08/2004, 20:51
 
Fecha de Ingreso: enero-2004
Mensajes: 235
Antigüedad: 20 años, 10 meses
Puntos: 0
Extraer texto de un pdf

Tengo que extraer el texto de un pdf para poderlo guardar los datos en la base de datos?

Alguien ha hecho esto. No encuentro información en el manual.
  #2 (permalink)  
Antiguo 27/08/2004, 21:07
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 10 meses
Puntos: 129
Me parece que no existe extensión o función en sí de PHP para tal fín .. (tal vez alguna classe o similar: ¿buscastes en sitios como hotscripts.com o phpclasses.org ?)

Ahora .. (por si no encuentras nada hecho ya .. y si lo encuentras: avisa). Piensa en tu PDF como un archivo más .. eso sí con cierto formato mas o menos "legible" (no sé si será "binario/codificado" .. Si resultase que no es "codificado o binario" .. podrías abrir el archivo (con funciones como fopen() y similares de PHP) y entrarías a lo más "duro": "parsear" el archivo (evaluar, filtrar ...) para localizar la información que buscas; para esto usarías un buen montón de expresiones regulares y dependerá de "donde" o "por donde" esté el dato que buscas para localizarlo.

Un saludo,
  #3 (permalink)  
Antiguo 27/08/2004, 22:04
 
Fecha de Ingreso: enero-2004
Mensajes: 235
Antigüedad: 20 años, 10 meses
Puntos: 0
Algo he encontrado pero se trata de comandos de uniX que por tanto se tendria que usar exec.
http://www.die.net/doc/linux/man/man1/pdftotext.1.html

he buscado en el google : pdftotext php / pdf2text php / extract text of pdf php

En la revista php|architect de mayo, havia una articulo de como modificar pdf.

Ahora he encontrado un trozo de codigo transforma un pdf en un string, veremos a ver si funciona.
  #4 (permalink)  
Antiguo 28/08/2004, 10:12
 
Fecha de Ingreso: noviembre-2002
Mensajes: 571
Antigüedad: 22 años
Puntos: 2
Con el software pdftotext puedes pasar de pdf a txt de hecho el motor de busqueda phpdig utiliza ese ejecutable para ingresar los registros con texto encontrado en los pdf y así poder realizar las busquedas.

Un saludo.
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 14:14.