Hola, les comento el siguiente problema que se me ha presentado:
Tengo unos 3000 pdfs, y mediante la herramienta ABBYY los convierto a texto plano (.txt).
Ahora bien, estos pdfs, son unos articulos publicados en una serie de revistas cientificas, y lo que realmente me interesa es lo siguiente:
Alemacenar una base de datos, tanto el nombre de la revista, el autor o autores de dicho articulo, los departamentos y universidades de dichos autores, la tematica de la revista, ademas de el esquema del articulo, es decir, como esta distribuido el articulo.
Les pongo una muestra:
Titulo de la revista: IEEE TRANSACTIONS ON ANTENNAS AND PROPAGATION, VOL. 52, NO. 4, APRIL 2004
Nombre del articulo: Optimization Technique for Linearly Polarized Radial-Line Slot-Array Antennas Using the Multiple Sweep Method of Moments
Autores: Jose I. Herranz-Herruzo, Alejandro Valero-Nogueira, Member, IEEE, and Miguel Ferrando-Bataller, Member, IEEE
Esquema: I. INTRODUCTION
II. Moment Method Analysis of a RLSA
III. MSMM Solution for A LPRLSA
IV. LPRLSA Optimization Procedure
V. SIMULATIONS AND MEASUREMENTS
VI. DISCUSSION AND CONCLUSION
Todo esto es lo que debo volcar a una base de datos, y cada uno de los articulos es diferente, pero me interesa volcar dicha informacion...
Ahora viene mi problema, como puedo automatizar dicho volcado, es decir, puedo realizar una especie de etiquetado para que alguna herramienta detecte dichas etiquetas y pueda volcarlo todo automaticamente a la base de datos?
Si alguno de ustedes ha realizado alguna tarea parecida les agradeceria su colaboracion y experiencia, ya que es un problema que se me ha planteado, al cual no logro encontrarle solucion.
Toda sugerencia y opinion sera realmente valorada, muchas gracias por todo!!!
Si quieren pueden ponerse en contacto conmigo para enviarles una muestra de los articulos en cuestion.
Un saludo!!!