Hola,
mi objetivo es el siguiente. A partir de un word de N páginas, necesito obtener N documentos word, donde el nombre de cada uno venga determinado por una parte del contenido de la página correspendiente (me valdría que fuera la primera palabra de cada página).
Cualquier vía para conseguir este objetivo me valdría, os comento las que he probado hasta ahora (sin éxito, claro está).
Mediante un programa externo es relativamente fácil hacer un split del documento en cuestión, indicando el número de páginas que quieres para cada doc. En este caso el problema es como indicarle que el nombre de cada uno lo obtenga del propio contenido de la página. Los que he probado me permiten crear ciertas reglas para el nombre del doc, pero no he encontrado ninguno que pueda obtenerlo del texto. Si alguien conoce alguno, sería muy de agradecer su aportación.
No he llegado a indagar en extensiones de openoffice y hacerlo mediante éste, alguien conoce algo al respecto?
La siguiente opción que he estado estudiando es vía php mediante COM. He encontrado algunos post sobre como leer word's mediante PHP. Este enlace muestra uno de ellos:
http://www.developertutorials.com/blog/php/extracting-text-from-word-documents-via-php-and-com-81/
Mediante la lectura del doc, puedo obtener el nombre pero en este punto ¿como manipulo el word para que genere otro documento por cada página?Ando revisando documentación sobre la api de COM, pero no doy con la solución. Si alguien tiene experiencia con COM se agradecería que me dijera al menos si puede o no puede hacerse, ya que si no es como buscar una aguja en un pajar....cuando ni siquiera sabes si la aguja está o no....
El caso, es que esta es una pequeña piedra en el camino, para un proyecto de gestión de documentos, pero al final se está convirtiendo en un punto crítico del desarrollo. Así que, como digo, si a alguien se le ocurre cualquier otra vía de conseguir lo que necesito seguro que también me vale.
Muchas gracias por adelantado.