Extraer texto DOCX

jlgarcia1977 · #1 (**permalink**) 04/03/2010, 02:28

Alguien tiene el código para extraer el texto de un archivo con extensión docx.
Muchas gracias.

He probado con la librería poi y no he sido capaz.

elAntonie · #2 (**permalink**) 04/03/2010, 02:56

Wenas

Pon tu codigo a ver por donde falla.

Saludos.

jlgarcia1977 · #3 (**permalink**) 12/03/2010, 07:15

import java.io.FileInputStream;
import java.io.IOException;

import org.apache.poi.POIOLE2TextExtractor;
import org.apache.poi.POITextExtractor;
import org.apache.poi.extractor.ExtractorFactory;
import org.apache.poi.hdgf.extractor.VisioTextExtractor;
import org.apache.poi.hslf.extractor.PowerPointExtractor;
import org.apache.poi.hssf.extractor.ExcelExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;

public class PruebaDocx {

/**
* @param args
* @throws IOException
*/
public static void main(String[] args) throws IOException {
// TODO Auto-generated method stub
FileInputStream fis = new FileInputStream("D:\\Depeche.docx");
POIFSFileSystem fileSystem = new POIFSFileSystem(fis);
// Firstly, get an extractor for the Workbook
POIOLE2TextExtractor oleTextExtractor =
ExtractorFactory.createExtractor(fileSystem);
// Then a List of extractors for any embedded Excel, Word, PowerPoint
// or Visio objects embedded into it.
POITextExtractor[] embeddedExtractors =
ExtractorFactory.getEmbededDocsTextExtractors(oleT extExtractor);
for (POITextExtractor textExtractor : embeddedExtractors) {
// If the embedded object was an Excel spreadsheet.
if (textExtractor instanceof ExcelExtractor) {
ExcelExtractor excelExtractor = (ExcelExtractor) textExtractor;
System.out.println(excelExtractor.getText());
}
// A Word Document
else if (textExtractor instanceof WordExtractor) {
WordExtractor wordExtractor = (WordExtractor) textExtractor;
String[] paragraphText = wordExtractor.getParagraphText();
for (String paragraph : paragraphText) {
System.out.println(paragraph);
}
// Display the document's header and footer text
System.out.println("Footer text: " + wordExtractor.getFooterText());
System.out.println("Header text: " + wordExtractor.getHeaderText());
}
// PowerPoint Presentation.
else if (textExtractor instanceof PowerPointExtractor) {
PowerPointExtractor powerPointExtractor =
(PowerPointExtractor) textExtractor;
System.out.println("Text: " + powerPointExtractor.getText());
System.out.println("Notes: " + powerPointExtractor.getNotes());
}
// Visio Drawing
else if (textExtractor instanceof VisioTextExtractor) {
VisioTextExtractor visioTextExtractor =
(VisioTextExtractor) textExtractor;
System.out.println("Text: " + visioTextExtractor.getText());
}
}
}

}

Me da el siguiente error al ejecutar.

Exception in thread "main" org.apache.poi.poifs.filesystem.OfficeXmlFileExcep tion: The supplied data appears to be in the Office 2007+ XML. You are calling the part of POI that deals with OLE2 Office Documents. You need to call a different part of POI to process this data (eg XSSF instead of HSSF)
at org.apache.poi.poifs.storage.HeaderBlockReader.<in it>(HeaderBlockReader.java:98)
at org.apache.poi.poifs.filesystem.POIFSFileSystem.<i nit>(POIFSFileSystem.java:151)
at PruebaDocx.main(PruebaDocx.java:23)

elAntonie · #4 (**permalink**) 15/03/2010, 06:58

Puede que el problema sea el propio ficher.

Como ha sido generado ese docx?? Alguna beta??

Te sale el mismo error con cualquier otro docx??

Por lo que veo en el api, ese error da cuando tratas de abrir un fichero docx que realmente es un xml. Debe de hacerse la picha un lio el wordextractor con los tags de xml.

Intentalo con otro fichero.

Saludos.

jlgarcia1977 · #5 (**permalink**) 17/03/2010, 10:33

No me va con ninguno..si alguien lo ha conseguido que me ayude...gracias.

zero0097 · #6 (**permalink**) 05/11/2011, 14:58

Yo se que la respuesta ya no te ayuda (por la fecha) pero para quien busque como yo la respuesta y haya llegado a tu tema (como lo hice yo) encontré la solución.

El error que te da es porque estas usando las clases que son para leer archivos .doc (del 2003 para atrás), y es lo que te dice alli que debes estar leyendo archivo XML porque no encontro la estructura que pensaba encontrar. Lo unico que hay que hacer para abrir un .docx (que tiene estructura xml) es usar las clases que la misma POI ofrece, fijarse bien que dice: eg XSSF instead of HSSF

Asi que solo hay que usar las clases de XSSF para un .docx y las HSSD para un .doc...

Les pongo el código básico para realizarlo:

Código PHP:

  archivodoc = new File("c:\\muestra.docx");

        try {

            FileInputStream fis = new FileInputStream(archivodoc);

            InputStream entradaArch = fis;

            

            //el archivo esta en el stream entradaArch

            

            // para docs usar

            WordExtractor we = new WordExtractor(entradaArch);

 
            //para docx es un paso más

            XWPFDocument ardocx = new XWPFDocument(entradaArch);

            

            //instanciamos el obj para extraer

            XWPFWordExtractor xwpf_we = new XWPFWordExtractor(ardocx);

            

            //se lee el texto

            //leer el texto para un .doc

            String texto = we.getText();

 
            //leer el texto para un .docx

            String texto = xwpf_we.getText();

            

            // se imprime

            System.out.println(texto);

} y hay que hacer el catch() =)

Ojala y les ayude, claro que tienen que bajar POI yo use la 3.7 y tiene que importar los jar al proyecto, y disculpen ya se que no se deben revivir temas viejos pero esto ayudará a muchos, buscando por la web hay poca info sobre esto, ojala a alguien le ayude.

cesarfh · #7 (**permalink**) 05/11/2011, 23:25

jaja ZERO de casualidad no estas teniendo clases en el ITZ? lo digo por el archivo muestra.docx y estoy teniendo problemas con la libreria poi ya la agregue pero me da error al querer usar WordExtractor

cesarfh · #8 (**permalink**) 05/11/2011, 23:42

Cita:

Iniciado por zero0097

Yo se que la respuesta ya no te ayuda (por la fecha) pero para quien busque como yo la respuesta y haya llegado a tu tema (como lo hice yo) encontré la solución.

El error que te da es porque estas usando las clases que son para leer archivos .doc (del 2003 para atrás), y es lo que te dice alli que debes estar leyendo archivo XML porque no encontro la estructura que pensaba encontrar. Lo unico que hay que hacer para abrir un .docx (que tiene estructura xml) es usar las clases que la misma POI ofrece, fijarse bien que dice: eg XSSF instead of HSSF

Asi que solo hay que usar las clases de XSSF para un .docx y las HSSD para un .doc...

Les pongo el código básico para realizarlo:

Código PHP:

  archivodoc = new File("c:\\muestra.docx");

        try {

            FileInputStream fis = new FileInputStream(archivodoc);

            InputStream entradaArch = fis;

            

            //el archivo esta en el stream entradaArch

            

            // para docs usar

            WordExtractor we = new WordExtractor(entradaArch);

 
            //para docx es un paso más

            XWPFDocument ardocx = new XWPFDocument(entradaArch);

            

            //instanciamos el obj para extraer

            XWPFWordExtractor xwpf_we = new XWPFWordExtractor(ardocx);

            

            //se lee el texto

            //leer el texto para un .doc

            String texto = we.getText();

 
            //leer el texto para un .docx

            String texto = xwpf_we.getText();

            

            // se imprime

            System.out.println(texto);

} y hay que hacer el catch() =)

Ojala y les ayude, claro que tienen que bajar POI yo use la 3.7 y tiene que importar los jar al proyecto, y disculpen ya se que no se deben revivir temas viejos pero esto ayudará a muchos, buscando por la web hay poca info sobre esto, ojala a alguien le ayude.

jaja pues si eres mi tocayo y companiero entonces ya te salio tengo problemas al querer usar wordextractor

zero0097 · #9 (**permalink**) 06/11/2011, 01:05

jaja que onda cesar fernadiuz, ya ves el que es bueno es bueno, ya me salio el programa, cheka mi respuesta esta bien explicadito.

resulta que el wordextractor recibe un objeto de tipo InpuStream, y a ese input stream le pasas un fileInputStream, y a ese file input stream le pasas el file... el lunes te explico bien, a ver si no nos llaman la "atencion" aqui por usarlo de chat xD