Lo mas simple es implementar alguna libreria nativa del SO/Linux
DOC
http://ftp.wagner.pp.ru/~vitus/software/catdoc/
PDF
http://www.foolabs.com/xpdf/download.html
TXT CAT
Aguna clase que haga uso de esas librerias no conozco, pero quizás puedas desentrañar este modulo (Que aunque es para Drupal es PHP al fin)
http://drupal.org/project/search_files