Hola a todos, soy estudiante de Ing. de Sistemas como muchos de ustedes y el tema que estoy desarrollando para mi tesis de pre-grado es: "Categorización automática de documentos mediante técnicas de clustering aplicadas a documentos digitalizados en español."
Estoy avanzando relativamente bien y entiendo ya bastante del tema pero, me quedan dudas en el diseño del experimento. Pasa que lo que yo quiero lograr es que un documento en PDF pase a txt y luego sea procesado por un módulo con un algoritmo genético que compare el texto obtenido con una tabla de categorías, cosa que determine automáticamente la categoría a la cual corresponde el texto.
Alguna idea o explicación sobre algoritmos de categorización de documentos, por favor me responden vía el foro... y mucha suerte a todos, gracias.