Estoy buscando lo que se llaman diccionarios lematizadores para el PLN (procesamiento de lenguaje natural) Y no encuentro ninguno.
En todos los códigos y programas de análisis morfológico se usa un diccionario para decidir las palabras que morfológicamente tienen varios significados. Como bonito (adjetivo de belleza, o sustantivo de pez).
Esos diccionarios tienen una gran cantidad de combinaciones sacadas de los textos de estudio (corpus) y de esa forma, se calcula por estadística la mayor probabilidad para cada una de las palabras con varios significados morfológicos.
El coche es bonito.
(pronombre)+(sustantivo)+(verbo)+(sustantivo o adjetivo) resulta que habrá oraciones en las que ante esta misma combinación, la última palabra termine siendo sustantivo. Pero habrá muchas más combinaciones en las que termine siendo adjetivo. Por lo tanto, por probabilidad... se decide que se catalogue como adjetivo.
Sin embargo, no consigo encontrar ninguno de estos diccionarios de lematización en texto plano. Lo más que he llegado a encontrar son estos mismos diccionarios... pero en binario.
¿Alguien me podría facilitar información al respecto? Incluso APIs de PLN de código abierto como ixa-pipes que traen todo el código java en código abierto resulta que traen estos diccionarios en binario.
¿Habría alguna forma incluso de pasar un archivo de binario a texto plano? Ya se que seguramente la licencia no lo permita, pues si ya viene así y no en texto plano es porque el autor no quiere dar esa información. Pero aun así... ¿habría alguna forma de hacer esa pequeña trampa?