Foros del Web » Programación para mayores de 30 ;) » Programación General »

PLN - Lematizadores - diccionarios

Estas en el tema de PLN - Lematizadores - diccionarios en el foro de Programación General en Foros del Web. Estoy buscando lo que se llaman diccionarios lematizadores para el PLN (procesamiento de lenguaje natural) Y no encuentro ninguno. En todos los códigos y programas ...
  #1 (permalink)  
Antiguo 12/07/2015, 06:25
(Desactivado)
 
Fecha de Ingreso: marzo-2012
Mensajes: 366
Antigüedad: 12 años, 7 meses
Puntos: 31
PLN - Lematizadores - diccionarios

Estoy buscando lo que se llaman diccionarios lematizadores para el PLN (procesamiento de lenguaje natural) Y no encuentro ninguno.

En todos los códigos y programas de análisis morfológico se usa un diccionario para decidir las palabras que morfológicamente tienen varios significados. Como bonito (adjetivo de belleza, o sustantivo de pez).

Esos diccionarios tienen una gran cantidad de combinaciones sacadas de los textos de estudio (corpus) y de esa forma, se calcula por estadística la mayor probabilidad para cada una de las palabras con varios significados morfológicos.

El coche es bonito.
(pronombre)+(sustantivo)+(verbo)+(sustantivo o adjetivo) resulta que habrá oraciones en las que ante esta misma combinación, la última palabra termine siendo sustantivo. Pero habrá muchas más combinaciones en las que termine siendo adjetivo. Por lo tanto, por probabilidad... se decide que se catalogue como adjetivo.

Sin embargo, no consigo encontrar ninguno de estos diccionarios de lematización en texto plano. Lo más que he llegado a encontrar son estos mismos diccionarios... pero en binario.

¿Alguien me podría facilitar información al respecto? Incluso APIs de PLN de código abierto como ixa-pipes que traen todo el código java en código abierto resulta que traen estos diccionarios en binario.

¿Habría alguna forma incluso de pasar un archivo de binario a texto plano? Ya se que seguramente la licencia no lo permita, pues si ya viene así y no en texto plano es porque el autor no quiere dar esa información. Pero aun así... ¿habría alguna forma de hacer esa pequeña trampa?
  #2 (permalink)  
Antiguo 16/07/2015, 09:52
Avatar de NSD
NSD
Colaborador
 
Fecha de Ingreso: mayo-2012
Ubicación: Somewhere
Mensajes: 1.332
Antigüedad: 12 años, 6 meses
Puntos: 320
Respuesta: PLN - Lematizadores - diccionarios

Algunos links no estarían de mas...
__________________
Maratón de desafíos PHP Junio - Agosto 2015 en FDW | Reglamento - Desafios
  #3 (permalink)  
Antiguo 19/07/2015, 13:41
(Desactivado)
 
Fecha de Ingreso: marzo-2012
Mensajes: 366
Antigüedad: 12 años, 7 meses
Puntos: 31
Respuesta: PLN - Lematizadores - diccionarios

No es un post informativo, es una consulta sobre un campo bastante especializado.

Etiquetas: diccionarios, programa
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 03:39.