Cita:
Iniciado por Malenko En un TTS se requieren muchas horas de grabación para luego crear una base de datos de fonemas porque "con" no se pronuncia siempre igual, depende de la entonación, si la frase es una exclamación o una pregunta, la velocidad, etc. Había un formato XML para modelar estas cosas que se suele usar de forma estanadar en los TTS.
Dicho esto, exactamente cual es la duda de .NET sobre el tema?
De una vez que termine de grabar todo eso, lo ideal seria concatenar de esa manera, y todavia averiguar como hacer que se oiga fluido.
y de acuerdo a lo que dices talvez seria mas rapido meterle un vocabulario basico o instalar otra voz.
y pues pues de que manera poder concatenar los sonidos para que formen una palabra con los diferentes voz.mp3 y sin que se pause.