Interesa construir un reconocedor de voz en python. esto no es nuevo. pero el objetivo es tener completo control de los módulos, tales como el diccionario, las annotations (no se el término en Español), las características, el número de hablantes y las tareas a evaluar.
Lo clásico en ASR (automatic speech recognition) es usar HMMs (hidden Markov models). Eso es muy viejo, pero funciona muy bien, así que sería un buen punto de inicio.
Si se busca en la web, seguro encontrarás quién comparte el código con un sistema de ASR usando HMM, lo que más interesa es que el sistema que obtengamos al final sea modular, es decir, que podamos en cualquier momento cambiar las HMM por otro enfoque (como las DNN ó GMM-UBM). También interesa poder incluir o excluir (es decir tener control) características o medidas que se toman a la señal de voz. Típicamente se calculan MFCC (mel-frequency cepstral coefficients), pero interesa poder incluir otras más en el futuro cercano.
Comentarios
Publicar un comentario