Interesa construir un reconocedor de voz en python . esto no es nuevo . pero el objetivo es tener completo control de los módulos , tales como e l diccionario , las annotations (no se el término en Español ), las características , el número de hablantes y las tareas a evaluar . Lo clásico en ASR ( automatic speech recognition ) es usar HMMs ( hidden Markov models ) . Eso es muy viejo , pero funciona muy bien , así que sería un buen punto de inicio . Si se busca en la web, seguro encontrarás quién comparte el código con un sistema de ASR usando HMM , lo que más interesa es que el sistema que obtengamos al final sea modular, es decir , que podamos en cualquier momento cambiar las HMM por otro enfoque ( como las DNN ó GMM-UBM) . También interesa poder incluir o excluir ( es decir tener control) características o medidas que se toman a la señal de voz . Típicamente se calculan MFCC ( mel -frequency
Este blog es una recopilacion de varios pensamientos mios acerca de la vida en diferentes circunstancias que me he vivido, espero les guste.