La investigación en el procesamiento de señales de audio ha sido dominada por la investigación del lenguaje, pero la mayoría de los sonidos que ocurren en nuestros ambientes de la vida real en realidad no son sonidos de voz, tales como los autos que pasan, el viento, los pitidos de advertencia y los sonidos de animales, el analizar estos sonidos toma relevancia hoy en día debido a que cada día nuestras ciudades son más ruidosas, tenemos contacto cada vez más con animales, con los que habitamos y son parte de nuestro diario vivir, también con los que quisiéramos que incluso llegaran hablar ; pero las condiciones para la recepción del sonido , no deben analizarse solo en condiciones ideales, puesto que la movilidad hoy exige que sea en estación de trenes, en cafeterías, en reuniones, en zonas de alto tráfico vehicular, etc, (muchos de los algoritmos básicos utilizados por los investigadores del habla pueden ser aprovechados para el análisis de sonido genérico) que nuestro dispositivo sea capaz de enteder o persibir lo que le queremos decir, si bien es inviable que tenga yo que alzar la voz, para ejecutar determinado comando con el fin de que el este si me entienda lo quiero realizar, hoy en día esto no es posible y se deben garantizar condiciones óptimas (un buen micrófono, no varios sonidos a la vez, ambientes silencioso, un buen entrenamiento , etc.) para el buen reconocimiento de la voz, ya sea para ejecutar comandos, para transcribir audio, para agendar citas, para realizar búsqueda , etc. (En los últimos años ha sido de la aceptación generalizada de aplicaciones tales como el reconocimiento de voz y reconocimiento de canciones, entre muchas otras.)
Los eventos acústicos que no son de habla nos pueden dar mucha información sobre el medio ambiente y los eventos físicos que tienen lugar en él, lo que permite nuevas áreas de aplicación, tales como la seguridad, la supervisión médica y la investigación de la biodiversidad.
También se debe tener en cuenta, y en esto se han centrado las investigaciones: la gran variación en los sonidos y la posible superposición con otros sonidos. (Métodos para hacer frente a la superposición de sonidos temporalmente y modelar las relaciones entre los sonidos.)
Otro tema de interés se basa en el análisis y recolección de bases de datos disponibles y en los métodos de aprendizaje automatizado
La comprensión de percepción de la emoción humana, centrado tanto en el modelado como en la aplicación. Pone un relieve en las tendencias actuales e históricas como en el modelado de la percepción de la emoción, viendo en las teorías psicológicas y de ingeniería impulsada por la percepción (análisis estadísticos, modelización computacional basada en datos, y la detección implícita).
La importancia de este tema se puede apreciar tanto desde el punto de vista de la ingeniería, cualquier sistema que sea modelos de comportamiento humano o interactúa con compañeros humanos donde deben comprender la percepción de la emoción, ya que fundamentalmente subyace y modula nuestra comunicación, o desde un punto de vista psicológico, también se utiliza percepción de la emoción en el diagnóstico de muchas condiciones de salud mental y se hace un seguimiento en intervenciones terapéuticas.
La investigación en percepción de la emoción busca identificar modelos que describen la sensación sentida expresión de emoción - es decir, la atribución a un observador del estado emocional del hablante. Esta sensación sentida es una función de los métodos a través del cual los individuos integran la información emocional multimodal presentada.
Con los avances significativos en la tecnología móvil y dispositivos de detección de audio, hay una necesidad fundamental para describir grandes cantidades de datos de audio en términos de descriptores de dimensiones inferiores y representativas de la transformación automática eficiente y La extracción de estas .
La representaciones de señal, también llamadas características, constituye la primera etapa en el procesamiento de una señal de voz. El arte y la ciencia de la ingeniería característica se refieren a abordar los dos desafíos inherentes - extraer suficiente información de la señal de voz para la tarea a realizar y la supresión de los datps no deseados para la eficiencia computacional y robustez. La zona de extracción de características del discurso combina una amplia variedad de disciplinas como el procesamiento de señales, aprendizaje automático, la psicofísica, teoría de la información, la lingüística y la fisiología. Tiene una rica historia que abarca más de cinco décadas y ha visto grandes avances en los últimos años. Esto ha impulsado la transición de la tecnología del habla en ambientes controlados para millones de aplicaciones de usuario final.
las técnicas basadas en redes neuronales profundas, el impacto de estas características para los diferentes sistemas de procesamiento de voz del estado de la técnica. El futuro del tratamiento de la señal de voz tendrá que abordar varias cuestiones de robustez en entornos acústicos complejos mientras que ser capaz de obtener información útil a partir de grandes volúmenes de datos.
Comentarios
Publicar un comentario