Ir al contenido principal

Reconocimiento de voz (segunda entrega)




La investigación en el procesamiento de señales de audio ha sido dominada por la investigación del lenguaje, pero la mayoría de los sonidos que ocurren en  nuestros ambientes de la vida real en realidad no son sonidos de voz, tales como los autos que pasan, el viento, los pitidos de advertencia y los sonidos de animales, el analizar estos sonidos toma relevancia hoy en día debido a que cada día nuestras ciudades son más ruidosas, tenemos contacto cada vez más con animales, con los que habitamos y son parte de nuestro diario vivir, también con los que quisiéramos que incluso llegaran hablar ; pero las condiciones para la recepción del sonido , no deben analizarse solo en condiciones ideales, puesto que la movilidad hoy exige que sea en estación de trenes, en cafeterías, en reuniones, en zonas de alto tráfico vehicular, etc, (muchos de los algoritmos básicos utilizados por los investigadores del habla pueden ser aprovechados para el análisis de sonido genérico) que nuestro dispositivo sea capaz de enteder o persibir lo que le queremos decir, si bien es inviable que tenga yo que alzar la voz, para ejecutar determinado comando con el fin de que el este si me entienda lo quiero realizar, hoy en día esto no es posible y se deben garantizar condiciones óptimas  (un buen micrófono, no varios sonidos a la vez, ambientes silencioso, un buen entrenamiento , etc.) para el buen reconocimiento de la voz, ya sea para ejecutar comandos, para transcribir audio, para agendar citas, para realizar búsqueda , etc. (En los últimos años ha sido de la aceptación generalizada de aplicaciones tales como el reconocimiento de voz y reconocimiento de canciones, entre muchas otras.)
Los eventos acústicos que no son de habla nos pueden dar  mucha información sobre el medio ambiente y los eventos físicos que tienen lugar en él, lo que permite nuevas áreas de aplicación, tales como la seguridad, la supervisión médica y la investigación de la biodiversidad.
También se debe tener en cuenta, y en esto se han centrado las investigaciones: la gran variación en los sonidos y la posible superposición con otros sonidos.  (Métodos para hacer frente a la superposición de sonidos temporalmente y modelar las relaciones entre los sonidos.)
Otro tema de interés se basa en el análisis y recolección de bases de datos disponibles y en los métodos de aprendizaje automatizado
 La comprensión de percepción de la emoción humana, centrado tanto en el modelado como en la aplicación. Pone un relieve  en las tendencias actuales e históricas como en el modelado de la percepción de la emoción, viendo en las teorías psicológicas y de ingeniería impulsada por la percepción (análisis estadísticos, modelización computacional basada en datos, y la detección implícita).
La importancia de este tema se puede apreciar tanto desde el punto de vista de la ingeniería, cualquier sistema que sea modelos de comportamiento humano o interactúa con compañeros humanos donde deben comprender la percepción de la emoción, ya que fundamentalmente subyace y modula nuestra comunicación, o desde un punto de vista psicológico, también se utiliza percepción de la emoción en el diagnóstico de muchas condiciones de salud mental y se hace un seguimiento en intervenciones terapéuticas.

La investigación en percepción de la emoción busca identificar modelos que describen la sensación sentida expresión de emoción  - es decir, la atribución a un observador del estado emocional del hablante. Esta sensación sentida es una función de los métodos a través del cual los individuos integran la información emocional multimodal presentada.
Con los avances significativos en la tecnología móvil y dispositivos de detección de audio, hay una necesidad fundamental para describir grandes cantidades de datos de audio en términos de descriptores de dimensiones inferiores y representativas de la transformación automática eficiente y La extracción de estas .
La representaciones de señal, también llamadas características, constituye la primera etapa en el procesamiento de una señal de voz. El arte y la ciencia de la ingeniería característica se refieren a abordar los dos desafíos inherentes - extraer suficiente información de la señal de voz para la tarea a realizar y la supresión de los datps no deseados para la eficiencia computacional y robustez. La zona de extracción de características del discurso combina una amplia variedad de disciplinas como el procesamiento de señales, aprendizaje automático, la psicofísica, teoría de la información, la lingüística y la fisiología. Tiene una rica historia que abarca más de cinco décadas y ha visto grandes avances en los últimos años. Esto ha impulsado la transición de la tecnología del habla en ambientes controlados para millones de aplicaciones de usuario final.

las técnicas basadas en redes neuronales profundas, el impacto de estas características para los diferentes sistemas de procesamiento de voz del estado de la técnica. El futuro del tratamiento de la señal de voz tendrá que abordar varias cuestiones de robustez en entornos acústicos complejos mientras que ser capaz de obtener información útil a partir de grandes volúmenes de datos.

Comentarios

Entradas más populares de este blog

El látigo del desprecio

Intentar buscar repetitivamente acomodar determinada situación, a como uno la cree conveniente puede llevar a la conclusión, de que la perseverancia solo lleva largo tiempo cuando se es justificada, pero intentar prolongar dicha situación con la esperanza de obtener mejores resultados en base a nada, da por terminar lo evitable, el desgate innecesario por el conseguir un bienestar mejor no individual, si no grupal y de mutuo apoyo fraternal entre las partes. Es imposible desde el punto de vista de la resignación, intentar cambiar a alguien que no siente lo que tu sientes, de que no te valora lo que tu vales, de que cada gesto hecho es común y corriente y carente de detalles, y es todo es aún más grave cuando se prolonga en el tiempo, lo que le lleva a uno de manera sensata decir ¡basta!, yo valgo, yo soy importante, yo merezco respecto, el querer ayudar al otro no debe ser contraproducente para la persona, pues como el buscar un bien se va a obtener un mal, quien no sabe apreciar el qu...

Referente Vs Influencer

El referente simplemente a través de su experiencias y consejos puede en determinada persona inculcarle cierto estilo de vida, cierto patrón de comportamiento, el influencer siguiendo temas de moda y tendencia con el único objetivo de obtener dinero pretende en cierta medida crear un patrón de comportamiento determinado influenciado por los patrocinadores (empresas) y buscando siempre llegar a más personas al son de lo que sea, de lo que llame la atención de lo superficial lo del momento, en cambio el referente hace parte del proceso , está dentro de lo que hace y el como lo hace, su influencia es en el grupo no en la multitud, es un trabajo más personalizado si bien se beneficia de lo que hace , es uno mas dentro , un verdadero líder que apoya el proceso, por tanto es mejor tener referentes que influencer.

El arte de administrar el tiempo

La agrupación de personas que cantan simultáneamente una misma pieza musical o parte de ella se llama coro y esa pieza musical que siempre escuchamos de los emprendedores y empresarios es ‘no tengo tiempo, el día debe ser más de 24 horas o el tiempo pasa muy rápido', sin embargo cuando sabemos administrar el tiempo se logra optimizar los recursos que tenemos, ganamos tiempo que al final se traduce en dinero, oportunidades, avances o cumplimiento de metas. La revista Time Magazine nos releva que de cada siete minutos hay una distracción y para recuperar la concentración nos cuesta 25 minutos y ¿qué pasa con los empresarios, ejecutivos o emprendedores? Son multitareas o cambian de actividad cada tres minutos: revisan correos, hacen presentaciones, contestan los teléfonos y no saben distinguir entre lo urgente y lo importante. Pero ¿cómo podemos manejar las dificultades para administrar el tiempo? He aquí una lista de recomendaciones: define los objetivos y organiza tus tareas: empiez...