BeTech: noticias de tecnología

LENGUAJE DE SIGNOS

Detectar lenguaje de signos en una videollamada, lo nuevo de Google

Google trabaja en una tecnología que permite darle más visibilidad a los que usen este lenguaje en una videollamada grupal.

Detectar lenguaje de signos en una videollamada, lo nuevo de Google

‘Accesibilidad’ es la palabra mágica, es la guía hacia la que se encamina la tecnología actual. Hay que hacer accesibles todas las tecnologías a todo el mundo. Y si una persona es sorda y/o muda y sólo puede hablar por lenguaje de signos, debería poder tener su papel en una videollamada grupal igual que el resto de participantes. En este campo está trabajando Google con una tecnología que es capaz de hacer esto mismo.

Detectar lenguaje de signos en una videollamada


La mayor parte de los servicios de videollamadas utilizan sistemas para destacar a las personas que hablan en voz alta en las reuniones grupales, algo que supone inconvenientes para las personas con problemas de audición cuando se comunican mediante lengua de signos. Para solucionar este problema, un equipo de investigadores de Google Research ha desarrollado un modelo de detección de la lengua de signos en tiempo real basado en la estimación de las poses que puede identificar a las personas como hablantes mientras se comunican con esta lengua.

El sistema desarrollado por Google, presentado en el evento SLTRP2020 y a través de una demo en la conferencias europea de visión computerizada ECCV'20, utiliza un diseño ligero con el que reduce la cantidad de carga de CPU necesaria para ejecutarlo, y no afectar así a la calidad de las llamadas.

‘Plug & Play’



Según Google, para permitir una solución de trabajo en tiempo real para una variedad de aplicaciones de videoconferencia, ”necesitábamos diseñar un modelo ligero que fuera simple de ‘conectar y usar’. Debido a que el lenguaje de signos involucra el cuerpo y las manos del usuario, comenzamos ejecutando un modelo de estimación de poses, PoseNet. Esto reduce considerablemente la entrada de una imagen HD completa a un pequeño conjunto de puntos de referencia en el cuerpo del usuario, incluyendo los ojos, la nariz, los hombros, las manos, etc”.

La tecnología utiliza estos puntos de referencia para calcular el flujo óptico cuadro a cuadro, que cuantifica el movimiento del usuario para ser utilizado por el modelo sin retener la información específica del usuario. Cada pose se normaliza por el ancho de los hombros de la persona para asegurar que el modelo atienda a la persona que firma en un rango de distancias de la cámara. El flujo óptico se normaliza entonces por la velocidad de fotogramas del vídeo antes de pasar al modelo.

Una eficacia del 83%

Para probar este enfoque, “usamos el corpus de Lenguaje de Señas Alemán (DGS), que contiene largos videos de personas que hacen señas, e incluye anotaciones de lapso que indican en qué cuadros se están haciendo las señas”. Luego entrenaron un modelo de regresión lineal para predecir cuándo una persona está haciendo señas usando datos de flujo óptico. Esta línea base alcanzó alrededor de un 80% de precisión, usando sólo ~3μs (0,000003 segundos) de tiempo de procesamiento por cuadro. Al incluir el flujo óptico de los 50 cuadros anteriores como contexto del modelo lineal, es capaz de alcanzar el 83,4%.

Para generalizar el uso del contexto, “utilizamos una arquitectura de memoria a largo y corto plazo (LSTM), que contiene la memoria sobre los pasos de tiempo anteriores, pero sin mirar atrás”. Utilizando una LSTM de una sola capa, seguida de una capa lineal, el modelo alcanza una precisión de hasta el 91,5%, con 3,5ms (0,0035 segundos) de tiempo de procesamiento por cuadro.

Prueba de concepto

Una vez que tuvieron un modelo de detección de lenguaje de señas que funcionaba, los expertos de Google desarrollaron una demostración web de detección del lenguaje de signos ligera y en tiempo real que se conecta a varias aplicaciones de videoconferencia y que puede establecer al usuario como "orador" cuando firma. Esta demostración aprovecha los modelos de estimación de la postura humana rápida de PoseNet y de detección del lenguaje de signos que se ejecutan en el navegador utilizando tf.js, lo que le permite trabajar de manera fiable en tiempo real.

Cuando el modelo de detección del lenguaje de signos determina que un usuario está iniciando sesión en una videollamada, pasa un tono de audio ultrasónico a través de un cable de audio virtual, que puede ser detectado por cualquier aplicación de videoconferencia como si el usuario que firma estuviera "hablando". El audio se transmite a 20kHz, lo que normalmente está fuera del rango de audición de los humanos.

Una tecnología de código abierto

Dado que las aplicaciones de videoconferencia suelen detectar el "volumen" de audio como si se tratara de hablar en lugar de detectar únicamente el habla, esta tecnología logra engañar a la aplicación haciéndole creer que el usuario que usa lenguaje de signos está hablando como si usara su voz.



Los investigadores han publicado en código abierto en la plataforma GitHub su modelo de detección y esperan que su tecnología pueda "aprovecharse para permitir que los hablantes de lengua de signos utilicen las videoconferencias de manera más conveniente".