Xiaomi crea una tecnología de voz para las personas con trastornos del habla

El Xiaomi AI Lab ha presentado una voz digital que puede ser personalizada a gusto del usuario, creando su propia voz.

Actualizado a 20 de mayo de 2022 20:57 CEST

Un trastorno del habla es “una afección en la cual una persona tiene problemas para crear o formar los sonidos del habla necesarios para comunicarse con otros”, y puede comprender desde trastornos articulatorios a otros como fonológicos, de la voz, de la resonancia, etc. Esto representa un problema a la hora de poder comunicarse y expresarse para las personas afectadas, sobre todo si son niños.

Un problema que la compañía china Xiaomi quiere darle solución.

El proyecto “Own My Voice”

Xiaomi, una empresa de electrónica de consumo cuyo núcleo son los smartphones y el hardware inteligente conectado por una plataforma de IoT, ha presentado una aplicación propia de algoritmos avanzados y tecnología de voz de desarrollo aplicada al campo de la accesibilidad: la tecnología Text-To-Speech de estilo espontáneo, desarrollada por Xiaomi AI Lab, que se utiliza para generar una voz única y personalizada para un usuario con trastornos del habla.

Gracias a ella, el usuario/a que la utilice puede ahora comunicarse con otros usando "su propia voz", en lugar de la usual voz electrónica. Como parte del proyecto de investigación 'Own My Voice' dirigido por el Comité Técnico de Xiaomi, este exitoso intento demuestra el compromiso de Xiaomi con 'Tech for Good' y con la consecución de su misión de "dejar que todos los habitantes del mundo disfruten de una vida mejor a través de la tecnología innovadora".

Crear tu propia voz

Para generar la voz más adecuada y personalizada para el receptor, el equipo del proyecto reclutó a más de 200 voluntarios dentro de Xiaomi para que donaran sus voces. Y en el proceso usaron el algoritmo de coincidencia de la huella vocal para hacer coincidir las características de las voces donadas por los voluntarios con las de la voz del destinatario. De este modo, encontraron la voz más adecuada como sonido básico de referencia para el destinatario. Teniendo en cuenta la personalización y la protección de la privacidad, la voz real elegida se manipuló para formar un sonido de voz nuevo y original.

A continuación, se utilizó la tecnología Text-To-Speech de estilo espontáneo para entrenar el modelo de IA, haciendo que esta nueva voz adquiriera gradualmente un ritmo y una entonación naturales que pudieran expresar con veracidad la emoción y el tono de un ser humano.

El proyecto "Own My Voice combina una serie de algoritmos avanzados con la tecnología de voz desarrollada por Xiaomi para garantizar la especificidad, seguridad y autenticidad de la voz sintetizada, creando una nueva idea de síntesis de voz personalizada para usuarios con trastornos del habla".

Text-To-Speech

La tecnología Text-To-Speech hace que “la voz sintetizada se parezca a la de un ser humano real en su entonación, pausa, velocidad y otras características. Así se sustituye la sensación monótona y antinatural de la voz electrónica por otra más natural”. Actualmente, Xiaomi está aplicando esta tecnología a sus dispositivos inteligentes equipados con Xiaoai, el asistente de voz de IA de Xiaomi. El proyecto "Own My Voice" demuestra que la tecnología de texto a voz de estilo espontáneo también puede adoptarse ampliamente en áreas de accesibilidad y mejorar la experiencia del usuario.

Según Xiaomi: "Si detectamos y atendemos las necesidades de los grupos minoritarios en una fase temprana, el proceso de difusión de la tecnología podría acortarse en gran medida. Esto permite que los beneficios de las nuevas tecnologías sean accesibles a los usuarios con necesidades especiales sin demora."

De cara al futuro, la intención de la compañía es “seguir estudiando la viabilidad de este proyecto en un ámbito más amplio. Xiaomi seguirá potenciando la accesibilidad a través de la tecnología de vanguardia”. Un proyecto que nos encantaría ver crecer para que todas aquellas personas con algún tipo de trastorno del habla puedan adaptar su voz y personalizarla.