Alertan de una estafa efectuada con inteligencia artificial: clonan la voz de tus padres
El algoritmo de Microsoft Vall-e permite clonar la voz de cualquier persona con tan solo unos segundos de escucha. A través de esta técnica, se produjeron los primeros casos de estafa.
Las tradicionales vías para acometer estafas siempre han sido el correo electrónico, el Whatsapp o el SMS. Ahora, se suma a estos soportes la inteligencia artificial, mediante algoritmos que permiten clonar la voz de una persona con sólo unos segundos de escucha, como es el caso de Vall-e.
El último caso llamativo, y del que se hizo eco el ‘Washington Post’, fue el de Ruth Card, una mujer candiense de 73 años que sólo esperaba la llamada de su nieto Brandon. Sin embargo, la llamada no fue de su familiar sino de una voz que a la de su nieto y le comunicó la necesidad de pagar una fianza para liberar a su nieto, supuestamente detenido. Tanto Card como su marido acudieron a su entidad bancaria para sacar hasta 2.000 euros en efectivo.
Fue cuando acudieron a una segunda sucursal para sacar más dinero, el momento en el que desde el banco le advirtieron de la posibilidad de que fuesen estafados, y que ya habían padecido otras personas. “Estábamos convencidos de que estábamos hablando con Brandon. Nos engañaron”, se apresuró a decir esta mujer canadiense. Aún así, no fue el único testimonio de estas características.
Benjamin Perkin fue otro de los grandes damnificados de esta estafa. Según informó el mencionado diario norteamericano, este ciudadano de 39 años vio cómo sus padres cayeron en la trampa y perdieron de un plumazo una elevada cantidad de dinero al pensar que, al otro lado del teléfono, se encontraba su propio hijo y no otra persona que había clonado su voz.
Así funciona Vall-e, la inteligencia artificial que permite clonar voces
Con respecto a Vall-e, al igual que sucede con otras tecnologías como ChatGPT, es la nueva inteligencia artificial generativa de Microsoft, y permite clonar la voz de una persona a partir de un clip de audio de tan solo tres segundos. Se trata de un modelo que ha sido entrenado con 60.000 horas de habla en inglés, y dispone de una capacidad de aprendizaje más veloz y mayor.
Puede recoger la información del texto y del audio, para transformarla así en una locución de voz que no sólo exprese lo que dice, sino que también permita mantener el contexto de la frase que se pronuncia. Asimismo, se adapta muy bien a todo tipo de mensajes. Este algoritmo sucedió a otros de la compañía como SAM (Speech Articulation Module por sus siglas en inglés), que cumplía las mismas funciones que Vall-e pero en Windows XP.