Animación facial y Uncanny Valley: ¿evasión o victoria?

La proyección de los sentimientos humanos a través del rostro es, sin duda, uno de los desafíos más complejos a los que se ha enfrentado el mundo de la representación visual. Te invitamos a un interesante viaje a través del mundo del arte, la ciencia, la medicina y, como no podía ser de otra manera, los videojuegos, abordando con detalle una compleja materia.

Actualizado a 31 de mayo de 2018 09:06 CEST

Viajemos en el tiempo. Hacia un futuro no muy lejano. Correel año 2050, llegamos al piso tras una dura jornada de trabajo y, pese a quehemos estado alejados de nuestro querido gato durante todo el día, seencuentra en perfectas condiciones: nuestro compañero androide se ha encargadode cambiarle la arena, darle de comer y prestarle toda la atención que necesitapara sentirse querido.

Aprovechamos para descalzarnos, descansar en nuestro sofá duranteunos minutos y relajarnos jugando a algún videojuego o viendo nuestra seriepredilecta. Pero mientras nos acercamos, él se encuentra en el silloncito de allado mirando a la nada. Impasible. Mientras su procesador central le adviertede nuestra presencia, su cabeza —de acabado hiperrealista, ataviada conmillones de cabellos, provista de una piel prácticamente indistinguible de unatez real y capaz de gestionar más de un millón de emociones— gira de maneraviolenta hacia nosotros mientras una sonrisa bastante perturbadora precede aunas amables palabras: bienvenido a casa, ¿qué tal ha ido el día en la oficina?

Resulta mucho más inquietante que si pensásemos en la mismaescena, sustituyendo el Robot hiperrealista por uno mucho más parecido al que interpretabanuestro querido Robin Williams en la primera mitad del film El HombreBicentenario (Cris Columbus, 1999), ¿verdad? Esto podría servirnos paraexplicar, de forma sencilla ligera, el fenómeno conocido como el Uncanny Valleyo Valle Inquietante, teoría surgida en el campo de la robótica que asegura, agrandes rasgos, una extendida hipótesis: mientras más se parezca a nosotros unser artificial más resaltarán sus características no humanas haciendo quesintamos rechazo, falta de empatía e incluso temor hacia esta forma sintética.

Creandovida en el sector interactivo

Como era de esperar, el mundo de los gráficos generados porordenador se enfrentaba a un problema difícil de sortear durante sus inicios,pues a medida que el realismo a la hora de diseñar y animar personajes CGI seacercaba más y más a la realidad, el peligro del Valle Inquietante se hacíamás feroz. En el mundo del cine, películas como Final Fantasy: La fuerzaInterior (Hironobu Sakaguchi, 2001) o El Regreso de la Momia (Stephen Sommers,2000) se vieron afectadas por esta problemática, mientras que obras comoJurassic Park (Steven Spielberg, 1993) o Los increíbles (Brad Bird, 2004)sorteaban el problema a través de dos vías diferentes: la primera por medio dela representación de seres vivos que nunca hemos visto en directo ni seasemejan a la estructura del ser humano, y la segunda ofreciendo una direcciónartística cartoon cuyas exageradas animaciones y llamativas proporcionesalejaban lo suficiente a sus personajes del realismo del ser humano para que elespectador empatizase con ellos.

Problemáticas similares hemos vivido a lo largo de lahistoria del cine. La expresividad de personajes cartoon como los queprotagonizan títulos a la altura de Monkey Island (Ron Gilbert, 1990), Day ofthe Tentacle: Maniac Mansion 2 (Tim Schafer y Dave Grossman, 1993) o EarthwormJim (David Perry, 1994) han servido de inspiración para produccionestridimensionales como Team Fortress 2 (John Cook y Robin Walker, 2007) oRatchet & Clank (2002). No obstante, mientras que el realismo envideojuegos se mantenía en valores alejados todavía de la realidad —sintonizarcon los personajes de títulos como Metal Gear Solid 3: Snake Eater (HideoKojima, 2004) o Silent Hill 3 (Kazuhide Nakazawa, 2003)se hacía sencillo—, la siguiente generación llegó para introducir herramientasde edición y animación nunca antes vistas, pero que traían consigo el temidoUncanney Valley.

Franquicias como Mass Effect o The Elder Scrolls fueron lasmás afectadas por esta particular casuística; la densidad poligonal dedicada alos rostros del comandante Shepard o de Miranda Lawson, así como la recreaciónde la piel o los ojos llegaban a cotas bastante realistas, lo que enfatizabamás aún los fallos en la animación facial y la interpretación de las metáforasexpresivas. Por su parte, creativos como David Cage seguía explorando loslímites de la recreación realista, con Heavy Rain (2010) primero y con Beyond:Two Souls (2013) después, en aras de establecer nuevos cánones en la luchacontra el temido Uncanny Valley. La victoria aún quedaba lejos, pese a que lademo de KARA presentada la GDC 2012 nos hizo soñar con nuevos límites en lo quea captura de movimientos faciales se refieren, mientras compañías como ImageMetrics o Mova Contour System seguían perfeccionando sus herramientas dedicadasa la producción de cine y videojuegos. Durante su presentación de la GDC 2013,David Cage habló sobre la sorprendente demo tecnológica The Dark Sorcerer presentada en el E3 —esta vez trabajando sobrePS4—y aprovechó para ofrecernos un aperitivo sobre lo que podría llegar aconseguir en Quantic Dream en su próximo proyecto:

Todo ello nos lleva a la actualidad, y de nuevo laspreguntas clave se hacen necesarias. ¿Se ha conseguido recrear de formarealista la biomecánica del cuerpo humano a nivel global, gracias a lasherramientas de Fotogrametría y animación avanzada? ¿Hay sensación de vida enpersonajes virtuales tan avanzados como Nathan Drake (Uncharted 4), HarleyQuinn (Injustice 2) o Aloy (Horizon Zero Dawn)? ¿La nueva producción de DavidCage bajo el sello de Quantic Dream, que responde al nombre de Detroit: BecomeHuman (evolución en formato videojuego de la demo KARA), se convertirá en unnuevo referente en cuanto a la representación de las emociones en tiempo realdentro del mundo del videojuego? Antes de responder a tamañas preguntas, nosgustaría echar la vista atrás para ver la importancia de la problemática, paraconocer las principales referencias dentro del mundo del arte, la ciencia, lamedicina y la producción audiovisual a lo largo de la historia.

Lafigura humana como adalid de la belleza

Muchos de vosotros posiblemente creáis que la problemáticagenerada a raíz del Uncanny Valley se puso de relieve durante la creación delos primeros robots avanzados de apariencia humana y las hipótesis formuladaspor científicos como Masahiro Mori durante la década de los 70. No obstante, alo largo de la historia del arte siempre se ha tenido especial inquietud por elhecho de recrear el rostro humano de forma fidedigna.

Gracias a los estudios científicos llevados a cabo por G.BDuchenne de Bologne a finales del siglo XVIII y principios del XIX, perpetuadospor el Dr. Fritz Lange a hasta el S. XX, el conocimiento de los músculosfaciales y de cómo actuaban conforme a los diferentes estados de ánimo delsujeto creció exponencialmente. Fritz, principal impulsor de la ortopediamoderna y científico especializado en crear vínculos entre varias disciplinasreferentes al estudio del cuerpo humano, supo ver más allá de la comunidadcientífica con el objetivo de profundizar en la problemática del rostro humano.

Por su parte, Duchenne aplicaba pequeñas descargaseléctricas directamente sobre el sujeto, con el objetivo de estimulardeterminados músculos para estudiar el efecto que producían a nivel superficial.

Las fotografías que existen sobre dichos experimentosresultan, cuanto menos, turbadoras. Por definir un símil desde el mundo delvideojuego, los experimentos de Duchenne generaban el desasosiego propio del ValleInquietante: como se estimulaban grupos de músculos por separado, el resultadoera parecido al que podemos observar en animaciones faciales que no utilizansistema de captura de movimientos. Los rostros de Mass Effect 2, muchas veces,solo tenían en cuenta zonas específicas de la anatomía facial, haciendo queotros muchos no intervinieran en metáforas expresivas como la alegría, elllanto o la rabia.

Y esto es algo que, sorprendentemente, también ha ocurridoen producciones más modernas, entre ellas la polémica última entrega de estamisma saga. Las animaciones faciales de Mass Effect: Andromeda (Mac Walters,2017) caen hasta lo más profundo del Uncanny Valley por ese motivo. Frente anosotros se presentan personajes de gran realismo, tanto en la iluminación comoen la representación de superficies complejas (como la piel o el cabello). Estehecho hace que cualquier fallo, error de programación o animación pocotrabajada, multiplique su notoriedad, haciendo de las escenas cinemáticas deMass Effect: Andromeda una experiencia que genera un rechazo automático en eljugador, mucho más acusado que en producciones como Dragon Age: Inquisition(Mike Laindlaw, 2014) o The Witcher 3 (Konrad Tomaszkiewicz, 2015). También contribuye el hecho de que en este tipo de producciones no se suela utilizar una base con captura de movimientos.

En el mundo artístico, figuras tan diversas como Leonardo daVinci, Carabaggio, Pieter Paul Rubens, Pablo Picasso, Salvador Dalí, el Greco,Frida Kalho o Margaret Keane formaron su propia imaginería alrededor de lafigura humana desde diferentes perspectivas: la representación del rostro y elcuerpo cobraba especial importancia en cada una de ellas. Pintura,escultura, grabado y dibujo, darían paso a otras artes como el Daguerrotipo yla Fotografía, casi siempre bajo el prisma de captar el instante dentro deimágenes fundamentalmente estáticas. Interpretar el momento. Un gran desafío que,no obstante, quedaba alejado de la problemática subyacente dentro de la imagendinámica basada en la sucesión de fotogramas: el cine y la animación hacíanacto de presencia.

Fue con la aparición del arte en movimiento cuando lasexpresiones del cuerpo humano cobraron una nueva dimensión. Asimismo, técnicascomo la rotoscopia o la pixilación se revindicaban como los principalesreferentes de la futura captura de movimientos, mientras producciones comoBlancanieves y los 7 enanitos (Walt Disney, 1937) o series como Out of the Inkwell (Mark Fleishcher, 1938)se aprovechaban de los últimos avances en este sentido para dar vida a suspersonajes.

El mundo delvideojuego no tardaría en inspirarse en dichas técnicas, con creativos a laaltura de Jordan Mechner o Ed Boon ofreciéndonos producciones de la magnitudque demostraron The Last Express (1997) o Prince of Persia (1989) en el primercaso, o Mortal Kombat (1992) en elsegundo. Mechner era un absoluto maniático del realismo en la representacióndel cuerpo humano a través de la rotoscopia, mientras que Boon investigó en elcampo de la Pixilación como principal referencia para los personajesdigitalizados de los primeros videojuegos de su saga de lucha.

Y, de nuevo, lallegada de otra revolución dentro del sector interactivo: la estandarizaciónde los gráficos poligonales. Y de igual forma, el desafío de crear vida apartir de un puñado de polígonos, hecho que se puso de relieve en la toscarepresentación del cuerpo humano en tiempo real dentro de producciones comoVirtua Fighter o Soul Edge. No sería hasta el año 1998 cuando empezarían aaparecer los primeros signos de progreso en cuanto a representación facial serefiere. Y vino con videojuegos a la altura de Half Life (Marc Laidlaw), títulodonde veríamos por primera vez la implementación de sistemas de gesticulado ysincronización labial en tiempo real.

Años deinvestigación permitieron marcar hitos como el conseguido con Metal Gear Solid3: Snake Eater o Silent Hill 3, techos tecnológicos de su época en cuanto aanimación facial y representación de las metáforas expresivas dentro del mundodel videojuego. Por suerte o por desgracia, la limitada tecnologíaimposibilitaba lograr un realismo mayor en cuanto a iluminación, texturizado ymodelado de alta densidad poligonal como para acercarnos a la sensación derealidad, lo que también alejaba el problema del Uncanny Valley del mundo delvideojuego. Hasta que Xbox 360 y PS3 dieron el pistoletazo de salida a la nuevageneración de gráficos generados por ordenador en tiempo real.

Una nueva frontera en el mundo de la representaciónrealista

Como había ocurridoen el mundo del cine y la animación por ordenador, siempre y cuando ladirección artística de la obra se asentara en un planteamiento con cierto gradode caricaturización —como en las películas de Pixar o Dreamworks—, o losprotagonistas se caracterizaran por un diseño original —en la línea de losKrogan de Mass Effect—, el problema del Uncanny Valley no resultaría demasiadoamenazante.

Eso sí, lapersecución del realismo como uno de los pilares del desarrollo del mundo delvideojuego siempre ha sido de gran importancia, con creativos como David Cage oSam Lake intentando imprimir credibilidad visual a cada una de sus obras. Trasel destacable Fahrenheit (2005), Quantic Dream puso toda la carne en el asadorcon Heavy Rain (2010). Actores reales, un sistema de captura de movimientos yanimación facial de vanguardia que, desafortunadamente, se topó de lleno con elimplacable Uncanny Valley. Cualquier incoherencia en el movimiento de los ojosen los personajes generados en tiempo real, la inconsistencia en la animaciónde las comisuras labiales o la ausencia de un movimiento convincente de lalengua en el interior de la boca generaba, muchas veces sin saber por qué, unasensación de rechazo directa en el espectador.

La problemática seacentuaba en personajes como el comandante Shepard dentro del videojuego MassEffect (Casey Hudson, 2007). Mientras que las especies alienígenas mostraban unimponente y creíble aspecto (más que nada porque no relacionamos su ejecucióncon ningún elemento que podamos rescatar directamente de la realidad más alláde su inspiración reptiliana), los personajes humanos arrojaban una sensaciónincómoda e inquietante. Unido a que el sistema de animación no se apoyaba enningún método de captura de movimientos, y el realismo en la representación deotros elementos de los personajes (como la biomecánica del cuerpo humano, lailuminación o la recreación detallada de los poros de la piel mediante Bump Mapping), los Bugs que podíamos encontrarnos durante las conversaciones y losextraños movimientos que podían llegar a producirse durante una escena de vídeoacrecentaban el problema.

Tal vez por elloNaughty Dog, estudio plagado de expertos en animación, recreación de movimientocartoon y diseño de mundos imaginarios de carácter fantástico, intentó unaaproximación —moderada— hacia el realismo en la primera iteración de la serieUncharted (Amy Hennig, 2007): antes de enfrentarse al temido Uncanny Valley, noestá de más allanar el camino. Mientras tanto, equipos de desarrollo como TeamBondi optaban por sistemas alternativos en cuanto a la representación realistadel gesto facial: el videojuego L.A Noire (Brendan McNamara, 2011), distribuido bajoel sello Rockstar y recuperado recientemente en una versión remasterizada paraPS4, Xbox One, PC y Nintendo Switch, llamópoderosamente la atención de los desarrolladores por sus novedosos métodos derepresentación facial, a partir de la técnica Motion Scan.

Este método,basado en la filmación de actores reales por medio de un sistema multicámara,capturó todos los matices de la expresión facial en numerosos vídeos desde múltiplespuntos de vista. Para llevarlos al entorno interactivo, se utilizaron procesoscomplejos para la sincronización de la captura de movimientos y la malla de cadapersonaje, a la vez que se utilizaban texturas dinámicas que contenían lasexpresiones faciales grabadas en vídeo.

Es decir, horas yhoras de metraje incrustadas en los modelos tridimensionales con el objetivo decapturar todos los matices de su expresividad facial. El resultado es, inclusohoy en día, realmente sorprendente, pese a no poder contar con modelos de altadensidad poligonal y el hecho de que las texturas dinámicas no tuviesen lacalidad de las tradicionales, hacían que el Uncanny Valley hiciese acto depresencia, sobre todo, cuando la cámara se situaba muy cerca del jugador y enposiciones algo forzadas.

Muchos nospreguntábamos por qué no se evolucionó esta técnica en produccionesposteriores. La respuesta es sencilla: para conseguir texturas dinámicas 4ktrabajando a 30 o 60 fotogramas por segundo, teniendo en cuenta la cantidad depersonajes que hay en este tipo de videojuegos, se ocuparía una cantidad ingentede espacio de almacenamiento. Terabytes y terabytes de información que seríantremendamente costosos de gestionar a nivel de espacio, con lo que elloconllevaría también en el plano del rendimiento técnico.

Presente y futuro de la representacióntridimensional realista

No obstante, lo queantaño parecía una barrera prácticamente imposible de sortear, se ha convertidoen un objetivo mucho más realista dentro del mundo de la produccióncinematográfica. Y lo que resulta mucho más sorprendente: se están lograndoresultados increíbles en el campo de la generación de gráficos en tiempo realgracias a los avances instaurados en los últimos sistemas de captura demovimientos. Más fiables, más cómodos para los actores, más precisos y, lo queresulta más importante, más fáciles de trasladar al motor del juego sin que,por el camino, se pierda una ingente cantidad de datos.

También es derecibo ensalzar la labor del animador: sin los ajustes pertinentes y el talentode esta importante figura dentro del medio, sería imposible conseguir losasombrosos resultados de equipos como Naughty Dog, Supermassive Games, RockstarGames, NetherRealm Studios o Sony Santa Mónica.

Figuras tanimportantes del celuloide como Andy Serkis y su equipo se han dedicado encuerpo y alma al desarrollo e implementación de estas tecnologías, tal y comodemuestra las mejoras evidentes vistas al analizar personajes como Gollum oKing Kong, junto con otros más actuales a la altura de César o Neytiri. Junto aello, directores como Robert Zemeckis o David Fincher siempre han demostradouna pasión inusitada por la representación realista en el mundo de los gráficospor ordenador. Los resultados obtenidos por este último en El curioso Caso deBenjamin Button (gracias a los sistemas de captura de movimientos patentadospor Image Metrics) suponen un hito en el mundo del cine en particular, y en elde la generación de gráficos tridimensionales a nivel general. Y, lo másimportante, siempre con el foco puesto también en el sector interactivo:

Parece mentira quemuchas de esas técnicas se estén utilizando en la actualidad en el mundo delvideojuego —a menor escala y por medio de numerosos trucos, todo hay quedecirlo—, con unos resultados tan espectaculares como inverosímiles. Pongámonosen situación; los fotogramas de una película de animación como Vaiana (RonClements, 2016) tardan horas en renderizarse, mientras que el espacio escénicointeractivo mostrado en títulos como Horizon Zero Dawn (Mathijs de Jonge, 2017)se están gestionando en tiempo real a 30 fotogramas por segundo.

En cuanto a laproblemática que nos ocupa, figuras de la animación como Frank Tzeng o artistasconceptuales a la altura de Ashley Swidowski han trabajado conjuntamente en lalucha contra el temido Uncanny Valley. El objetivo: dotar de vida a personajestridimensionales gestionados en tiempo real, por medio de las nuevasherramientas de edición y utilizando recursos inspirados en el mundo de lahistoria del arte y del estudio de la anatomía humana.

De esta forma, losojos de los protagonistas de Uncharted 4 (Neil Druckmann, 2016) transmitensentimientos, sus pequeños matices faciales nos asombran durante las escenascinemáticas, y la recreación pormenorizada de su fisonomía logra que los veamoscon total naturalidad: rápidamente nos olvidamos que estamos ante un amasijo depolígonos, texturas y shaders. Incluir factores individuales en cada personaje,representar imperfecciones propias de la piel y añadir el concepto de asimetríaa la ecuación son algunas de las características más destacables.

Durante el Panelde Naughty Dog en la PlayStation Xperience 2014, Frank y Ashley nos mostrabanla evolución de Nathan Drake a través del progreso del motor interno de lacompañía. Resulta sorprendente cómo el sistema de huesos y músculos faciales deNathan responden como un todo —al contrario que el ejemplo puesto sobre losexperimentos de Duchenne—, interviniendo grupos enteros durante larepresentación de las distintas expresiones faciales. Destacan los movimientos laterales de la mandíbula, la acción del buccinador mientras sehinchan los mofletes del personaje, o cómo se combinan texturas dinámicas conmapas de normales para mostrar los pliegues de las arrugas en la frente, ojos ycomisuras labiales.

No obstante, elfactor anatómico necesita de muchos otros complementos para funcionar concoherencia. Uno de los más importantes lo encontramos en la iluminación,elemento en el que han trabajado durante años estudios a la altura de QuanticDream o Remedy. El interesantísimo Paper publicado en marzo por GuillaumeCaurant y Thibault Lambert con motivo de la GDC 2018 desvela elementosrealmente interesantes que intervienen a lo largo del desarrollo de Heavy Rain,Beyond: Dos Almas y Detroit: Become Human.

La culminación demás de una década de trabajo la encontramos en el próximo videojuego de DavidCage, que sale a la venta esta misma semana, y dónde las herramientas tanto deanimación facial como de iluminación podrían suponer un nuevo referente dentrodel sector. Además, el hecho de que los principales protagonistas seanandroides hace que, en este caso concreto, cualquier signo de Uncanny Valleypueda ser justificable. Aunque también hay que evaluar el grado de éxitoalcanzado en la recreación de los personajes humanos.

Iluminaciónvolumétrica, Ambient Oclussion, superficies con diferentes capas deespecularidad que absorben y repelen la luz de forma coherente, así como unsistema de sombreado complejo cuyo objetivo principal es simular la radiosidadsin que el rendimiento del videojuego que nos ocupa se vea comprometido. Hemostenido la ocasión de probar el título en cuestión y podemos afirmar, sin temora equivocarnos, que el equipo dirigido por Cage ha logrado un acabado visualrealmente impactante, a pesar de que en cuestión de animación facial, ennuestra humilde opinión, queda margen de mejora al comparar el trabajo delestudio francés con el de compañías a la altura de Naughty Dog.

Del mismo modo quela animación facial, la mejora en la gestión del movimiento corporal de personajesvirtuales adopta también un papel trascendental. Sistemas de huesos máscomplejos —que no sólo intentan reproducir la biomecánica del cuerpo humano, sino que añaden capacidad motriz a elementos que intervienen únicamente enaspectos secundarios de la animación— se adaptan como un guante a mallas con unadensidad poligonal drásticamente superior a las utilizadas hace años. Estosaspectos, unidos al hecho de que los sistemas de animación tanto tradicionalcomo asistidos por captura de movimientos son más sencillos de utilizar,ofrecen muchas más posibilidades a los artistas, y resultan mucho menosinvasivos para el actor profesional, dan como resultado un gran momento para elmundo de la recreación del cuerpo humano por ordenador.

A los ejemplos quehemos puesto para ilustrar el presente artículo se unen logros impresionantespor parte de estudios realmente diversos. No es muy habitual que un videojuegode lucha sea objeto de estudio en cuanto a animación facial se refiere: el grantrabajo realizado por NeverRealm Studios en Injustice 2 (Ed boon, 2017) hapermitido que personajes como Harley Quinn se haya catapultado al estrellatomás absoluto en este sentido. La animación facial y la interpretación exageradade sus expresiones faciales dotan al personaje de un carácter muy acorde con suprincipal inspiración: la actriz que dio vida a este carismático personajecreado por DC en Escuadrón Suicida, la asombrosa Margot Robbie.

Existen muchos másejemplos que nos dejamos en el tintero, como el de estudios a la altura deSupermassive Games en el sorprendente Until Dawn (Will Byles, 2015), el deRemedy por medio de la interpretación virtualizada del artistas como ShawnAshmore o Courtney Hope en Quantum Break (Sam Lake, 2016), o el de Ninja Theorygracias al asombroso trabajo de Melina Juergens cómo la protagonista deHellblade: Senua’s Sacrifice (Tameem Antoniades, 2017). Sin duda alguna, estoes tan solo un ejemplo del futuro que nos depara el mundo de la representaciónvirtual del cuerpo humano, esperemos que dentro de unos años los logrosrealizados en el mundo de la robótica sean suficientes como para que nuestrocompañero de piso virtual no de la impresión de querer intentar asesinarnosmientras dormimos durante una cálida noche de verano.

Referencias

Easley, T., &Smith, M. (1986). The Male and Female figure in motion. Nueva York:Watson-Guptill.

Plasencia Climent,C., & Rodríguez García, S. (1993). El rostro humano. Valencia: UniversidadPolitécnica, Departamento de Dibujo, Facultad de Bellas Artes de San Carlos.

Guillaume Caurant /Thibault Lambert (2018). The Lighting technology of Detroit: Become Human. Paper.Game Developer Conference 2018.

GDC Vault / Gdcvault.com(2018) [sitio web en línea] Disponibleen https://www.gdcvault.com [Consulta: 20 de mayo de 2018].