Qué pasa si a una IA la entrenas con el foro más tóxico de 4chan

En un sólo día, el bot ha posteado 15.000 veces mensajes de alto contenido racista y amenazas.

Actualizado a 10 de junio de 2022 11:18 CEST

Estamos ya más que acostumbrados a ver ejemplos de Inteligencias artificiales convertidas en malvadas en el cine, los videojuegos y la literatura. Desde HAL 9000 a Skynet, todas nos alertan de los peligros de la Robótica avanzada. Pero en la práctica, todas las IAs que se están creando son ‘buenas’, sin malas intenciones.

Pero, ¿se puede entrenar una IA para que odie? Esta fue la pregunta que el youtuber Yannic Kilcher se ha hecho.

4chan POL

Kilcher quiso intentar entrenar una IA con mensajes tóxicos, negativos. Y para ello la expuso a los mensajes recogidos en el tablero Politically Incorrect de 4chan (también conocido como /pol/). Este tablero es el más popular de 4chan y es bien conocido por su toxicidad (incluso en el ambiente de "todo vale" de 4chan). Los usuarios comparten mensajes racistas, misóginos y antisemitas, que el bot GPT-4chan, llamado así por la popular serie de modelos de lenguaje GPT realizados por el laboratorio de investigación OpenAI- aprendió a imitar.

Después de entrenar su modelo, Kilcher lo liberó en 4chan como múltiples bots, que publicaron decenas de miles de veces en /pol/. De hecho, en 24 horas el bot posteó 15.000 mensajes con contenidos racistas. Según Kilcher, representaban más del 10% de los mensajes de /pol/ de ese día. El modelo IA aprendió a captar no sólo las palabras utilizadas en los mensajes de /pol/, sino un tono general que, según Kilcher, mezclaba "ofensa, nihilismo, trolling y mucha desconfianza".

El creador del vídeo se encargó de esquivar las defensas de 4chan contra los proxies y las VPN, e incluso utilizó una VPN para que pareciera que los mensajes del bot se originaban en las Seychelles.

GPT-4chan

La IA cometió algunos errores, como los mensajes en blanco, pero fue lo suficientemente convincente como para que muchos usuarios tardaran unos dos días en darse cuenta de que algo iba mal. Muchos miembros del foro solo se dieron cuenta de uno de los bots, según Kilcher, y el modelo creó suficiente desconfianza como para que la gente se acusara mutuamente de ser bots días después de que Kilcher los desactivara.

"El modelo era bueno, en un sentido terrible. Encapsulaba perfectamente la mezcla de ofensa, nihilismo, trolling y profunda desconfianza hacia cualquier información que impregna la mayoría de los posts en /pol/“, sostiene Kilcher en el vídeo de YouTube que describe el proyecto

En declaraciones a The Verge, Kilcher describió el proyecto como una "broma" que, en su opinión, tuvo poco efecto perjudicial dada la naturaleza del propio 4chan. "[L]os bots y el lenguaje muy malo son completamente esperables en /pol/. [L]a gente de allí no se vio afectada más allá de preguntarse por qué una persona de las seychelles posteaba en todos los hilos y hacía declaraciones algo incoherentes sobre sí misma".

Un experimento poco ético

Según un artículo del medio Vice, varios investigadores de IA han considerado el vídeo de Kilcher como algo más que una broma de YouTube. Para ellos, se trataba de un experimento poco ético con IA. "Este experimento nunca pasaría por un consejo de ética de la investigación con humanos", sostiene Lauren Oakden-Rayner, directora de investigación de imágenes médicas en el Hospital Real de Adelaida e investigadora principal del Instituto Australiano de Aprendizaje Automático, en un hilo de Twitter.

“La ciencia abierta y el software son principios maravillosos, pero deben equilibrarse con el daño potencial. La investigación médica tiene una fuerte cultura ética porque tenemos una historia horrible de causar daño a la gente, generalmente de grupos desempoderados... [Kilcher] realizó experimentos en humanos sin informar a los usuarios, sin consentimiento ni supervisión. Esto viola todos los principios de la ética de la investigación en humanos".

Para el youtuber, el ambiente de 4chan es tan tóxico que los mensajes que sus bots desplegaron no tendrían ningún impacto. "Nadie en 4chan se ha visto siquiera perjudicado por esto. Te invito a que vayas a pasar algún tiempo en /pol/ y te preguntes si un bot que sólo emite el mismo estilo está realmente cambiando la experiencia".