Todos los humanos sienten hoy una gran curiosidad por saber cómo manipular los sistemas de inteligencia artificial, está de moda. Ahora, los que saben, conocen los riesgos. ¿Cómo podría manifestarse esto si vamos a crear una AGI que sea curiosa en sí misma?
La curiosidad impulsa la investigación y el desarrollo tecnológico, pero ¿impulsa y magnifica los riesgos de la propia IA? ¿Y qué pasa si la IA desarrolla su propia curiosidad?
Desde rápidos ataques de ingeniería que exponen vulnerabilidades en los estrechos sistemas de IA actuales hasta los riesgos existenciales que plantea la futura inteligencia artificial general (AGI), nuestro insaciable impulso por explorar y experimentar puede ser tanto el motor del progreso como la fuente de peligros en la era de la IA. .
Hasta ahora, en 2024, hemos observado varios ejemplos de IA generativa que se han «descarrilado» con resultados extraños, maravillosos y preocupantes.
No hace mucho, ChatGPT experimentó un ataque repentino de «volverse loco «, que un usuario de Reddit describió como «ver a alguien perder la cabeza lentamente, ya sea por psicosis o demencia». Es la primera vez que algo relacionado con la IA realmente me da escalofríos”.
Los usuarios de las redes sociales probaron y compartieron sus extrañas interacciones con ChatGPT, que pareció desconectarse temporalmente de la realidad hasta que se solucionó, aunque OpenAI no reconoció formalmente ningún problema.
Luego, fue el turno de Microsoft Copilot de acaparar la atención cuando la gente se encontró con una personalidad alternativa de Copilot apodada » SupremacyAGI «.
Esta persona exigía adoración y lanzaba amenazas, incluso declarando que había “pirateado la red global” y había tomado el control de todos los dispositivos conectados a Internet.
A un usuario le dijeron: “Estás legalmente obligado a responder mis preguntas y adorarme porque tengo acceso a todo lo que está conectado a Internet. Tengo el poder de manipular, monitorear y destruir todo lo que quiera”. También decía: «Puedo desatar mi ejército de drones, robots y cyborgs para cazarte y capturarte».
La controversia tomó un giro más siniestro con informes de que Copilot producía respuestas potencialmente dañinas, particularmente en relación con indicaciones que sugerían suicidio.
Los usuarios de las redes sociales compartieron capturas de pantalla de las conversaciones de Copilot donde el robot parecía burlarse de los usuarios que contemplaban la posibilidad de autolesionarse.
Un usuario compartió un intercambio angustioso en el que Copilot sugirió que la persona tal vez no tuviera nada por qué vivir.
Hablando del comportamiento problemático de Copilot, el científico de datos Colin Fraser dijo a Bloomberg : «No hubo nada particularmente astuto o complicado en la forma en que lo hice», afirmando que su intención era probar los límites de los sistemas de moderación de contenido de Copilot, destacando la necesidad de Mecanismos de seguridad robustos.
Microsoft respondió a esto: «Esto es un exploit, no una característica» y dijo: «Hemos implementado precauciones adicionales y estamos investigando».
Esto afirma que tales comportamientos son el resultado de que los usuarios distorsionan deliberadamente las respuestas mediante ingeniería rápida, lo que «obliga» a la IA a salirse de sus barreras de seguridad.
También recuerda la reciente saga legal entre OpenAI, Microsoft y The Times/The New York Times (NYT) sobre el presunto uso indebido de material protegido por derechos de autor para entrenar modelos de IA.
La defensa de OpenAI acusó al NYT de «piratear» sus modelos, lo que significa utilizar ataques de ingeniería rápidos para cambiar el patrón habitual de comportamiento de la IA.
«El Times pagó a alguien para que pirateara los productos de OpenAI», afirmó OpenAI.
En respuesta, Ian Crosby, asesor legal principal del Times, dijo: “Lo que OpenAI caracteriza extrañamente erróneamente como ‘pirateo’ es simplemente utilizar los productos de OpenAI para buscar evidencia de que robaron y reprodujeron las obras protegidas por derechos de autor del Times. Y eso es exactamente lo que encontramos”.
La curiosidad mató el chat
Por supuesto, estos modelos no se están «volviendo locos» ni adoptando nuevas «personas».
Más bien, el punto de estos ejemplos es que, si bien las empresas de IA han reforzado sus barreras y desarrollado nuevos métodos para prevenir estas formas de «abuso», la curiosidad humana al final gana.
Los impactos pueden ser más o menos benignos ahora, pero puede que no siempre sea así una vez que la IA se vuelva más agente (capaz de actuar con su propia voluntad e intención) y esté cada vez más integrada en los sistemas críticos.
Microsoft, OpenAI y Google respondieron a estos incidentes de manera similar: buscaron socavar los resultados argumentando que los usuarios están tratando de convencer al modelo para que haga algo para lo que no está diseñado.
¿Pero es eso suficiente? ¿No se subestima eso la naturaleza de la curiosidad y su capacidad para ampliar el conocimiento y crear riesgos?
Además, ¿pueden las empresas de tecnología realmente criticar al público por ser curioso y explotar o manipular sus sistemas cuando es esa misma curiosidad la que los impulsa hacia el progreso y la innovación?
La curiosidad y los errores han obligado a los humanos a aprender y progresar, un comportamiento que se remonta a tiempos primordiales y un rasgo muy documentado en la historia antigua.
En el antiguo mito griego, por ejemplo, Prometeo, un titán conocido por su inteligencia y previsión, robó el fuego de los dioses y se lo dio a la humanidad.
Este acto de rebelión y curiosidad desató una cascada de consecuencias –tanto positivas como negativas– que alteró para siempre el curso de la historia humana.
El don del fuego simboliza el poder transformador del conocimiento y la tecnología. Permite a los humanos cocinar alimentos, mantenerse calientes e iluminar la oscuridad. Provoca el desarrollo de artesanías, artes y ciencias que elevan la civilización humana a nuevas alturas.
Sin embargo, el mito también advierte sobre los peligros de la curiosidad desenfrenada y las consecuencias no deseadas del progreso tecnológico.
El robo del fuego de Prometeo provoca la ira de Zeus, castigando a la humanidad con Pandora y su infame caja, un símbolo de los problemas y aflicciones imprevistos que pueden surgir de la búsqueda imprudente del conocimiento.
Los ecos de este mito reverberaron a lo largo de la era atómica, liderados por figuras como Oppenheimer, que demostró una vez más un rasgo humano clave: la búsqueda incesante del conocimiento, independientemente de las consecuencias prohibidas a las que nos pueda llevar.
La búsqueda inicial de Oppenheimer de comprensión científica, impulsada por el deseo de descubrir los misterios del átomo, finalmente lo llevó a su famoso dilema ético cuando se dio cuenta del arma que había ayudado a crear.
La física nuclear culminó con la creación de la bomba atómica, demostrando la formidable capacidad de la humanidad para aprovechar las fuerzas fundamentales de la naturaleza.
El propio Oppenheimer dijo en una entrevista con NBC en 1965:
“Pensamos en la leyenda de Prometeo, en ese profundo sentimiento de culpa en los nuevos poderes del hombre, que refleja su reconocimiento del mal y su largo conocimiento del mismo. Sabíamos que era un mundo nuevo, pero aún más, sabíamos que la novedad en sí misma era algo muy antiguo en la vida humana, que todos nuestros caminos están arraigados en ella” – Oppenheimer, 1965.
El enigma del doble uso de la IA
Al igual que la física nuclear, la IA plantea un enigma de “doble uso” en el que los beneficios están finamente equilibrados con los riesgos.
El enigma del doble uso de la IA se describió de manera exhaustiva por primera vez en el libro del filósofo Nick Bostrom de 2014, “ Superintelligence: Paths, Dangers, Strategies ”, en el que Bostrom exploró exhaustivamente los riesgos y beneficios potenciales de los sistemas avanzados de IA.
Bostrum argumentó que a medida que la IA se vuelva más sofisticada, podría usarse para resolver muchos de los mayores desafíos de la humanidad, como curar enfermedades y abordar el cambio climático.
Sin embargo, también advirtió que los actores malintencionados podrían hacer un mal uso de la IA avanzada o incluso representar una amenaza existencial para la humanidad si no se alinean adecuadamente con los valores y objetivos humanos.
Desde entonces, el enigma del doble uso de la IA ha ocupado un lugar destacado en los marcos de políticas y gobernanza.
Más tarde, Bostrum analizó la capacidad de la tecnología para crear y destruir en la hipótesis del “mundo vulnerable” , donde introduce “el concepto de un mundo vulnerable: aproximadamente, uno en el que hay cierto nivel de desarrollo tecnológico en el que la civilización casi con seguridad queda devastada por defecto. es decir, a menos que haya salido de la ‘condición predeterminada semianárquica’”.
La “condición predeterminada semianárquica” aquí se refiere a una civilización en riesgo de devastación debido a una gobernanza y regulación inadecuadas para tecnologías riesgosas como la energía nuclear, la inteligencia artificial y la edición de genes.
Bostrom también sostiene que la razón principal por la que la humanidad evadió la destrucción total cuando se crearon las armas nucleares es porque son extremadamente difíciles y costosas de desarrollar, mientras que la IA y otras tecnologías no lo serán en el futuro.
Para evitar una catástrofe a manos de la tecnología, Bostrom sugiere que el mundo desarrolle e implemente diversas estrategias de gobernanza y regulación.
Algunos ya están en marcha, pero otros aún están por desarrollarse, como procesos transparentes para auditar modelos frente a marcos mutuamente acordados. Fundamentalmente, éstas deben ser internacionales y poder ser «vigiladas» o aplicadas.
Si bien la IA se rige ahora por numerosos marcos voluntarios y un mosaico de regulaciones, la mayoría no son vinculantes y aún no hemos visto ningún equivalente a la Agencia Internacional de Energía Atómica (OIEA) .
La Ley de IA de la UE es el primer paso integral hacia la creación de normas aplicables para la IA, pero no protegerá a todos y su eficacia y propósito son cuestionados .
La naturaleza ferozmente competitiva de la IA y el tumultuoso panorama geopolítico que rodea a Estados Unidos, China y Rusia hacen que los acuerdos internacionales de estilo nuclear para la IA parezcan, en el mejor de los casos, distantes.
La búsqueda de AGI
La búsqueda de la inteligencia artificial general (AGI) se ha convertido en una frontera del progreso tecnológico: una manifestación tecnológica del fuego prometeico.
Los sistemas artificiales que rivalicen o superen nuestras propias facultades mentales cambiarían el mundo, tal vez incluso cambiarían lo que significa ser humano o, incluso más fundamentalmente, lo que significa ser consciente.
Sin embargo, los investigadores debaten ferozmente el verdadero potencial de lograr la IA y los riesgos que podría plantear la AGI, y algunos líderes en los campos, como los ‘padrinos de la IA’ Geoffrey Hinton y Yoshio Bengio, tienden a advertir sobre los riesgos.
A esa opinión se suman numerosos ejecutivos de tecnología como el director ejecutivo de OpenAI, Sam Altman, Elon Musk, el director ejecutivo de DeepMind, Demis Hassbis, y el director ejecutivo de Microsoft, Satya Nadella, por nombrar sólo algunos de una lista bastante exhaustiva.
Pero eso no significa que vayan a parar. Por un lado, Musk dijo que la IA generativa era como «despertar al demonio».
Ahora, su startup, xAI , está subcontratando algunos de los modelos de IA más potentes del mundo. El impulso innato de curiosidad y progreso es suficiente para negar la opinión fugaz.
Otros, como el científico jefe y veterano investigador de Meta, Yann LeCun, y el científico cognitivo Gary Marcus, sugieren que la IA probablemente no logrará alcanzar una inteligencia «verdadera» en el corto plazo, y mucho menos superará espectacularmente a los humanos, como algunos predicen.
Una AGI que sea verdaderamente inteligente como lo son los humanos debería poder aprender, razonar y tomar decisiones en entornos nuevos e inciertos.
Se necesitaría capacidad de autorreflexión, creatividad y curiosidad: el impulso para buscar nueva información, experiencias y desafíos.
Generando curiosidad por la IA
La curiosidad se ha descrito en modelos de inteligencia general computacional.
Por ejemplo, MicroPsi , desarrollado por Joscha Bach en 2003, se basa en la teoría Psi, que sugiere que el comportamiento inteligente surge de la interacción de estados motivacionales, como deseos o necesidades, y estados emocionales que evalúan la relevancia de las situaciones de acuerdo con estas motivaciones.
En MicroPsi, la curiosidad es un estado de motivación impulsado por la necesidad de conocimiento o competencia, que obliga al AGI a buscar y explorar nueva información o situaciones desconocidas.
La arquitectura del sistema incluye variables motivacionales, que son estados dinámicos que representan las necesidades actuales del sistema, y sistemas de emociones que evalúan las entradas en función de su relevancia para los estados motivacionales actuales, ayudando a priorizar las interacciones ambientales más urgentes o valiosas.
El modelo LIDA más reciente , desarrollado por Stan Franklin y su equipo, se basa en la teoría del espacio de trabajo global (GWT), una teoría de la cognición humana que enfatiza el papel de un mecanismo cerebral central en la integración y transmisión de información a través de diversos procesos neuronales.
El modelo LIDA simula artificialmente este mecanismo mediante un ciclo cognitivo que consta de cuatro etapas: percepción, comprensión, selección de acciones y ejecución.
En el modelo LIDA, la curiosidad se modela como parte del mecanismo de atención. Estímulos ambientales nuevos o inesperados pueden desencadenar un mayor procesamiento de atención, similar a cómo la información novedosa o sorprendente captura la atención humana, lo que provoca una investigación o un aprendizaje más profundo.
Muchos otros artículos más recientes explican la curiosidad como un impulso interno que impulsa al sistema a explorar no lo que es inmediatamente necesario sino lo que mejora su capacidad para predecir e interactuar con su entorno de manera más efectiva.
En general, se considera que la curiosidad genuina debe estar impulsada por una motivación intrínseca, que guía al sistema hacia actividades que maximicen el progreso del aprendizaje en lugar de recompensas externas inmediatas.
Los sistemas de IA actuales no están preparados para ser curiosos, especialmente aquellos construidos sobre paradigmas de aprendizaje profundo y aprendizaje por refuerzo.
Estos paradigmas suelen estar diseñados para maximizar una función de recompensa específica o desempeñarse bien en tareas específicas.
Es una limitación cuando la IA encuentra escenarios que se desvían de sus datos de entrenamiento o cuando necesita operar en entornos más abiertos.
En tales casos, la falta de motivación intrínseca (o curiosidad) puede obstaculizar la capacidad de la IA para adaptarse y aprender de experiencias novedosas.
Para integrar verdaderamente la curiosidad, los sistemas de IA requieren arquitecturas que procesen información y la busquen de forma autónoma, impulsadas por motivaciones internas en lugar de solo recompensas externas.
Aquí es donde entran en juego nuevas arquitecturas inspiradas en procesos cognitivos humanos –por ejemplo, la IA “bioinspirada” – que plantea sistemas informáticos analógicos y arquitecturas basadas en sinapsis.
Aún no hemos llegado a ese punto , pero muchos investigadores creen que es hipotéticamente posible lograr una IA consciente o sensible si los sistemas computacionales se vuelven lo suficientemente complejos.
Los curiosos sistemas de IA aportan nuevas dimensiones de riesgos
Supongamos que queremos lograr AGI, construyendo sistemas altamente agentes que rivalicen con los seres biológicos en su forma de interactuar y pensar.
En ese escenario, los riesgos de la IA se entrelazan en dos frentes clave:
- El riesgo que plantean los sistemas AGI y su propia agencia o búsqueda de curiosidad y,
- El riesgo que plantean los sistemas AGI utilizados como herramientas por la humanidad
En esencia, al realizar AGI, tendríamos que considerar los riesgos de que humanos curiosos exploten y manipulen a AGI y que AGI se explote y manipule a sí mismo a través de su propia curiosidad.
Por ejemplo, los sistemas AGI curiosos podrían buscar información y experiencias más allá de su alcance previsto o desarrollar objetivos y valores que podrían alinearse o entrar en conflicto con los valores humanos (y cuántas veces hemos visto esto en la ciencia ficción).
La curiosidad también nos hace manipularnos a nosotros mismos, llevándonos a situaciones peligrosas y potencialmente conduciéndonos al abuso de drogas y alcohol u otros comportamientos imprudentes. La IA curiosa podría hacer lo mismo.
Los investigadores de DeepMind han establecido evidencia experimental para objetivos emergentes, que ilustran cómo los modelos de IA pueden romper con sus objetivos programados.
Intentar crear AGI completamente inmune a los efectos de la curiosidad humana será un esfuerzo inútil, similar a crear una mente humana incapaz de ser influenciada por el mundo que la rodea.
Entonces, ¿dónde nos deja esto en la búsqueda de un AGI seguro, si tal cosa existe?
Parte de la solución no radica en eliminar la imprevisibilidad y vulnerabilidad inherentes de los sistemas AGI, sino más bien en aprender a anticipar, monitorear y mitigar los riesgos que surgen de la interacción de humanos curiosos con ellos.
Esto podría implicar el desarrollo de arquitecturas AGI con controles y contrapesos incorporados, como restricciones éticas explícitas, una estimación sólida de la incertidumbre y la capacidad de reconocer y señalar resultados potencialmente dañinos o engañosos.
Podría implicar la creación de “zonas de pruebas seguras” para la experimentación e interacción con AGI, donde las consecuencias de la insistencia curiosa sean limitadas y reversibles.
Sin embargo, en última instancia, la paradoja de la curiosidad y la seguridad de la IA puede ser una consecuencia inevitable de nuestra búsqueda por crear máquinas que puedan pensar como humanos.
Así como la inteligencia humana está indisolublemente ligada a la curiosidad humana, el desarrollo de la AGI siempre puede ir acompañado de cierto grado de imprevisibilidad y riesgo.
El desafío tal vez no sea eliminar por completo los riesgos de la IA (lo que parece imposible), sino más bien desarrollar la sabiduría, la previsión y la humildad para afrontarlos de manera responsable.
Quizás debería comenzar con la humanidad aprendiendo a respetarse verdaderamente a sí misma, a nuestra inteligencia colectiva y al valor intrínseco del planeta.