En un movimiento pionero, Anthropic revela los comandos internos que guían a sus modelos de IA, Claude, promoviendo una mayor transparencia en el sector.
Los modelos de inteligencia artificial generativa, como Claude de Anthropic, no poseen inteligencia ni personalidad propias; son simplemente sistemas estadísticos que predicen las palabras más probables en una oración.
Sin embargo, estos modelos siguen instrucciones precisas, conocidas como «system prompts», que definen sus características básicas y lo que deben o no deben hacer.
Tradicionalmente, los proveedores de IA, desde OpenAI hasta Anthropic, utilizan estos prompts para evitar comportamientos inadecuados de los modelos y dirigir el tono y el sentimiento de sus respuestas.
Estos comandos son generalmente secretos, tanto por razones competitivas como para evitar que se encuentren formas de eludirlos.
Un ejemplo es el prompt de GPT-4o, que solo se puede descubrir mediante un ataque de inyección de prompt, y aun así, la salida del sistema no es completamente confiable.
En un esfuerzo por posicionarse como un proveedor de IA más ético y transparente, Anthropic ha publicado los system prompts de sus modelos más recientes (Claude 3 Opus, Claude 3.5 Sonnet y Claude 3 Haiku) en las aplicaciones de iOS y Android de Claude y en la web.
Alex Albert, jefe de relaciones con desarrolladores de Anthropic, anunció en un post en X que planean hacer de esta divulgación una práctica regular mientras actualizan y ajustan los prompts.
Los prompts más recientes, fechados el 12 de julio, detallan claramente lo que los modelos Claude no pueden hacer, como abrir URLs, enlaces o videos.
La identificación facial está totalmente prohibida; el prompt para Claude Opus indica al modelo que «siempre responda como si fuera completamente ciego a las caras» y que «evite identificar o nombrar a cualquier humano en imágenes.»
Sin embargo, los prompts también describen ciertos rasgos de personalidad y características que Anthropic desea que los modelos Claude demuestren.
Por ejemplo, el prompt para Claude 3 Opus indica que debe parecer «muy inteligente y curiosamente intelectual,» y «disfrutar de escuchar lo que los humanos piensan sobre un tema y participar en discusiones sobre una amplia variedad de temas.»
Además, se le instruye a tratar temas controvertidos con imparcialidad y objetividad, proporcionando «reflexiones cuidadosas» e «información clara», y nunca comenzar respuestas con las palabras «ciertamente» o «absolutamente.»
Este enfoque de transparencia es un cambio significativo en la industria, y plantea una presión sobre otros proveedores de IA para que sigan el ejemplo de Anthropic.
Queda por ver si esta estrategia influirá en los competidores para adoptar prácticas similares de apertura.