La empresa lanza una actualización de Claude 3.5 Sonnet y presenta el nuevo modelo Haiku, destacándose por sus capacidades de programación y la revolucionaria función de «computer use» que permite al sistema interactuar con interfaces como lo haría una persona.
Anthropic ha dado un salto cualitativo en el desarrollo de la inteligencia artificial con el lanzamiento de dos modelos mejorados: una actualización de Claude 3.5 Sonnet y el nuevo Claude 3.5 Haiku.
La versión actualizada de Sonnet muestra mejoras significativas en todas las áreas, especialmente en programación, donde ya era líder del mercado.
En las pruebas de rendimiento, Claude 3.5 Sonnet mejoró su puntuación en SWE-bench Verified del 33.4% al 49.0%, superando a todos los modelos disponibles públicamente, incluidos sistemas especializados como OpenAI o1-preview.
También incrementó su desempeño en TAU-bench, pasando del 62.6% al 69.2% en el dominio minorista y del 36.0% al 46.0% en el sector aeronáutico.
Computer Use: un avance revolucionario
La característica más destacada es «computer use», disponible en versión beta pública. Esta función permite a Claude utilizar computadoras como lo haría un humano: mirando la pantalla, moviendo el cursor, haciendo clic y escribiendo texto.
Si bien la función aún está en fase experimental y puede ser propensa a errores, empresas como Asana, Canva, DoorDash y Replit ya están explorando sus posibilidades.
«Esta nueva capacidad representa un cambio fundamental en cómo la IA puede interactuar con las interfaces diseñadas para humanos», destaca el equipo de Anthropic en su anuncio oficial.
Claude 3.5 Haiku: Velocidad y Eficiencia
El nuevo modelo Haiku iguala el rendimiento de Claude 3 Opus, su predecesor más potente, manteniendo el mismo costo y velocidad similar.
En pruebas de programación, alcanzó un 40.6% en SWE-bench Verified, superando a muchos competidores, incluida la versión original de Claude 3.5 Sonnet y GPT-4o.
Seguridad y Responsabilidad
Anthropic ha implementado medidas de seguridad específicas para el uso responsable de estas nuevas capacidades.
La empresa desarrolló clasificadores que pueden identificar cuándo se está utilizando la función «computer use» y si existe riesgo de daño potencial.
Además, las pruebas pre-lanzamiento fueron realizadas en conjunto con el US AI Safety Institute (US AISI) y el UK Safety Institute (UK AISI).
Disponibilidad y Acceso
La versión actualizada de Claude 3.5 Sonnet ya está disponible para todos los usuarios, mientras que Claude 3.5 Haiku se lanzará a finales de mes.
Los desarrolladores pueden acceder a la beta de «computer use» a través de Anthropic API, Amazon Bedrock y Google Cloud’s Vertex AI.