El Instituto Allen para la Inteligencia Artificial (AI2) ha presentado Tülu 3 405B, un modelo de lenguaje de 405 mil millones de parámetros que supera a competidores como DeepSeek v3 y GPT-4o en diversas evaluaciones estándar.
El 30 de enero de 2025, el Instituto Allen para la Inteligencia Artificial (AI2) anunció el lanzamiento de Tülu 3 405B, marcando un hito en la escalabilidad y eficacia de las recetas de post-entrenamiento aplicadas a modelos de gran escala con pesos abiertos.
Este modelo, con 405 mil millones de parámetros, demuestra un rendimiento competitivo o superior en comparación con modelos como DeepSeek v3 y GPT-4o, y supera a otros modelos de pesos abiertos de tamaño similar, incluyendo Llama 3.1 405B Instruct y Nous Hermes 3 405B, en múltiples evaluaciones estándar.
El objetivo principal de este lanzamiento fue probar la eficacia del enfoque de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) y la infraestructura de entrenamiento a gran escala, extendiendo la receta de Tülu 3 al modelo base Llama-405B.
El proceso de entrenamiento siguió pasos similares a los de los modelos de 8B y 70B introducidos previamente, incluyendo:
- Curación y síntesis cuidadosa de datos enfocada en habilidades clave.
- Afinamiento supervisado (SFT) utilizando una mezcla seleccionada de indicaciones y sus completaciones.
- Optimización Directa de Preferencias (DPO) basada en datos de preferencias tanto fuera como dentro de la política.
- Aplicación del método RLVR para mejorar habilidades específicas con recompensas verificables.
- Uso de una suite de evaluación estandarizada para el desarrollo, descontaminación y etapa de evaluación final.
Durante el entrenamiento con RLVR, se desplegó el modelo utilizando vLLM con un paralelismo de tensor de 16 vías, empleando 240 GPUs para el entrenamiento.
Tras cada iteración de RLVR, los pesos se sincronizaron con el motor vLLM, un proceso facilitado por una reciente mejora sugerida por el equipo de vLLM.
Cada iteración de RLVR implicó aproximadamente 550 segundos para inferencia, 25 segundos para la transferencia de pesos y 1500 segundos para el entrenamiento.
Para reducir los costos computacionales durante la etapa de RLVR, se utilizó un modelo de valor de 8B.
Los resultados indicaron que el uso exclusivo de datos de MATH, en lugar de una combinación de datos de GSM8k e IFEval, produjo mejores resultados para modelos más grandes, sugiriendo que estos modelos están mejor equipados para tareas complejas que requieren datos especializados.
En resumen, Tülu 3 405B representa un avance significativo en el desarrollo de modelos de lenguaje de gran escala con pesos abiertos, demostrando la eficacia de las recetas de post-entrenamiento y el enfoque RLVR en mejorar el rendimiento en diversas tareas y evaluaciones estándar.