Mientras el mundo sigue entusiasmado con la destreza del nuevo GPT-4o-mini, Apple ha decidido ampliar su familia de modelos pequeños. Hace unas horas, el equipo de investigación de Apple que trabaja como parte del proyecto DataComp for Language Models lanzó una familia de modelos DCLM abiertos en Hugging Face.
El paquete incluye dos modelos principales: uno con 7 mil millones de parámetros y el otro con 1,4 mil millones de parámetros. Ambos tienen un buen desempeño en los puntos de referencia, especialmente el más grande, que ha superado a Mistral-7B y se está acercando a otros modelos abiertos líderes, incluidos Llama 3 y Gemma .
Sinergia en síntesis: forjando el futuro de la IA con experiencia multifuncional
Vaishaal Shankar, del equipo de ML de Apple, los describió como los modelos de código abierto “con mejor rendimiento” que existen. Algo que vale la pena destacar es que el proyecto se convirtió en un proyecto verdaderamente de código abierto con el lanzamiento de los pesos del modelo, el código de entrenamiento y el conjunto de datos de preentrenamiento.
¿Qué sabemos sobre los modelos DCLM de Apple?
El proyecto DataComp, dirigido por un equipo de investigadores multidisciplinarios, entre los que se incluyen investigadores de Apple, la Universidad de Washington, la Universidad de Tel Aviv y el Instituto de Investigación Toyota, puede describirse como un esfuerzo colaborativo para diseñar conjuntos de datos de alta calidad para entrenar modelos de IA, en particular en el dominio multimodal. La idea es bastante simple: utilizar un marco estandarizado (con arquitecturas de modelos fijas, código de entrenamiento, hiperparámetros y evaluaciones) para ejecutar diferentes experimentos y determinar qué estrategia de curación de datos funciona mejor para entrenar un modelo de alto rendimiento.
El trabajo en el proyecto comenzó hace un tiempo y los experimentos llevaron al equipo a descubrir que el filtrado basado en modelos, donde los modelos de aprendizaje automático (ML) filtran y seleccionan automáticamente datos de alta calidad de conjuntos de datos más grandes, puede ser clave para ensamblar un conjunto de entrenamiento de alta calidad. Para demostrar la eficacia de la técnica de curación, el conjunto de datos resultante, DCLM-Baseline, se utilizó para entrenar los nuevos modelos de idioma inglés de transformadores solo decodificadores DCLM con 7 mil millones y 1,4 mil millones de parámetros desde cero.
El modelo 7B, entrenado con 2,5 billones de tokens utilizando recetas de preentrenamiento basadas en el marco OpenLM, viene con una ventana de contexto de 2K y ofrece una precisión de 5 disparos del 63,7 % en MMLU. Según los investigadores, esto representa una mejora de 6,6 puntos porcentuales en el punto de referencia en comparación con MAP-Neo (el modelo de lenguaje de datos abiertos de última generación anterior), mientras que utiliza un 40 % menos de cómputo para el entrenamiento.
Más importante aún, su rendimiento MMLU es bastante cercano al de los modelos abiertos líderes (pesos abiertos pero datos cerrados) del mercado, incluidos Mistral-7B-v0.3 (62,7%), Llama3 8B (66,2%), Gemma de Google (64,3%) y Phi-3 de Microsoft (69,9%).
El rendimiento del modelo en las pruebas de referencia básicas y extendidas (promedio de docenas de tareas diferentes, incluidas HellaSwag y ARC-E) mejoró aún más cuando los investigadores ampliaron la longitud de su contexto a 8K realizando 100B adicionales de entrenamiento en el mismo conjunto de datos, utilizando la técnica de descomposición del conjunto de datos. Sin embargo, el resultado de MMLU se mantuvo sin cambios.
“Nuestros resultados resaltan la importancia del diseño de conjuntos de datos para entrenar modelos de lenguaje y ofrecen un punto de partida para futuras investigaciones sobre la curación de datos”, señalaron los investigadores en un artículo que detalla el trabajo en DataComp-LM.
Modelo más pequeño y potente
Al igual que el DCLM-7B, la versión 1.4B más pequeña del modelo, entrenada conjuntamente con Toyota Research Insitute con 2,6 billones de tokens, también ofrece un rendimiento impresionante en las pruebas MMLU, Core y Extended.
En la prueba MMLU de 5 disparos, obtuvo una puntuación del 41,9 %, que es considerablemente más alta que otros modelos de la categoría, incluido el SmolLM lanzado recientemente por Hugging Face. Según los puntos de referencia, la versión 1.7B de SmolLM tiene una puntuación MMLU del 39,97 %. Mientras tanto, Qwen-1.5B y Phi-1.5B también le siguen con puntuaciones del 37,87 % y el 35,90 %, respectivamente.
Actualmente, el modelo más grande está disponible bajo la licencia de código de muestra de Apple, mientras que el más pequeño se ha publicado bajo Apache 2.0, lo que permite su uso comercial, distribución y modificación. Cabe destacar que también hay una versión optimizada para instrucciones del modelo de parámetros 7B en la biblioteca HF.
También es importante señalar que se trata de una investigación preliminar que pone de relieve la eficacia de la curación de datos. Los modelos no son para dispositivos Apple y pueden presentar ciertos sesgos a partir de los datos de entrenamiento de prueba o producir respuestas perjudiciales.