AMD lanza OLMo, una serie de modelos de lenguaje diseñados para mejorar el procesamiento y comprensión de texto en IA. Estos modelos son totalmente de código abierto y están diseñados para ser adaptados a necesidades específicas.
AMD da un paso importante en el desarrollo de modelos de lenguaje, anunciando OLMo, su primer modelo de IA abierto con 1.000 millones de parámetros.
Entrenado en el sistema AMD Instinct™ MI250, el modelo fue desarrollado con un enfoque en adaptabilidad y escalabilidad para la IA en la industria.
Gracias al método de aprendizaje por imitación y la arquitectura de modelo abierta, los usuarios pueden personalizar OLMo para aplicaciones únicas, optimizando recursos en pre-entrenamiento y afinación.
AMD OLMo sigue un entrenamiento en tres fases: pre-entrenamiento, ajuste supervisado (SFT) y alineación de preferencias mediante Direct Preference Optimization (DPO).
Con esta técnica, OLMo ha alcanzado precisión en múltiples tareas, incluyendo benchmarks de comprensión y razonamiento general, superando otros modelos similares.
Además, su capacidad de ejecución en equipos AMD Ryzen™ AI habilita aplicaciones en IA de bajo consumo energético y respeto a la privacidad, al operar sin necesidad de red. AMD ha abierto sus datos, pesos de modelo y código para fomentar la innovación colaborativa en IA.
Al utilizar un flujo de trabajo de entrenamiento de extremo a extremo que se ejecuta en
GPU AMD Instinct™ y que consta de una etapa de preentrenamiento con 1,3 billones de tokens (que es la mitad del presupuesto de cómputo de preentrenamiento en comparación con OLMo-1B), una etapa de ajuste fino supervisado de dos fases y una etapa de alineación de preferencias humanas basada en DPO, los modelos AMD OLMo son comparables o superan a otros modelos completamente abiertos de tamaño similar en cuanto a razonamiento general y capacidades de chat, al mismo tiempo que funcionan a la par en los puntos de referencia de IA responsables.
Además, el modelo de lenguaje se implementó en PC con IA AMD Ryzen™ con NPU que potencialmente pueden ayudar a habilitar un conjunto diverso de casos de uso de borde.
La apertura de los datos, pesos, recetas de entrenamiento y código tiene como objetivo principal ayudar a los desarrolladores a reproducir e innovar aún más.
AMD mantiene su compromiso de proporcionar a la comunidad de código abierto un flujo constante de nuevos modelos de IA y anticipa con entusiasmo las innovaciones que surgirán de sus esfuerzos de colaboración.