La compañía lanza versiones cuantizadas de Llama que reducen hasta un 56% el tamaño del modelo y mejoran la velocidad hasta 4 veces, permitiendo su uso en dispositivos móviles convencionales.
Meta ha dado un paso decisivo en la democratización de la inteligencia artificial al anunciar el lanzamiento de las primeras versiones cuantizadas de sus modelos Llama 3.2 1B y 3B, diseñadas específicamente para funcionar en dispositivos móviles populares con recursos limitados.
MEJORAS SIGNIFICATIVAS
Los nuevos modelos logran resultados impresionantes:
- Reducción del 56% en el tamaño del modelo
- Disminución del 41% en el uso de memoria
- Aceleración de 2 a 4 veces en el rendimiento
- Optimización para contextos cortos de hasta 8K tokens
TECNOLOGÍA DE VANGUARDIA
Para lograr estas mejoras, Meta implementó dos técnicas de cuantización:
- Quantization-Aware Training con adaptadores LoRA (QLoRA), que prioriza la precisión
- SpinQuant, un método de cuantización post-entrenamiento que privilegia la portabilidad
ALIANZAS ESTRATÉGICAS
«Hemos desarrollado estos modelos en estrecha colaboración con socios líderes de la industria», destaca Meta. Los nuevos Llama cuantizados están disponibles en procesadores Qualcomm y MediaTek con CPUs Arm, optimizados mediante kernels Kleidi AI.
DISPONIBILIDAD Y COMPATIBILIDAD
Los modelos han sido verificados en diversos dispositivos:
- OnePlus 12 (pruebas principales)
- Samsung S24+ (modelos 1B y 3B)
- Samsung S22 (modelo 1B)
- Dispositivos iOS (precisión comparable, rendimiento en evaluación)
PRÓXIMOS DESARROLLOS
Meta está trabajando con sus socios para utilizar NPUs (Unidades de Procesamiento Neural) en estos modelos cuantizados, lo que promete un rendimiento aún mayor. Ya se han integrado componentes fundamentales en el ecosistema ExecuTorch de código abierto.
IMPACTO EN EL MERCADO
«Llama ha logrado un crecimiento de 10 veces este año y se ha convertido en el estándar para la innovación responsable», señala Meta. La compañía destaca que sus modelos continúan liderando en apertura, modificabilidad y eficiencia de costos, compitiendo e incluso superando en algunas áreas a los modelos cerrados.
ACCESO Y RECURSOS
Los nuevos modelos Llama 3.2 cuantizados están disponibles para su descarga en:
- llama.com
- Hugging Face
- Frameworks compatibles con PyTorch ExecuTorch
«No podemos esperar para ver qué construye la comunidad usando Llama y las poderosas experiencias que habilitarán en dispositivos móviles», concluye Meta, reafirmando su compromiso con la democratización de la IA.