Este nuevo modelo de la china ByteDance muestra avances significativos en rendimiento, eficiencia y capacidades multimodales, posicionándose como un competidor formidable en el altamente competitivo campo de los modelos de lenguaje grandes.
Mientras la compañía china ByteDance intenta superar la controversia de TikTok en los Estados Unidos, la empresa anunció el lanzamiento de Doubao-1.5pro, un avance significativo en la búsqueda del equilibrio óptimo entre rendimiento del modelo y costo de inferencia.
Con un rendimiento excepcional, eficiencia inigualable y capacidades multimodales integrales, el modelo empuja los límites de lo que es posible en el mundo de los modelos grandes de lenguaje.
El compromiso inquebrantable de Doubao con la curación rigurosa de datos y la innovación algorítmica ha resultado en un sistema AI verdaderamente avanzado que está preparado para redefinir los estándares en la industria.
Aspectos Clave
- Rendimiento Excepcional: Doubao-1.5pro supera incluso a los modelos preentrenados densos más grandes como Llama3.1-405B, a pesar de utilizar parámetros de activación mucho más pequeños. Ha logrado resultados sobresalientes en diversos benchmarks de evaluación pública.
- Arquitectura del Modelo Optimizada: El modelo emplea una arquitectura Mixture-of-Experts (MoE) dispersa, lo que le permite alcanzar un rendimiento de clase mundial con una fracción de los parámetros requeridos por los modelos densos.
- Sistema de Inferencia de Última Generación: La estructura altamente dispersa MoE de Doubao-1.5pro exhibe características computacionales y de acceso a memoria distintas en diferentes etapas del proceso de inferencia. El equipo ha desarrollado una solución de hardware heterogénea y estrategias de optimización especializadas para maximizar el rendimiento manteniendo baja latencia.
- Capacidades Multimodales Integrales: El modelo integra y mejora sin problemas la comprensión visual y del habla, proporcionando una experiencia de usuario más natural y enriquecida.
- Curación Rigurosa de Datos: Doubao ha construido un sistema de producción de datos altamente autónomo que enfatiza la calidad, diversidad e independencia, asegurando la fiabilidad e integridad de los datos de entrenamiento.
Arquitectura del Modelo y Rendimiento
Encontrando el Equilibrio entre Rendimiento del Modelo y Rendimiento de Inferencia
Doubao-1.5pro ha sido diseñado con un enfoque en lograr el equilibrio óptimo entre rendimiento del modelo y costo de inferencia. El equipo ha empleado un enfoque de co-diseño entrenamiento-inferencia, asegurando que las capacidades del modelo se maximicen mientras se mantiene una inferencia eficiente.
Estructura del Modelo MoE de Alta Eficiencia
Aprovechando las ventajas de la arquitectura MoE dispersa, Doubao-1.5pro puede superar incluso a los modelos preentrenados densos más grandes como Llama3.1-405B, utilizando significativamente menos parámetros de activación. Esto se logra a través de la investigación del equipo sobre la ley de escalado de dispersidad y la ley de escalado MoE, que guiaron la determinación del ratio óptimo de dispersidad para el modelo.
Ventaja Inigualable en Rendimiento
En comparaciones directas, el modelo Doubao-MoE, con solo 1/7 del total de parámetros del modelo denso, superó el rendimiento del modelo denso por un factor de 7. Esta notable ventaja en rendimiento es un avance significativo más allá de las mejores prácticas anteriores en la industria.
Sistema de Inferencia de Alto Rendimiento
La estructura altamente dispersa MoE de Doubao-1.5pro exhibe características computacionales y de acceso a memoria distintas en diferentes etapas del proceso de inferencia. El equipo ha desarrollado una solución de hardware heterogénea y estrategias de optimización especializadas para maximizar el rendimiento manteniendo baja latencia.Las innovaciones clave incluyen:
- Backend RPC personalizados para un transporte eficiente de tensores en un sistema de servicio separado por PD.
- Escalado flexible y dinámico de clústeres Prefill y Decode para coincidir con los patrones reales de tráfico.
- Computación asíncrona en GPU y pre/post-procesamiento en CPU para mantener la GPU totalmente utilizada.
- Soluciones personalizadas para clústeres servidores con chips económicos y protocolos de red optimizados.
Curación Rigurosa de Datos
Doubao ha construido un sistema altamente autónomo para la producción de datos que enfatiza calidad, diversidad e independencia. Este sistema integra equipos eficientes para anotaciones y técnicas de auto-mejora del modelo para optimizar continuamente la calidad de los datos, adhiriéndose estrictamente a estándares internos y evitando atajos o el uso de datos provenientes de otros modelos.
Capacidades Multimodales
Doubao-1.5pro integra sin problemas y mejora las capacidades visuales y auditivas dentro de un solo modelo, brindando a los usuarios una experiencia interactiva más natural y enriquecida.
Multimodalidad Visual
El modelo ha mejorado aún más su razonamiento visual, comprensión documental, extracción fina de información y habilidades para seguir instrucciones mediante avances en síntesis multimodal, soporte dinámico para resoluciones, alineación multimodal y entrenamiento mixto.
Multimodalidad Auditiva
Doubao-1.5pro introduce un nuevo marco Speech2Speech end-to-end, que no solo fusiona profundamente las modalidades auditiva y textual, sino que también logra una verdadera comprensión y generación del habla en escenarios conversacionales. El modelo exhibe alta comprensión (alta inteligencia) así como alta expresividad y control en el habla, junto con una fuerte coherencia emocional en sus respuestas.