Inicio » Negocios » Mistral AI anunció su modelo Mistral Large 2, superior a Gemini Pro y Claude 2

Mistral AI anunció su modelo Mistral Large 2, superior a Gemini Pro y Claude 2

La nueva generación de nuestro modelo estrella. En comparación con su predecesor, Mistral Large 2 es significativamente más capaz en generación de código, matemáticas y razonamiento. También ofrece un soporte multilingüe mucho más sólido y capacidades avanzadas de llamadas a funciones.

Esta última generación continúa ampliando los límites de la rentabilidad, la velocidad y el rendimiento. Mistral Large 2 se exhibe en la Plataforma y se enriquece con nuevas funciones para facilitar la creación de aplicaciones de IA innovadoras.

Mistral Large 2

Mistral Large 2 tiene una ventana de contexto de 128k y admite docenas de idiomas, incluidos francés, alemán, español, italiano, portugués, árabe, hindi, ruso, chino, japonés y coreano, junto con más de 80 lenguajes de codificación, incluidos Python, Java, C, C++, JavaScript y Bash.

Mistral Large 2 está diseñado para la inferencia de un solo nodo teniendo en cuenta aplicaciones de contexto extenso: su tamaño de 123 mil millones de parámetros le permite ejecutarse a gran escala en un solo nodo. Estamos lanzando Mistral Large 2 bajo la Licencia de Investigación de Mistral , que permite el uso y la modificación para fines de investigación y usos no comerciales. Para el uso comercial de Mistral Large 2 que requiera implementación propia, se debe adquirir una Licencia Comercial de Mistral comunicándose con nosotros .

Rendimiento general

Mistral Large 2 establece una nueva frontera en términos de rendimiento/costo de servicio en métricas de evaluación. En particular, en MMLU, la versión preentrenada logra una precisión del 84,0% y establece un nuevo punto en el frente de Pareto de rendimiento/costo de los modelos abiertos.

Código y razonamiento

Tras nuestra experiencia con Codestral 22B y Codestral Mamba , entrenamos Mistral Large 2 en una gran proporción de código. Mistral Large 2 supera ampliamente al Mistral Large anterior y funciona a la par de los modelos líderes como GPT-4o, Claude 3 Opus y Llama 3 405B.

Puntos de referencia detallados

También se dedicó un esfuerzo importante a mejorar las capacidades de razonamiento del modelo. Una de las áreas clave en las que se centró el entrenamiento fue minimizar la tendencia del modelo a “alucinar” o generar información que parece plausible pero que es incorrecta o irrelevante. Esto se logró afinando el modelo para que fuera más cauteloso y perspicaz en sus respuestas, asegurándose de que proporcionara resultados fiables y precisos.

Además, el nuevo Mistral Large 2 está entrenado para reconocer cuándo no puede encontrar soluciones o no tiene suficiente información para proporcionar una respuesta segura. Este compromiso con la precisión se refleja en el rendimiento mejorado del modelo en los puntos de referencia matemáticos más populares, lo que demuestra sus habilidades mejoradas de razonamiento y resolución de problemas:

Puntos de referencia detallados

Precisión del rendimiento en los puntos de referencia de generación de código (todos los modelos se evaluaron a través del mismo proceso de evaluación)

Puntos de referencia detallados

Precisión del rendimiento en MultiPL-E (todos los modelos se evaluaron a través del mismo proceso de evaluación, excepto la fila «en papel»)

Puntos de referencia detallados

Precisión de rendimiento en los puntos de referencia de generación GSM8K (8 disparos) y MATH (0 disparos, sin CoT) (todos los modelos se evaluaron a través del mismo proceso de evaluación)

Seguimiento de instrucciones y alineación

Hemos mejorado drásticamente las capacidades de seguimiento de instrucciones y conversación de Mistral Large 2. El nuevo Mistral Large 2 es particularmente mejor a la hora de seguir instrucciones precisas y gestionar conversaciones largas de varios turnos. A continuación, informamos sobre el rendimiento en los benchmarks MT-Bench, Wild Bench y Arena Hard:

Puntos de referencia detallados

Rendimiento en los parámetros de referencia de alineación general (todos los modelos se evaluaron a través del mismo proceso de evaluación)

En algunos puntos de referencia, generar respuestas extensas tiende a mejorar las puntuaciones. Sin embargo, en muchas aplicaciones empresariales, la concisión es primordial: las generaciones de modelos breves facilitan interacciones más rápidas y son más rentables para la inferencia. Por eso, dedicamos mucho esfuerzo a garantizar que las generaciones sean concisas y concisas siempre que sea posible. El gráfico siguiente muestra la duración media de las generaciones de diferentes modelos en las preguntas del punto de referencia MT Bench:

Puntos de referencia de MT Bench
Diversidad lingüística

En la actualidad, una gran parte de los casos de uso empresarial implican trabajar con documentos multilingües. Si bien la mayoría de los modelos se centran en el inglés, el nuevo Mistral Large 2 se entrenó con una gran proporción de datos multilingües. En particular, se destaca en inglés, francés, alemán, español, italiano, portugués, holandés, ruso, chino, japonés, coreano, árabe e hindi. A continuación, se muestran los resultados de rendimiento de Mistral Large 2 en el punto de referencia multilingüe MMLU, en comparación con los modelos anteriores Mistral Large, Llama 3.1 y Command R+ de Cohere.

Puntos de referencia detallados

Puntos de referencia detallados

Rendimiento en MMLU multilingüe (medido en el modelo base preentrenado)

Uso de herramientas y llamadas a funciones

Mistral Large 2 está equipado con capacidades mejoradas de recuperación y llamada de funciones y ha recibido capacitación para ejecutar de manera competente llamadas de funciones paralelas y secuenciales, lo que le permite servir como motor de potencia de aplicaciones comerciales complejas.

Puntos de referencia detallados
Prueba Mistral Large 2 en la Plateforme

Puede utilizar Mistral Large 2 hoy mismo a través de la Plataforma con el nombre mistral-large-2407y probarlo en el Chat. Está disponible con la versión 24.07 (un sistema de versiones AA.MM que estamos aplicando a todos nuestros modelos) y el nombre de API mistral-large-2407. Los pesos para el modelo instructivo están disponibles y también están alojados en HuggingFace .

Estamos consolidando la oferta en la Plataforma en torno a dos modelos de uso general, Mistral Nemo y Mistral Large, y dos modelos especializados, Codestral y Embed. A medida que descontinuamos progresivamente los modelos más antiguos en la Plataforma, todos los modelos Apache (Mistral 7B, Mixtral 8x7B y 8x22B, Codestral Mamba, Mathstral) siguen estando disponibles para su implementación y ajuste mediante nuestro SDK mistral-inference y mistral-finetune.

A partir de hoy, ampliamos las capacidades de ajuste de la Plataforma: ahora están disponibles para Mistral Large, Mistral Nemo y Codestral.

Acceda a los modelos de Mistral a través de proveedores de servicios en la nube

Estamos orgullosos de asociarnos con los principales proveedores de servicios en la nube para llevar el nuevo Mistral Large 2 a una audiencia global. En particular, hoy estamos ampliando nuestra asociación con Google Cloud Platform para llevar los modelos de Mistral AI a Vertex AI a través de una API administrada. Los mejores modelos de Mistral AI ahora están disponibles en Vertex AI, además de Azure AI Studio, Amazon Bedrock e IBM watsonx.ai.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com