El laboratorio de IA francés presentó Moshi -en código abierto-, un revolucionario modelo de base multimodal nativo en tiempo real. Este modelo innovador refleja y supera funcionalidades presentadas por ChatGPT-4o de OpenAI.
Kyutai , un laboratorio francés de investigación de inteligencia artificial sin fines de lucro, ha presentado Moshi , un modelo de inteligencia artificial multimodal nativo en tiempo real. Este proyecto de código abierto cuenta con un asistente de inteligencia artificial habilitado por voz que ofrece capacidades que rivalizan con GPT-4o de OpenAI y Google Astra.
Moshi, desarrollado por un equipo de sólo ocho investigadores en seis meses, puede comprender y expresar 70 emociones y estilos diferentes, hablar con distintos acentos y manejar dos flujos de audio simultáneamente, lo que le permite escuchar y hablar al mismo tiempo.
Basado en el modelo Helium 7B, Moshi integra entrenamiento de texto y audio, optimizado para backends CUDA, Metal y CPU con soporte para cuantificación de 4 y 8 bits.
Las características principales de Moshi incluyen:
- 1. Interacción en tiempo real con una latencia de extremo a extremo de 200 milisegundos
- 2. Capacidad de ejecutarse en hardware de consumo, incluidas las MacBooks
- 3. Soporte para múltiples backends (CUDA, Metal, CPU)
- 4. Marca de agua para detectar audio generado por IA (en proceso)
Durante la presentación, Patrick Pérez, CEO de Kyutai, dijo que Moshi tiene el potencial de revolucionar la comunicación entre humanos y máquinas: “Moshi piensa mientras habla”.
Explicó que fue desarrollado por un equipo de seis personas en tan solo seis meses. Lo que distingue a Moshi es su capacidad de hablar y escuchar en tiempo real. Kyutai afirma que Moshi tiene una latencia teórica de solo 160 milisegundos, mientras que en la práctica oscila entre 200 y 240 milisegundos.
La arquitectura de Moshi se basa en un nuevo enfoque que Kyutai llama «modelo de lenguaje de audio». En lugar de convertir el habla en texto como es habitual, el modelo comprime en gran medida los datos de audio y los trata como pseudopalabras. Esto le permite trabajar directamente con datos de audio y predecir el habla, lo que lo convierte en un modelo multimodal nativo, similar a GPT-4o.
Kyutai planea lanzar el modelo completo, incluida la base del código de inferencia, el modelo 7B, el códec de audio y la pila optimizada. Fundada en noviembre de 2023 con 300 millones de euros de respaldo de inversores, incluido el multimillonario francés Xavier Niel, la startup tiene como objetivo contribuir a la investigación abierta en IA y fomentar el desarrollo del ecosistema.
El enfoque del laboratorio desafía a las principales empresas de inteligencia artificial como OpenAI, que han enfrentado críticas por retrasar los lanzamientos debido a preocupaciones de seguridad.
Cabe destacar que OpenAI ha estado reteniendo el lanzamiento de su modelo de generación de video Sora, así como el motor de voz y las funciones de modo de voz de GPT-4o.
Moshi contribuye a la creciente influencia de Francia en el sector de la IA, junto con otros proyectos de origen francés como Hugging Face y Mistral.
De cara al futuro, Kyutai tiene planes ambiciosos para Moshi. El equipo pretende publicar un informe técnico y versiones abiertas del modelo, incluida la base de código de inferencia, el modelo 7B, el códec de audio y la pila optimizada completa.
Las iteraciones futuras, como Moshi 1.1, 1.2 y 2.0, perfeccionarán el modelo en función de los comentarios de los usuarios. El objetivo de la concesión de licencias de Moshi es ser lo más permisiva posible, fomentando la adopción generalizada y la innovación.
En conclusión, Moshi ejemplifica el potencial de los equipos pequeños y concentrados para lograr avances extraordinarios en la tecnología de IA.
Este modelo abre nuevas vías para la asistencia en la investigación, el intercambio de ideas, el aprendizaje de idiomas y más, y demuestra el poder transformador de la IA cuando se implementa en el dispositivo con una flexibilidad incomparable.
Como modelo de código abierto, invita a la colaboración y la innovación, lo que garantiza que los beneficios de esta tecnología revolucionaria sean accesibles para todos.