Por primera vez desde que invirtió más de U$S 10.000 millones de dólares en OpenAl a cambio de los derechos para reutilizar los modelos de IA de la startup. El nuevo modelo, denominado MAI-1, está siendo supervisado por Mustafa Suleyman , el exlíder de IA de Google.
La batalla por la IA toma forma, el medio especializado The Information difundió ayer que Microsoft está entrenando un nuevo modelo de IA interno lo suficientemente grande como para competir con los modelos de última generación de Google, Anthropic y el propio OpenAl.
El nuevo modelo, denominado internamente MAI-1 , está siendo supervisado por Mustafa Suleyman , el exlíder de IA de Google que recientemente se desempeñó como CEO de la startup de IA Inflection antes de que Microsoft contratara a la mayoría del personal de la startup y pagara 650 millones de dólares por los derechos de su propiedad intelectual en marzo.
Pero este es un modelo de Microsoft, no uno heredado de Infiection, aunque puede basarse en datos de entrenamiento y otras tecnologías de la startup. Está separado de los modelos que Infiection lanzó anteriormente, según dos empleados de Microsoft con conocimiento del esfuerzo.
Microsoft Corp. está desarrollando un gran modelo de lenguaje con alrededor de 500 mil millones de parámetros, informó hoy The Information. Se espera que el LLM, que se conoce internamente como MAI-1, haga su debut a principios de este mes.
Cuando OpenAI presentó GPT-3 a mediados de 2020, detalló que la versión inicial del modelo tenía 175 mil millones de parámetros. La compañía reveló que GPT-4 es más grande pero aún no ha compartido números específicos. Algunos informes sugieren que el LLM insignia de OpenAI incluye 1,76 billones de parámetros, mientras que Gemini Ultra de Google LLC, que tiene un rendimiento comparable al GPT-4, supuestamente presenta 1,6 billones.
El hecho de que, según se informa, el MAI-1 de Microsoft comprenda 500 mil millones de parámetros sugiere que podría posicionarse como una especie de opción de rango medio entre GPT-3 y ChatGPT-4. Tal configuración permitiría que el modelo proporcione una alta precisión de respuesta, pero usando significativamente menos energía que el LLM insignia de OpenAI. Eso se traduciría en menores costos de inferencia para Microsoft.
Según The Information, el desarrollo de MAI-1 está siendo supervisado por Mustafa Suleyman, fundador del desarrollador de LLM Inflection AI Inc. Suleyman se unió a Microsoft en marzo junto con la mayoría de los empleados de la startup a través de un acuerdo por valor de 625 millones de dólares. Anteriormente, el ejecutivo cofundó el grupo de investigación DeepMind AI de Google LLC.
Según se informa, Microsoft puede utilizar datos de entrenamiento y otros activos de Inflection AI para impulsar MAI-1. Se dice que el conjunto de datos de entrenamiento del modelo también incluye tipos de información, incluido texto generado por GPT-4 y contenido web. Según se informa, Microsoft está llevando a cabo el proceso de desarrollo utilizando un «gran grupo de servidores» equipados con tarjetas gráficas de Nvidia Corp.
Fuentes de The Information indicaron que la empresa aún no ha determinado cómo utilizará MAI-1. Si el modelo realmente presenta 500 mil millones de parámetros, es demasiado complejo para ejecutarlo en dispositivos de consumo. Eso significa que lo más probable es que Microsoft implemente MAI-1 en sus centros de datos, donde el LLM podría integrarse en servicios como Bing y Azure.
Se cree que la compañía podría presentar el MAI-1 durante su conferencia de desarrolladores Build, que comenzará el 16 de mayo, si el modelo muestra suficiente promesa para entonces. Esto sugiere que la compañía espera tener un prototipo funcional del modelo dentro de unas pocas semanas, si es que aún no lo tiene.
La noticia de que Microsoft está desarrollando MAI-1 llega menos de dos semanas después de que abrió un modelo de lenguaje denominado Pi-3 Mini. Según la empresa, este último modelo presenta 3.800 millones de parámetros y puede superar a los LLM más de 10 veces su tamaño. Pi-3 es parte de una serie de IA que también incluye otras dos redes neuronales más grandes con un rendimiento ligeramente mejor.
Fuente: The Information, Reuters,