Inicio » Ciencias » La IA se mete en las Olimpiada Internacional de Matemáticas a resolver problemas

La IA se mete en las Olimpiada Internacional de Matemáticas a resolver problemas

Los modelos innovadores AlphaProof y AlphaGeometry 2 resuelven problemas de razonamiento avanzado en matemáticas

La inteligencia general artificial (AGI) con razonamiento matemático avanzado tiene el potencial de abrir nuevas fronteras en ciencia y tecnología.

Hemos logrado grandes avances en la creación de sistemas de IA que ayudan a los matemáticos a descubrir nuevos conocimientos , algoritmos novedosos y respuestas a problemas pendientes . Sin embargo, los sistemas de IA actuales aún tienen dificultades para resolver problemas matemáticos generales debido a limitaciones en las habilidades de razonamiento y los datos de entrenamiento.

Hoy presentamos AlphaProof, un nuevo sistema basado en aprendizaje por refuerzo para el razonamiento matemático formal, y AlphaGeometry 2, una versión mejorada de nuestro sistema de resolución de geometría . Juntos, estos sistemas resolvieron cuatro de los seis problemas de la Olimpiada Internacional de Matemáticas (OIM) de este año , logrando por primera vez el mismo nivel que un medallista de plata en la competencia.

Rendimiento revolucionario de la IA para resolver problemas matemáticos complejos

La IMO es la competición más antigua, grande y prestigiosa para jóvenes matemáticos, que se celebra anualmente desde 1959.

Cada año, matemáticos de élite de nivel preuniversitario se entrenan, a veces durante miles de horas, para resolver seis problemas excepcionalmente difíciles de álgebra, combinatoria, geometría y teoría de números.

Muchos de los ganadores de la Medalla Fields , uno de los máximos honores para los matemáticos, han representado a su país en la OMI.

Más recientemente, la competencia anual de la OMI también ha sido ampliamente reconocida como un gran desafío en el aprendizaje automático y un punto de referencia aspiracional para medir las capacidades avanzadas de razonamiento matemático de un sistema de IA.

Este año, aplicamos nuestro sistema de IA combinado a los problemas de la competencia, proporcionados por los organizadores de la OMI.

Nuestras soluciones fueron calificadas de acuerdo con las reglas de concesión de puntos de la OMI por los destacados matemáticos Prof. Sir Timothy Gowers , medallista de oro de la OMI y ganador de la medalla Fields, y Dr. Joseph Myers , dos veces medallista de oro de la OMI y presidente del Comité de selección de problemas de la OMI 2024.

En primer lugar, los problemas se tradujeron manualmente a un lenguaje matemático formal para que nuestros sistemas los comprendieran.

En la competencia oficial, los estudiantes presentaron las respuestas en dos sesiones de 4,5 horas cada una. Nuestros sistemas resolvieron un problema en cuestión de minutos y tardaron hasta tres días en resolver los demás.

AlphaProof resolvió dos problemas de álgebra y un problema de teoría de números determinando la respuesta y demostrando que era correcta.

Esto incluyó el problema más difícil de la competencia, resuelto por solo cinco concursantes en la IMO de este año. AlphaGeometry 2 demostró el problema de geometría, mientras que los dos problemas de combinatoria quedaron sin resolver.

Cada uno de los seis problemas puede sumar siete puntos, con un máximo total de 42. Nuestro sistema logró una puntuación final de 28 puntos, lo que le permitió obtener una puntuación perfecta en cada problema resuelto, lo que equivale al punto más alto de la categoría de medalla de plata.

Este año, el umbral de la medalla de oro comienza en 29 puntos, y lo lograron 58 de los 609 concursantes en la competencia oficial.

Gráfico en color que muestra el rendimiento de nuestro sistema de IA en relación con los competidores humanos que obtuvieron bronce, plata y oro en IMO 2024. Nuestro sistema obtuvo 28 de un total de 42 puntos, logrando el mismo nivel que un medallista de plata en la competencia y casi alcanzando el umbral de la medalla de oro a partir de 29 puntos.
Gráfico que muestra el rendimiento de nuestro sistema de IA en relación con los competidores humanos en IMO 2024. Obtuvimos 28 de un total de 42 puntos, lo que nos permitió alcanzar el mismo nivel que un medallista de plata en la competencia.

AlphaProof: un enfoque formal del razonamiento

AlphaProof es un sistema que se entrena a sí mismo para demostrar enunciados matemáticos en el lenguaje formal Lean .

Combina un modelo de lenguaje previamente entrenado con el algoritmo de aprendizaje por refuerzo AlphaZero , que previamente se enseñó a sí mismo a dominar los juegos de ajedrez, shogi y Go.

Los lenguajes formales ofrecen la ventaja fundamental de que las pruebas que implican razonamiento matemático pueden verificarse formalmente para comprobar su exactitud.

Sin embargo, su uso en el aprendizaje automático se ha visto limitado hasta ahora por la cantidad muy limitada de datos escritos por humanos disponibles.

Por el contrario, los enfoques basados ​​en el lenguaje natural pueden alucinar pasos y soluciones intermedias de razonamiento plausibles pero incorrectos, a pesar de tener acceso a órdenes de magnitud mayores de datos.

Establecimos un puente entre estas dos esferas complementarias mediante el ajuste fino de un modelo Gemini para traducir automáticamente enunciados de problemas en lenguaje natural en enunciados formales, creando una gran biblioteca de problemas formales de diversa dificultad.

Cuando se presenta un problema, AlphaProof genera soluciones candidatas y luego las prueba o refuta buscando posibles pasos de prueba en Lean.

Cada prueba que se encuentra y verifica se utiliza para reforzar el modelo de lenguaje de AlphaProof, mejorando su capacidad para resolver problemas posteriores más desafiantes.

Entrenamos a AlphaProof para la OMI demostrando o refutando millones de problemas, cubriendo una amplia gama de dificultades y áreas temáticas matemáticas durante un período de semanas previo a la competencia.

El ciclo de entrenamiento también se aplicó durante el concurso, reforzando las demostraciones de variaciones autogeneradas de los problemas del concurso hasta que se pudo encontrar una solución completa.

Infografía del proceso del ciclo de entrenamiento de aprendizaje por refuerzo de AlphaProof: una red de formalizadores traduce alrededor de un millón de problemas matemáticos informales a un lenguaje matemático formal. Luego, una red de solucionadores busca pruebas o refutaciones de los problemas y se entrena progresivamente a través del algoritmo AlphaZero para resolver problemas más desafiantes.
Infografía del proceso del ciclo de entrenamiento de aprendizaje por refuerzo de AlphaProof: una red de formalizadores traduce alrededor de un millón de problemas matemáticos informales a un lenguaje matemático formal.

Luego, una red de solucionadores busca pruebas o refutaciones de los problemas y se entrena progresivamente a través del algoritmo AlphaZero para resolver problemas más desafiantes.

Una AlphaGeometry 2 más competitiva

AlphaGeometry 2 es una versión significativamente mejorada de AlphaGeometry . Es un sistema híbrido neurosimbólico en el que el modelo de lenguaje se basó en Gemini y se entrenó desde cero con un orden de magnitud de datos más sintéticos que su predecesor.

Esto ayudó al modelo a abordar problemas de geometría mucho más desafiantes, incluidos problemas sobre movimientos de objetos y ecuaciones de ángulos, proporciones o distancias.

AlphaGeometry 2 utiliza un motor simbólico que es dos órdenes de magnitud más rápido que su predecesor.

Cuando se presenta un nuevo problema, se utiliza un novedoso mecanismo de intercambio de conocimientos para permitir combinaciones avanzadas de diferentes árboles de búsqueda para abordar problemas más complejos.

Antes de la competición de este año, AlphaGeometry 2 podía resolver el 83% de todos los problemas de geometría históricos de la OMI de los últimos 25 años, en comparación con el 53% logrado por su predecesor. Para la OMI 2024, AlphaGeometry 2 resolvió el problema 4 en 19 segundos después de recibir su formalización.

Diagrama geométrico que muestra un triángulo ABC inscrito en un círculo más grande, con varios puntos, líneas y otro círculo más pequeño que interseca el triángulo. El punto A es el vértice, con líneas que lo conectan con los puntos L y K en el círculo más grande, y el punto E dentro del triángulo. Los puntos T1 y T2 se encuentran en las líneas AB y AC respectivamente. El círculo más pequeño está centrado en el punto I, el incentro del triángulo ABC, e interseca el círculo más grande en los puntos L y K. Los puntos X, D e Y se encuentran en las líneas AB, BC y AC, respectivamente, y se forma un ángulo azul en el punto P, debajo del triángulo. El diagrama está etiquetado con las letras A, B, C, D, E, I, K, L, O, P, T1, T2, X e Y.
Ilustración del problema 4, que pide demostrar que la suma de ∠KIL y ∠XPY es igual a 180°. AlphaGeometry 2 propuso construir E, un punto en la línea BI de modo que ∠AEB = 90°. El punto E ayuda a dar un propósito al punto medio L de AB, creando muchos pares de triángulos similares como ABE ~ YBI y ALE ~ IPC necesarios para demostrar la conclusión.

Nuevas fronteras en el razonamiento matemático

Como parte de nuestro trabajo en la OMI, también experimentamos con un sistema de razonamiento en lenguaje natural, basado en Gemini y en nuestras últimas investigaciones, para permitir habilidades avanzadas de resolución de problemas.

Este sistema no requiere que los problemas se traduzcan a un lenguaje formal y se puede combinar con otros sistemas de IA. También probamos este enfoque en los problemas de la OMI de este año y los resultados fueron muy prometedores.

Nuestros equipos continúan explorando múltiples enfoques de IA para avanzar en el razonamiento matemático y planean publicar más detalles técnicos sobre AlphaProof pronto.

Estamos entusiasmados por un futuro en el que los matemáticos trabajen con herramientas de IA para explorar hipótesis, probar nuevos enfoques audaces para resolver problemas de larga data y completar rápidamente elementos de pruebas que consumen mucho tiempo, y donde los sistemas de IA como Gemini se vuelvan más capaces en matemáticas y razonamiento más amplio.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com