Un informe del index de IA de la Universidad de Stanford proporciona información sobre las tendencias y el estado actual de la IA. Superan rutinariamente el desempeño humano y, por lo tanto, requieren nuevos puntos de referencia.
La Universidad de Stanford publicó su Informe del índice de IA 2024, en el que se señalaba que el rápido avance de la IA hace que las comparaciones con los humanos sean cada vez menos relevantes.
El informe anual proporciona una visión completa de las tendencias y el estado de los desarrollos de la IA. El informe dice que los modelos de IA están mejorando tan rápidamente ahora que los puntos de referencia que utilizamos para medirlos se están volviendo cada vez más irrelevantes.
Muchos puntos de referencia de la industria comparan los modelos de IA con la calidad de los humanos al realizar tareas. El punto de referencia Massive Multitask Language Understanding (MMLU) es un buen ejemplo.
Utiliza preguntas de opción múltiple para evaluar los LLM en 57 materias, incluidas matemáticas, historia, derecho y ética. La MMLU ha sido el punto de referencia de IA desde 2019.
La puntuación de referencia humana en la MMLU es del 89,8 %, y en 2019, el modelo de IA promedio obtuvo una puntuación de poco más del 30 %. Sólo 5 años después, Gemini Ultra se convirtió en el primer modelo en superar la línea base humana con una puntuación del 90,04%.
El informe señala que los actuales “sistemas de inteligencia artificial superan rutinariamente el desempeño humano en los puntos de referencia estándar”. Las tendencias en el gráfico a continuación parecen indicar que es necesario reemplazar la MMLU y otros puntos de referencia.
Los modelos de IA han alcanzado la saturación de rendimiento en puntos de referencia establecidos como ImageNet, SQuAD y SuperGLUE, por lo que los investigadores están desarrollando pruebas más desafiantes.
Un ejemplo es el Graduate-Level Google-Proof Q&A Benchmark (GPQA), que permite comparar los modelos de IA con personas realmente inteligentes, en lugar de con la inteligencia humana promedio.
La prueba GPQA consta de 400 difíciles preguntas de opción múltiple a nivel de posgrado. Los expertos que tienen o están realizando su doctorado responden correctamente a las preguntas el 65% de las veces.
El documento de GPQA dice que cuando se les hacen preguntas fuera de su campo, «los validadores no expertos altamente capacitados solo alcanzan un 34% de precisión, a pesar de pasar un promedio de más de 30 minutos con acceso ilimitado a la web».
El mes pasado, Anthropic anunció que Claude 3 obtuvo una puntuación de poco menos del 60 % con indicaciones de CoT de 5 disparos. Necesitaremos un punto de referencia más grande.
Evaluaciones humanas y seguridad.
El informe señala que la IA todavía enfrenta problemas importantes: «No puede abordar de manera confiable los hechos, realizar razonamientos complejos o explicar sus conclusiones».
Esas limitaciones contribuyen a otra característica del sistema de IA que, según el informe, está mal medida; Seguridad de la IA . No tenemos puntos de referencia efectivos que nos permitan decir: «Este modelo es más seguro que aquel».
Esto se debe en parte a que es difícil de medir y en parte a que «los desarrolladores de IA carecen de transparencia, especialmente en lo que respecta a la divulgación de datos y metodologías de entrenamiento».
El informe señaló que una tendencia interesante en la industria es realizar evaluaciones humanas del desempeño de la IA, en lugar de pruebas comparativas.
Es difícil clasificar la estética o la prosa de la imagen de un modelo con una prueba. Como resultado, el informe dice que «la evaluación comparativa ha comenzado lentamente a incorporar evaluaciones humanas como Chatbot Arena Leaderboard en lugar de clasificaciones computarizadas como ImageNet o SQuAD».
A medida que los modelos de IA ven desaparecer la línea de base humana en el espejo retrovisor, el sentimiento puede eventualmente determinar qué modelo elegimos usar.
Las tendencias indican que los modelos de IA acabarán siendo más inteligentes que nosotros y más difíciles de medir. Es posible que pronto nos encontremos diciendo: «No sé por qué, pero este me gusta más».