Inicio » Destacadas » Sobre DeepSeek y los Controles de Exportación

Sobre DeepSeek y los Controles de Exportación

El avance de DeepSeek en inteligencia artificial plantea interrogantes sobre los controles de exportación de chips a China, un tema que requiere análisis profundo y que podría definir el futuro del liderazgo tecnológico mundial. Por Dario Amodei.

Hace unas semanas argumenté a favor de controles de exportación más estrictos de chips a China por parte de Estados Unidos. Desde entonces, DeepSeek, una empresa china de IA, ha logrado, al menos en algunos aspectos, acercarse al rendimiento de los modelos de IA de frontera estadounidenses a un coste menor.

Aquí, no me centraré en si DeepSeek es o no una amenaza para las empresas de IA estadounidenses como Anthropic (aunque creo que muchas de las afirmaciones sobre su amenaza al liderazgo de la IA estadounidense son muy exageradas). En cambio, me centraré en si los lanzamientos de DeepSeek socavan el argumento a favor de esas políticas de control de exportación de chips. No creo que lo hagan. De hecho, creo que hacen que las políticas de control de exportación sean aún más importantes de lo que eran hace una semana.

Los controles de exportación tienen un propósito vital: mantener a las naciones democráticas a la vanguardia del desarrollo de la IA. Para que quede claro, no son una forma de eludir la competencia entre Estados Unidos y China. Al final, las empresas de IA en Estados Unidos y otras democracias deben tener mejores modelos que las de China si queremos prevalecer. Pero no deberíamos dar al Partido Comunista Chino ventajas tecnológicas cuando no tenemos que hacerlo.

Tres Dinámicas del Desarrollo de la IA

Antes de exponer mi argumento de política, voy a describir tres dinámicas básicas de los sistemas de IA que es fundamental comprender:

  1. Leyes de escalado. Una propiedad de la IA —que mis cofundadores y yo fuimos de los primeros en documentar cuando trabajábamos en OpenAI— es que, en igualdad de condiciones, el escalado del entrenamiento de los sistemas de IA conduce a mejores resultados de forma fluida en una serie de tareas cognitivas, en todos los ámbitos. Así, por ejemplo, un modelo de 1 millón de dólares podría resolver el 20% de las tareas de programación importantes, uno de 10 millones de dólares podría resolver el 40%, uno de 100 millones de dólares podría resolver el 60%, y así sucesivamente. Estas diferencias tienden a tener enormes implicaciones en la práctica —otro factor de 10 puede corresponder a la diferencia entre el nivel de habilidad de un estudiante de grado y el de un doctorado— y, por lo tanto, las empresas están invirtiendo fuertemente en el entrenamiento de estos modelos.
  2. Desplazamiento de la curva. El campo está constantemente proponiendo ideas, grandes y pequeñas, que hacen que las cosas sean más efectivas o eficientes: podría ser una mejora de la arquitectura del modelo (un ajuste a la arquitectura básica del Transformador que utilizan todos los modelos actuales) o simplemente una forma de ejecutar el modelo de forma más eficiente en el hardware subyacente. Las nuevas generaciones de hardware también tienen el mismo efecto. Lo que esto suele hacer es desplazar la curva: si la innovación es un «multiplicador de cómputo» (MC) de 2x, entonces permite obtener un 40% en una tarea de programación por 5 millones de dólares en lugar de 10 millones de dólares; o un 60% por 50 millones de dólares en lugar de 100 millones de dólares, etc. Todas las empresas de IA de frontera descubren regularmente muchos de estos MC: frecuentemente pequeños (~1,2x), a veces de tamaño medio (~2x), y de vez en cuando muy grandes (~10x). Debido a que el valor de tener un sistema más inteligente es tan alto, este desplazamiento de la curva suele hacer que las empresas gasten más, no menos, en el entrenamiento de los modelos: las ganancias en eficiencia de costos acaban dedicándose por completo al entrenamiento de modelos más inteligentes, limitadas únicamente por los recursos financieros de la empresa. La gente se siente naturalmente atraída por la idea de que «primero algo es caro, luego se abarata» —como si la IA fuera una sola cosa de calidad constante, y cuando se abarate, utilizaremos menos chips para entrenarla. Pero lo importante es la curva de escalado: cuando se desplaza, simplemente la atravesamos más rápido, porque el valor de lo que está al final de la curva es muy alto. En 2020, mi equipo publicó un artículo en el que sugería que el desplazamiento de la curva debido al progreso algorítmico es de ~1,68x/año. Probablemente se ha acelerado significativamente desde entonces; tampoco tiene en cuenta la eficiencia y el hardware. Yo diría que la cifra hoy es tal vez de ~4x/año. Otra estimación es aquí. Los desplazamientos de la curva de entrenamiento también desplazan la curva de inferencia, y como resultado se han producido grandes descensos de precios manteniendo constante la calidad del modelo durante años. Por ejemplo, Claude 3.5 Sonnet, que se lanzó 15 meses después del GPT-4 original, supera a GPT-4 en casi todos los puntos de referencia, con un precio de API ~10x inferior.
  3. Cambio de paradigma. De vez en cuando, la cosa subyacente que se está escalando cambia un poco, o se añade un nuevo tipo de escalado al proceso de entrenamiento. De 2020 a 2023, lo principal que se escalaba eran los modelos preentrenados: modelos entrenados en cantidades crecientes de texto de Internet con un pequeño entrenamiento adicional encima. En 2024, la idea de utilizar el aprendizaje por refuerzo (RL) para entrenar modelos para generar cadenas de pensamiento se ha convertido en un nuevo foco de escalado. Anthropic, DeepSeek y muchas otras empresas (quizás la más notable OpenAI, que lanzó su modelo o1-preview en septiembre) han descubierto que este entrenamiento aumenta enormemente el rendimiento en ciertas tareas selectas y objetivamente mensurables como las matemáticas, las competiciones de programación y el razonamiento que se asemeja a estas tareas. Este nuevo paradigma consiste en empezar con el tipo ordinario de modelos preentrenados, y luego, como segunda etapa, utilizar RL para añadir las habilidades de razonamiento. Es importante destacar que, debido a que este tipo de RL es nuevo, todavía estamos muy al principio de la curva de escalado: la cantidad que se está gastando en la segunda etapa de RL es pequeña para todos los actores. Gastar 1 millón de dólares en lugar de 0,1 millón de dólares es suficiente para obtener enormes ganancias. Las empresas están trabajando ahora muy rápidamente para escalar la segunda etapa a cientos de millones y miles de millones, pero es fundamental comprender que estamos en un «punto de cruce» único en el que hay un nuevo paradigma poderoso que está al principio de la curva de escalado y, por lo tanto, puede obtener grandes ganancias rápidamente.

Los Modelos de DeepSeek

Las tres dinámicas anteriores pueden ayudarnos a comprender los recientes lanzamientos de DeepSeek. Hace aproximadamente un mes, DeepSeek lanzó un modelo llamado «DeepSeek-V3» que era un modelo preentrenado puro —la primera etapa descrita en el punto 3 anterior—. La semana pasada, lanzaron «R1», que añadía una segunda etapa. No es posible determinar todo sobre estos modelos desde fuera, pero la siguiente es mi mejor comprensión de los dos lanzamientos.

DeepSeek-V3 fue en realidad la verdadera innovación y lo que debería haber hecho que la gente se fijara hace un mes (nosotros ciertamente lo hicimos). Como modelo preentrenado, parece acercarse al rendimiento de los modelos estadounidenses de última generación en algunas tareas importantes, con un coste de entrenamiento sustancialmente menor (aunque, encontramos que Claude 3.5 Sonnet en particular sigue siendo mucho mejor en otras tareas clave, como la codificación en el mundo real). El equipo de DeepSeek lo hizo mediante algunas innovaciones genuinas e impresionantes, centradas principalmente en la eficiencia de la ingeniería. Hubo mejoras particularmente innovadoras en la gestión de un aspecto llamado «caché clave-valor», y en la habilitación de un método llamado «mezcla de expertos» para ser impulsado más allá de lo que se había hecho antes.

Sin embargo, es importante mirar más de cerca:

  1. DeepSeek no «hace por 6 millones de dólares lo que costó miles de millones a las empresas de IA de Estados Unidos». Sólo puedo hablar por Anthropic, pero Claude 3.5 Sonnet es un modelo de tamaño medio que costó unos pocos 10 millones de dólares entrenar (no daré una cifra exacta). Además, 3.5 Sonnet no se entrenó de ninguna manera que involucrara un modelo más grande o más caro (al contrario de algunos rumores). El entrenamiento de Sonnet se llevó a cabo hace 9-12 meses, y el modelo de DeepSeek se entrenó en noviembre/diciembre, mientras que Sonnet sigue estando notablemente por delante en muchas evaluaciones internas y externas. Por lo tanto, creo que una afirmación justa es: «DeepSeek produjo un modelo cercano al rendimiento de los modelos estadounidenses de 7 a 10 meses más antiguos, por un coste mucho menor (pero no en las proporciones que la gente ha sugerido)».
  2. Si la tendencia histórica de la disminución de la curva de costos es de ~4x por año, eso significa que en el curso ordinario de los negocios —en las tendencias normales de las disminuciones históricas de costos como las que ocurrieron en 2023 y 2024— esperaríamos un modelo 3-4x más barato que 3.5 Sonnet/GPT-4o en este momento. Dado que DeepSeek-V3 es peor que esos modelos de frontera estadounidenses —digamos en ~2x en la curva de escalado, lo que creo que es bastante generoso para DeepSeek-V3—, eso significa que sería totalmente normal, totalmente «en tendencia», si el entrenamiento de DeepSeek-V3 costara ~8x menos que los modelos estadounidenses actuales desarrollados hace un año. No voy a dar una cifra, pero está claro en el punto anterior que incluso si se toma el coste de entrenamiento de DeepSeek al pie de la letra, están en tendencia en el mejor de los casos y probablemente ni siquiera eso. Por ejemplo, esto es menos pronunciado que el diferencial de precio de inferencia original de GPT-4 a Claude 3.5 Sonnet (10x), y 3.5 Sonnet es un mejor modelo que GPT-4. Todo esto es para decir que DeepSeek-V3 no es un avance único o algo que cambie fundamentalmente la economía de los LLM; es un punto esperado en una curva de reducción de costos en curso. Lo que es diferente esta vez es que la empresa que fue la primera en demostrar las reducciones de costos esperadas fue china. Esto no había ocurrido antes y es geopolíticamente significativo. Sin embargo, las empresas estadounidenses pronto seguirán su ejemplo —y no lo harán copiando a DeepSeek, sino porque ellas también están logrando la tendencia habitual en la reducción de costos.
  3. Tanto DeepSeek como las empresas de IA estadounidenses tienen mucho más dinero y muchos más chips de los que tenían para entrenar sus modelos principales. Los chips adicionales se utilizan para la I+D con el fin de desarrollar las ideas que subyacen al modelo, y a veces para entrenar modelos más grandes que aún no están listos (o que necesitaron más de un intento para acertar). Se ha informado —no podemos estar seguros de que sea cierto— que DeepSeek en realidad tenía 50.000 chips de generación Hopper, lo que yo diría que está dentro de un factor ~2-3x de lo que tienen las principales empresas de IA de Estados Unidos (por ejemplo, es 2-3x menos que el clúster «Colossus» de xAI). Esos 50.000 chips Hopper cuestan del orden de ~1.000 millones de dólares. Por lo tanto, el gasto total de DeepSeek como empresa (a diferencia del gasto para entrenar un modelo individual) no es muy diferente del de los laboratorios de IA estadounidenses.
  4. Cabe señalar que el análisis de la «curva de escalado» es un poco simplificado, porque los modelos están algo diferenciados y tienen diferentes fortalezas y debilidades; los números de la curva de escalado son una media bruta que ignora muchos detalles. Sólo puedo hablar de los modelos de Anthropic, pero como he insinuado anteriormente, Claude es extremadamente bueno en la codificación y en tener un estilo bien diseñado de interacción con la gente (mucha gente lo utiliza para asesoramiento o apoyo personal). En estas y algunas tareas adicionales, no hay comparación con DeepSeek. Estos factores no aparecen en los números de escalado.

R1, que es el modelo que se lanzó la semana pasada y que desencadenó una explosión de atención pública (incluida una disminución de ~17% en el precio de las acciones de Nvidia), es mucho menos interesante desde una perspectiva de innovación o ingeniería que V3. Añade la segunda fase de entrenamiento —el aprendizaje por refuerzo, descrito en el punto 3 de la sección anterior— y esencialmente replica lo que OpenAI ha hecho con o1 (parece que están a una escala similar con resultados similares). Sin embargo, como estamos en la primera parte de la curva de escalado, es posible que varias empresas produzcan modelos de este tipo, siempre que partan de un modelo preentrenado fuerte. Producir R1 dado V3 fue probablemente muy barato. Por lo tanto, estamos en un «punto de cruce» interesante, donde temporalmente es el caso de que varias empresas pueden producir buenos modelos de razonamiento. Esto dejará de ser cierto rápidamente a medida que todo el mundo avance en la curva de escalado de estos modelos.

Controles de Exportación

Todo esto es sólo un preámbulo a mi principal tema de interés: los controles de exportación de chips a China. A la luz de los hechos anteriores, veo la situación de la siguiente manera:

  1. Existe una tendencia continua en la que las empresas gastan cada vez más en el entrenamiento de modelos de IA potentes, incluso a medida que la curva se desplaza periódicamente y el coste de entrenar un determinado nivel de inteligencia de modelo disminuye rápidamente. Es sólo que el valor económico de entrenar modelos cada vez más inteligentes es tan grande que cualquier ganancia de costos es más que absorbida casi de inmediato —se vierte de nuevo en hacer modelos aún más inteligentes por el mismo coste enorme que originalmente planeábamos gastar—. En la medida en que los laboratorios estadounidenses no las hayan descubierto ya, las innovaciones de eficiencia que DeepSeek ha desarrollado pronto serán aplicadas tanto por los laboratorios estadounidenses como por los chinos para entrenar modelos de miles de millones de dólares. Estos tendrán un mejor rendimiento que los modelos de miles de millones que planeaban entrenar anteriormente —pero seguirán gastando miles de millones—. Esa cifra seguirá subiendo, hasta que lleguemos a una IA que sea más inteligente que casi todos los humanos en casi todo.
  2. Para crear una IA que sea más inteligente que casi todos los humanos en casi todo se necesitarán millones de chips, decenas de miles de millones de dólares (al menos), y lo más probable es que ocurra en 2026-2027. Los lanzamientos de DeepSeek no cambian esto, porque están más o menos en la curva de reducción de costos esperada que siempre se ha tenido en cuenta en estos cálculos.
  3. Esto significa que en 2026-2027 podríamos acabar en uno de dos mundos radicalmente diferentes. En Estados Unidos, varias empresas tendrán sin duda los millones de chips necesarios (a costa de decenas de miles de millones de dólares). La pregunta es si China también podrá conseguir millones de chips.
  4. Si pueden, viviremos en un mundo bipolar, en el que tanto Estados Unidos como China tendrán poderosos modelos de IA que provocarán avances extremadamente rápidos en la ciencia y la tecnología —lo que he llamado «países de genios en un centro de datos»—. Un mundo bipolar no sería necesariamente equilibrado indefinidamente. Incluso si Estados Unidos y China estuvieran a la par en sistemas de IA, parece probable que China pudiera dirigir más talento, capital y concentración a las aplicaciones militares de la tecnología. Combinado con su gran base industrial y sus ventajas militares-estratégicas, esto podría ayudar a China a tomar una posición de liderazgo en el escenario mundial, no sólo en la IA, sino en todo.
  5. Si China no puede conseguir millones de chips, viviremos (al menos temporalmente) en un mundo unipolar, donde sólo Estados Unidos y sus aliados tengan estos modelos. No está claro si el mundo unipolar durará, pero al menos existe la posibilidad de que, debido a que los sistemas de IA pueden ayudar eventualmente a crear sistemas de IA aún más inteligentes, una ventaja temporal podría traducirse en una ventaja duradera. Así, en este mundo, Estados Unidos y sus aliados podrían tomar una posición de liderazgo duradera en el escenario mundial.
  6. Unos controles de exportación bien aplicados son lo único que puede impedir que China consiga millones de chips, y son, por lo tanto, el factor determinante más importante de si acabamos en un mundo unipolar o bipolar.

El rendimiento de DeepSeek no significa que los controles de exportación hayan fallado. Como he dicho antes, DeepSeek tenía un número entre moderado y grande de chips, así que no es sorprendente que fueran capaces de desarrollar y luego entrenar un modelo potente. No estaban sustancialmente más limitados en recursos que las empresas estadounidenses de IA, y los controles de exportación no fueron el factor principal que les hizo «innovar». Simplemente son ingenieros muy talentosos y muestran por qué China es un competidor serio para Estados Unidos.

DeepSeek tampoco demuestra que China siempre pueda obtener los chips que necesita a través del contrabando, o que los controles siempre tengan lagunas. No creo que los controles de exportación se diseñaran nunca para impedir que China consiguiera unas pocas decenas de miles de chips. 1.000 millones de dólares de actividad económica pueden ocultarse, pero es difícil ocultar 100.000 millones de dólares o incluso 10.000 millones de dólares. Un millón de chips también puede ser físicamente difícil de pasar de contrabando. También es instructivo observar los chips que se ha informado que tiene DeepSeek actualmente. Se trata de una mezcla de H100, H800 y H20, según SemiAnalysis, que suman 50.000 en total. Los H100 han sido prohibidos por los controles de exportación desde su lanzamiento, así que si DeepSeek tiene alguno, deben haber sido introducidos de contrabando (nótese que Nvidia ha declarado que los avances de DeepSeek son «totalmente conformes al control de exportación»). Los H800 fueron permitidos en la primera ronda de controles de exportación de 2022, pero fueron prohibidos en octubre de 2023 cuando se actualizaron los controles, por lo que probablemente fueron enviados antes de la prohibición. Los H20 son menos eficientes para el entrenamiento y más eficientes para el muestreo —y todavía están permitidos, aunque creo que deberían ser prohibidos—. Todo esto es para decir que parece que una parte sustancial de la flota de chips de IA de DeepSeek consiste en chips que no han sido prohibidos (pero deberían serlo); chips que fueron enviados antes de que fueran prohibidos; y algunos que parecen muy probablemente haber sido introducidos de contrabando. Esto demuestra que los controles de exportación están funcionando y adaptándose: se están cerrando las lagunas; de lo contrario, probablemente tendrían una flota completa de H100 de primera línea. Si podemos cerrarlas lo suficientemente rápido, podemos ser capaces de impedir que China consiga millones de chips, aumentando la probabilidad de un mundo unipolar con Estados Unidos a la cabeza.

Dado mi interés en los controles de exportación y la seguridad nacional de Estados Unidos, quiero ser claro en una cosa. No veo a DeepSeek como adversarios y el objetivo no es atacarlos en particular. En las entrevistas que han concedido, parecen investigadores inteligentes y curiosos que sólo quieren hacer tecnología útil.

Pero están en manos de un gobierno autoritario que ha cometido violaciones de los derechos humanos, se ha comportado de forma agresiva en el escenario mundial y será mucho más desinhibido en estas acciones si es capaz de igualar a Estados Unidos en IA. Los controles de exportación son una de nuestras herramientas más poderosas para evitar esto, y la idea de que la tecnología se vuelva más potente, con más valor por su precio, es una razón para levantar nuestros controles de exportación no tiene ningún sentido.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com