Suchir Balaji, quien ayudó a desarrollar ChatGPT, renuncia a la empresa y revela preocupaciones éticas y legales sobre el uso de datos protegidos por copyright en el entrenamiento de sistemas de IA.
La controversia sobre el uso de datos protegidos por derechos de autor en el desarrollo de inteligencia artificial suma un nuevo capítulo.
Suchir Balaji, ex investigador de OpenAI durante casi cuatro años, ha decidido romper el silencio y exponer públicamente sus preocupaciones sobre las prácticas de la empresa en el entrenamiento de sus modelos de IA.
Formación y llegada a OpenAI
Criado en Cupertino, California, Balaji se fascinó con la IA durante su adolescencia tras conocer los avances de DeepMind en el aprendizaje automático de videojuegos clásicos.
«Pensé que la IA era algo que podría usarse para resolver problemas irresolubles, como curar enfermedades y detener el envejecimiento», confesó en una serie de entrevistas con The New York Times.
Después de estudiar Ciencias de la Computación en la Universidad de California, Berkeley, se unió a OpenAI en 2020, donde participó activamente en el desarrollo de GPT-4, un modelo de lenguaje que analizó prácticamente todo el texto en inglés disponible en internet.
Cambio de perspectiva
El punto de inflexión llegó con el lanzamiento de ChatGPT a finales de 2022. «Con un proyecto de investigación, generalmente puedes entrenar con cualquier dato. Esa era la mentalidad en ese momento», explica Balaji, quien a sus 25 años decidió renunciar en agosto de 2023 por considerar que estas tecnologías «traerían más daño que beneficio a la sociedad».
Debate Legal
La controversia se centra en la doctrina del «uso justo» (fair use). OpenAI defiende su posición argumentando que el uso de datos públicos está protegido por esta doctrina y precedentes legales.
Sin embargo, Balaji sostiene que los criterios no se cumplen: «Las salidas no son copias exactas de las entradas, pero tampoco son fundamentalmente novedosas».
Bradley J. Hulbert, abogado especializado en propiedad intelectual, señala que «las leyes de copyright actuales se escribieron mucho antes del surgimiento de la IA y ningún tribunal ha decidido aún si tecnologías como ChatGPT violan la ley».
Impacto en el ecosistema digital
«Este no es un modelo sostenible para el ecosistema de internet en su conjunto», advierte Balaji, quien publicó un ensayo con análisis matemáticos respaldando sus argumentos.
Su preocupación va más allá de lo legal: señala que estos sistemas están generando información falsa o fabricada -conocida como «alucinaciones»- que deterioran la calidad de internet.
Demandas y consecuencias
La polémica ha desencadenado una serie de demandas contra empresas de IA. Programadores, artistas, discográficas, autores y organizaciones de noticias, incluyendo The New York Times, han iniciado acciones legales contra OpenAI y otras compañías por el uso no autorizado de contenido protegido.
Llamado a la regulación
«La única salida de todo esto es la regulación», concluye Balaji, coincidiendo con expertos como Hulbert, quien sostiene que «dado que la IA está evolucionando tan rápidamente, es momento de que el Congreso intervenga».