Inicio » Ciencias » Harvard y Google lanzarán 1 millón de libros de dominio público para el entrenamiento de IA

Harvard y Google lanzarán 1 millón de libros de dominio público para el entrenamiento de IA

La liberación incluye aproximadamente 1 millón de libros de dominio público, que abarcan una amplia variedad de géneros, idiomas y autores clásicos como Dickens, Dante y Shakespeare.

Harvard University y Google se han unido para lanzar un valioso conjunto de datos que promete impulsar el avance de la inteligencia artificial.

Se trata de un conjunto de aproximadamente 1 millón de libros de dominio público, es decir, obras que ya no están protegidas por derechos de autor debido a su antigüedad.

Este conjunto de datos estará disponible para que investigadores y empresas de IA lo utilicen en el entrenamiento de modelos de lenguaje a gran escala.

Este conjunto de datos, que aún no está disponible al público, incluye una gran diversidad de géneros, idiomas y autores clásicos como Charles Dickens, Dante Alighieri y William Shakespeare.

Los libros provienen del proyecto de escaneo de libros de Google, conocido como Google Books.

Según Greg Leppert, director ejecutivo de la Institutional Data Initiative (IDI) de Harvard, el objetivo es «nivelar el terreno de juego» al poner a disposición este «tesoro» de datos para que cualquier laboratorio de investigación o startup de IA pueda utilizarlo en el entrenamiento de sus modelos de lenguaje a gran escala (LLM).

La IDI, que Harvard había adelantado en marzo, cuenta con el respaldo financiero de empresas como Microsoft y OpenAI.

Leppert señala que este conjunto de datos está diseñado para ser un «conducto de confianza» que proporcione datos legales y de alta calidad para el desarrollo de la IA.

La disponibilidad de este vasto conjunto de libros de dominio público representa una importante oportunidad para la comunidad de IA.

Tradicionalmente, los conjuntos de datos de entrenamiento de IA han sido costosos y han estado limitados a los grandes actores tecnológicos.

Con este lanzamiento, Harvard y Google esperan democratizar el acceso a estos recursos fundamentales para el avance de la inteligencia artificial.

Si bien aún no se ha anunciado una fecha específica para la publicación de este conjunto de datos, su desarrollo y distribución serán un hito significativo para impulsar la innovación en el campo de la IA, ya que investigadores y empresas emergentes tendrán acceso a un valioso patrimonio literario para entrenar sus modelos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com