El Shoreline Amphitheatre se convirtió en el epicentro de la innovación tecnológica durante la conferencia Google I/O 2024. Lejos de ser una simple vidriera de productos, el evento trazó la hoja de ruta de una compañía que apuesta decididamente por la IA como motor de transformación social.
El día después de la presentación por parte de OpenAI de un modelo avanzado de IA ChatGPT, Google demostró su perspectiva sobre cómo la IA puede mejorar los elementos con los que interactúan millones de usuarios a diario.
Desde el primer minuto, el mensaje de Sundar Pichai, CEO de Google, resonó con fuerza: «estamos en la era Gemini». Este modelo de IA multimodal, presentado en 2023, se ha consolidado como la piedra angular de la mayoría de los productos de Google. Su capacidad para procesar información en diferentes formatos –texto, imágenes, vídeo, código– abre un universo de posibilidades para la interacción con la información.
La demostración de NotebookLM, a cargo de Josh Woodward, ofreció una ventana al potencial educativo de Gemini. Imaginemos una herramienta que permite cargar diferentes materiales educativos –textos, diapositivas, incluso diagramas– para generar guías de estudio, resúmenes y cuestionarios personalizados.
La verdadera innovación reside en «Audio Overviews», una función que utiliza Gemini para transformar el material en una conversación de audio dinámica, a la que el usuario puede unirse e interactuar en tiempo real. Como explicó Woodward, «con la potencia de Gemini, puedes darle mucha información en cualquier formato, y se puede transformar en algo personalizado e interactivo para ti.»
Pichai regresó al escenario para ahondar en el concepto de «agentes de IA», sistemas inteligentes que van más allá de la simple respuesta a preguntas. Estos agentes son capaces de razonar, planificar y recordar información para realizar tareas en nuestro nombre. Imaginemos un agente que gestiona las devoluciones de compras online, buscando el recibo en nuestro correo, rellenando formularios y programando la recogida del paquete. O un agente que nos ayuda a actualizar nuestra dirección en diferentes sitios web tras mudarnos a una nueva ciudad.
El debut de DemisHassabis, CEO de Google DeepMind, en el escenario de I/O marcó un hito.
Hassabis habló sobre su visión de la IA general (AGI), un sistema con capacidades cognitivas a nivel humano, y el papel crucial que DeepMind juega en esta búsqueda. «Siempre he creído que si pudiéramos construir esta tecnología de manera responsable, su impacto sería realmente profundo y podría beneficiar a la humanidad de maneras increíbles», afirmó. DeepMind está desarrollando sistemas que resuelven problemas complejos, desde la robótica a las matemáticas, pasando por la predicción de estructuras moleculares con AlphaFold.
En el ámbito creativo, Doug Eck, vicepresidente de Google Research, presentó Imagen 3, el nuevo modelo de generación de imágenes de Google, que destaca por su realismo, su capacidad para comprender prompts complejos y su integración con SynthID para la identificación de imágenes generadas por IA.
La música no se quedó atrás. Hassabis presentó MusicLM, una suite de herramientas de IA para músicos profesionales. MusicLM permite crear nuevas secciones instrumentales, transferir estilos entre canciones y experimentar con la composición musical de formas innovadoras. Artistas de renombre como Dan Deacon y Anitta compartieron sus experiencias utilizando MusicLM, confirmando su potencial para impulsar la creatividad musical.
Pero la verdadera sorpresa llegó con la presentación de Veo, el nuevo modelo de vídeo generativo de Google. Donald Glover, aclamado actor y director, junto al ingeniero Kory Mathewson, protagonizaron una de las presentaciones más impactantes, mostrando cómo Veo permite crear vídeos de alta calidad a partir de texto, imágenes y otros vídeos, con un control creativo sin precedentes sobre aspectos como la cinematografía, los efectos visuales y la narrativa.
Como explicó Glover: «Lo bueno de esto es que puedes cometer errores más rápido. Eso es todo lo que realmente quieres al final del día, al menos en el arte, simplemente cometer errores rápido.» Veo promete democratizar la creación audiovisual, acercando las herramientas de producción a un público más amplio y facilitando la expresión creativa a través del vídeo.
Para sustentar este avance sin precedentes, Google presentó Trillium, la sexta generación de Tensor Processing Units (TPUs), chips diseñados específicamente para el entrenamiento y ejecución de modelos de IA. Trillium ofrece un rendimiento 4.7 veces superior al de la generación anterior, consolidando la infraestructura de Google como la más potente para la investigación y el desarrollo de IA.
En paralelo a la presentación de nuevas tecnologías, Google enfatizó su compromiso con la IA responsable. James Manyika, vicepresidente de Tecnología y Sociedad en Google, abordó el tema con un llamado a la cautela: «construir IA responsablemente significa tanto abordar los riesgos como maximizar los beneficios para las personas y la sociedad». Manyika explicó cómo Google utiliza técnicas de «red-teaming», incluyendo la innovadora técnica asistida por IA, para identificar vulnerabilidades en sus modelos y mejorar su seguridad.
La compañía también se centra en desarrollar herramientas para prevenir el mal uso de la IA, como SynthID, una tecnología que permite añadir marcas de agua imperceptibles a las imágenes, el audio, el texto y el vídeo generados por IA, facilitando su identificación.
En el ámbito educativo, Google presentó LearnLM, una familia de modelos de IA basados en Gemini y diseñados específicamente para el aprendizaje. LearnLM busca personalizar y mejorar la experiencia educativa, ofreciendo a estudiantes y profesores herramientas de IA innovadoras.
Pero la IA no solo revoluciona productos como la búsqueda o el software de productividad. Android, el sistema operativo móvil más popular del mundo, también se está transformando con la llegada de Gemini. SameerSamat, vicepresidente de Android, proclamó que Android se está convirtiendo en «el mejor lugar para experimentar la IA de Google», una plataforma donde la IA se integra de forma natural en la experiencia de usuario.
Gemini en Android funciona como un asistente contextual y proactivo, anticipando las necesidades del usuario y ofreciendo sugerencias relevantes en tiempo real. Dave Burke, vicepresidente de Ingeniería de Android, mostró cómo Gemini puede ayudar a encontrar memes, responder preguntas sobre vídeos de YouTube y analizar documentos PDF, todo ello integrado en la experiencia de usuario de Android.
La integración de Gemini Nano, un modelo de IA optimizado para ejecutarse directamente en el dispositivo, mejora la velocidad de respuesta y protege la privacidad del usuario. Burke también demostró cómo Gemini Nano puede proteger a los usuarios de fraudes telefónicos, identificando patrones sospechosos en las conversaciones y alertando al usuario en tiempo real.
Google no se olvida de la comunidad de desarrolladores.
La compañía presentó Gemini 1.5 Flash, un modelo de IA ligero y eficiente diseñado para tareas que requieren baja latencia. Flash se posiciona como una alternativa a Pro para casos de uso específicos. Además, Google presentó Gemma, una familia de modelos de IA de código abierto diseñados para impulsar la innovación y la investigación.
Google I/O 2024 ha marcado un antes y un después en la historia de la compañía. La IA no solo está presente en cada uno de sus productos, sino que se está convirtiendo en el motor de un cambio social profundo, transformando la forma en que interactuamos con la información, aprendemos, creamos y nos comunicamos.
En palabras de Pichai, «este progreso solo es posible gracias a nuestra increíble comunidad de desarrolladores. Ustedes lo están haciendo realidad, a través de las experiencias que construyen cada día. Así que, a todos aquí en Shoreline y a los millones que nos ven en todo el mundo, brindemos por las posibilidades futuras y por crearlas juntos».