Google Gemini 2.0, un modelo más potente y versátil para la próxima etapa de la IA, la de los agentes

La compañía añade salida nativa de imágenes y audio y uso de herramientas que serán capaces de planificar, recordar y actuar por el usuario.

OpenAI abre el acceso a Sora a todos los usuarios

Google Gemini 2.0
Google Gemini 2.0 / Google

La próxima etapa de la inteligencia artificial, tras la IA generativa, será la de los agentes, un campo en el que gigantes del sector como OpenAI o Microsoft llevan tiempo trabajando con el fin de desarrollar herramientas que no solo sean capaces de crear textos, imágenes o vídeos, sino de actuar en nombre del usuario.

Una senda por la que también transita Google, que acaba de presentar su último modelo de inteligencia artificial, Gemini 2.0, que usará tanto para potenciar su buscador como para dar paso, asegura, a una nueva generación de asistentes de IA que ayudarán a los usuarios con tareas de todo tipo (revisar códigos de programación, videojuegos...) y que supondrá un paso más hacia su objetivo de crear un "asistente universal".

"Gemini 2.0 es nuestro modelo de IA más capaz hasta el momento, creado para la era de los agentes de IA, con un rendimiento mejorado y nuevas capacidades como el audio multilingüe", explicó a la prensa Tulsee Doshi, jefe de producto del modelo Gemini en Google.

Gemini 2.0 Flash

La tecnológica ha abierto el acceso al primer modelo de la familia Gemini 2.0, una versión experimental de Gemini 2.0 Flash, su modelo de referencia con baja latencia y rendimiento mejorado, que los desarrolladores pueden empezar a utilizar a través de la API de Gemini en Google AI Studio y Vertex AI.

Además, usuarios de Gemini de todo el mundo pueden ya utilizar una versión también experimental y optimizada para chat de 2.0 Flash Experimental (pueden seleccionarla en el menú desplegable de modelos en la web de escritorio y móvil).

Los usuarios de Gemini Advanced también tendrán acceso a una nueva función llamada Deep Research que utiliza capacidades avanzadas de razonamiento y contexto largo, como si fuera un asistente de investigación, explorando temas complejos y creando informes.

Por otra parte, las capacidades de razonamiento avanzado de Gemini 2.0 se están incorporando a Vistas Creadas con IA, "para abordar temas más complejos y responder preguntas de varios pasos", por ejemplo ecuaciones matemáticas avanzadas, consultas multimodales (que precisen de información en varios formatos) y programación, precisa la firma, que irá introduciendo a principios de 2025 Gemini 2.0 en diversos productos de Google.

Google Gemini
Google Gemini / Google

A todo eso se suman varios agentes (unos nuevos y otros mejorados) con sus últimas tecnologías:

Nueva versión de Proyecto Astra

La gran novedad de Proyecto Astra, un asistente digital para móviles que puede entender fotos, vídeos, texto y comandos verbales, es que tiene memoria.

"Hemos mejorado la capacidad del Proyecto Astra para recordar cosas. Ahora tiene hasta 10 minutos de memoria en sesión y también puede recordar conversaciones que se hayan tenido con él en el pasado, para que se pueda conseguir una experiencia personalizada más útil", comentó Bibo Xu, gerente principal de productos de Google DeepMind para el Proyecto Astra.

El Proyecto Astra tiene ahora la capacidad de conversar en varios idiomas y en idiomas mixtos, con una mejor comprensión de los acentos y las palabras poco comunes (se ha mejorado además la latencia) y, con Gemini 2.0, puede utilizar la Búsqueda de Google, Lens y Maps.

Nueva versión de Proyecto Astra, de Google.
Nueva versión de Proyecto Astra, de Google. / Google

Proyecto Mariner

Proyecto Mariner, por su parte, es un prototipo que explora el futuro de la interacción entre humanos y agentes, empezando por el navegador. Como prototipo de investigación, indica Google, puede comprender y razonar a través de la información de la pantalla del navegador, incluidos elementos como texto, código, imágenes y formularios. Esa información la utiliza después con una extensión experimental de Chrome para completar tareas.

"El agente actúa de la misma manera (que un internauta). Puede hacer clic, escribir, desplazar el cursor como lo haría un usuario", detalló Xu. "Queremos construirlo de manera reflexiva y responsable y estamos identificando un conjunto de tareas que no creemos que el agente deba realizar en nombre de un usuario"; por ejemplo, completar una compra sin el visto bueno del usuario.

Jules

Jules es un agente específicamente creado para ayudar a los desarrolladores a encontrar y corregir código incorrecto que se integra directamente en un flujo de trabajo de GitHub.

Otros proyectos

Además, la compañía está trabajando en un modelo de agente que pueda observar cómo el usuario está jugando a un videojuego y dar consejos para navegar por mundos virtuales y en agentes que puedan ayudar en el mundo físico aplicando las capacidades de razonamiento espacial de Gemini 2.0 a la robótica.

Google concluye el comunicado en el que ha anunciado estos avances apuntando que seguirán "explorando con seguridad todas las nuevas posibilidades a nuestro alcance a medida que avanzamos hacia la inteligencia artificial general".

stats