Google da un golpe sobre la mesa de la IA: exhibe sus progresos y también tiene un asistente con el que charlar de forma natural

Inteligencia artificial

La compañía muestra en su conferencia de desarrolladores su nuevo modelo de IA, Gemini 1.5 Pro, y mejora los ya conocidos

Promete revolucionar las interacciones con su buscador, la creación de fotografías y vídeos y presenta a Project Astra, un asistente con el que se puede hablar por audio y por vídeo y que puede recordar, asimilar y entender el contexto

OpenAI presenta ChatGPT-4o, una nueva versión que admite conversaciones naturales por voz

El asistente de inteligencia artificial Claude, ya disponible en Europa

Google – Welcome to the Gemini era

Hasta hace no mucho se decía que la inteligencia artificial avanzaba con tal rapidez que cada seis meses tenía lugar una revolución.

El ritmo se ha acelerado, y mucho, y en poco menos de 24 horas se ha producido una sacudida que ha dejado obsoletos buena parte de los avances que podrían habernos maravillado la semana pasada.

Si este lunes OpenAI nos mostraba que lo que experimentaba el personaje de Joaquin Phoenix en el filme de Spike Jonze Her estaba ya al alcance de la mano, este martes Alphabet, en la apertura de su conferencia de desarrolladores Google I/O 2024, ha dejado bien claro que ha puesto todos sus huevos en la cesta de la IA.

Y, como bien sabemos, la producción ovícola de Google es colosal, por lo que las novedades mostradas en esta cita encajan con ese adjetivo y abarcan casi todos los campos en los que el gigante de Silicon Valley extiende sus tentáculos: búsquedas, vídeo, texto, Android y, por supuesto, un asistente que se disputará con ChatGPT-4o el amor platónico del protagonista de Her.

Project Astra

Quizás en lo primero que deberían trabajar es el nombre del invento, porque Proyecto Astra no es demasiado pegadizo (tampoco ChatGPT, todo hay que decirlo), pero es en lo único que flaquea.

Project Astra

Project Astra busca revolucionar la interacción entre humanos y asistentes de IA. Google aspira a que funcione con smartphones y con cualquier dispositivo con cámara, como gafas inteligentes, para interactuar de forma visual con el entorno e integrar la tecnología en nuestra vida cotidiana de manera más natural y fluida.

Se integrará en aplicaciones móviles, como en la futura app de Gemini, y no solo pretende mejorar la comprensión y respuesta en conversaciones con humanos, sino también recordar, asimilar y entender el contexto para actuar de manera apropiada.

Google ha mostrado varios ejemplos -según la compañía, grabados en directo y no manipulados- en los que una de sus trabajadoras en Londres ha preguntado al asistente qué apodo le pondría a una mascota, le ha pedido ayuda con programas de codificación y matemáticos y también para encontrar las gafas, tras enseñarle una habitación.

Como el último modelo de ChatGPT, puede ser interrumpida y tener distintas personalidades, aunque en ambos ejemplos se ha usado la voz de una mujer.

Google también revoluciona la forma de buscar

El producto estrella de Google, su buscador, también tuvo su apartado en la sesión. Con IA generativa integrada, pronto podremos no solo encontrar contenido existente, sino también crear otro nuevo al instante directamente desde los resultados de búsqueda según nuestras necesidades específicas.

Como ejemplos, la compañía mostró recetas personalizadas, menús para toda la semana, un plan de entrenamiento a medida, un cuento para niños sobre un tema en particular o incluso diseños de producto únicos. A partir de esos resultados podremos pedirle a la IA variaciones o que combine ideas.

Search in the Gemini era

Todo integrado de manera fluida en los resultados de búsqueda y sin necesidad de comandos complejos, solamente utilizando solicitudes sencillas en lenguaje natural.

Y para iniciar la búsqueda no será necesario escribir o introducir un comando de voz, también podremos utilizar un vídeo.

La capacidad de razonar de la IA del buscador permite que Google sea capaz de contestar a textos, mensajes de voz o vídeos complejos en una sola búsqueda. No obstante, los usuarios "pronto" podrán ajustar la IA de su buscador "para simplificar el lenguaje o desglosarlo con más detalle".

Creación de vídeo e imágenes

En el apartado audiovisual, Google mostró Veo, su nuevo modelo de IA capaz de crear videos de un minuto en alta definición en una amplia gama de estilos visuales y cinematográficos. De nuevo, una respuesta a OpenAI, en este caso a su Sora. Por ahora está limitada dentro de VideoFX, pero la compañía planea integrarla en otros productos como YouTube Shorts.

Filmmaking with Donald Glover and his creative studio, Gilga | Veo

Según anunció Google, Veo genera videos en 1080p y "crea imágenes consistentes y coherentes: personas, animales y objetos se mueven de manera realista a lo largo de las tomas".

En cuanto a las imágenes, la firma presentó Imagen 3, su nuevo modelo de conversión de texto a imagen capaz de generar productos fotorrealistas (y es de suponer, sin los polémicos errores de la versión anterior).

Uno de los retos que Google afirma haber resuelto (y que ya proporcionan otras herramientas de la competencia como Ideogram) es la representación de texto. Esta tecnología está disponible para creadores seleccionados dentro de ImageFX.

Visual Artists x Imagen

Gemini 1.5 Flash

El anuncio principal de Google I/O casi se ha visto eclipsado por los ejemplos concretos de los progresos de la compañía en el campo de la inteligencia artificial. Es lo que tiene sacar todos los conejos del sombrero uno tras otro.

En otras circunstancias (y si la sesión del lunes de OpenAI se hubiese producido en otro momento), la noticia habría sido que Google presenta Gemini 1.5 Flash, su nuevo modelo de IA, diseñado para ser "rápido y eficiente" y que destaca en "resúmenes, aplicaciones de chat, subtítulos de imágenes y videos, extracción de datos de tablas y documentos extensos, entre otras cosas".

Google Keynote (Google I/O ‘24)

Unas funcionalidades que logra gracias a su entrenamiento por un proceso llamado "destilación", que transfiere los conocimientos y habilidades esenciales de un modelo mayor a uno más pequeño y más eficiente.

Además, la compañía ha abierto Gemini 1.5 Pro a los suscriptores de Gemini Advanced -19,99 dólares al mes- en más de 35 idiomas, entre ellos el español, en 150 países.

Sundar Pichai, máximo responsable de la compañía, señaló también que la nueva función Gems permitirá personalizar un chatbot, por ejemplo para crear un entrenador personal, un chef o un profesor de escritura creativa. Algo similar a lo que ya permite OpenAI.

stats