OpenAI presentó la versión GPT-4o de su inteligencia artificial: ahora con voz y capacidad de análisis de imágenes

Esta actualización gratuita para todos los usuarios introduce capacidades de voz y multimodales, permitiendo que el modelo comprenda y genere contenido en voz, texto e imágenes

OpenAI presentó la versión GPT-4o de su inteligencia artificial: ahora con voz y capacidad de análisis de imágenes

OpenAI anunció la llegada de GPT-4o, un nuevo modelo de inteligencia artificial que promete cambiar la forma en que los usuarios interactúan con ChatGPT. Esta actualización gratuita para todos los usuarios introduce capacidades de voz y multimodales, permitiendo que el modelo comprenda y genere contenido en voz, texto e imágenes.

La CTO de OpenAI, Mira Murati, destacó que GPT-4o mejora significativamente las capacidades en texto, visión y audio. Esto permite una interacción más natural y fluida con ChatGPT, ya que ahora puede responder a comandos y preguntas en voz, captando incluso la emoción del usuario.

Antes del lanzamiento de GPT-4o, se especulaba sobre la posibilidad de la creación de un motor de búsqueda de IA para competir con Google o de un asistente de voz integrado. Sin embargo, OpenAI optó por enfocarse en mejorar la experiencia del usuario, ofreciendo las mismas capacidades de generación de contenido pero ahora con la adición de voz.

La disponibilidad de GPT-4o será gratuita para todos los usuarios de ChatGPT, con usuarios pagos disfrutando de límites de capacidad hasta cinco veces mayores. Además de la voz, también mejora las capacidades de ChatGPT en el ámbito de la visión. Ahora, el sistema puede analizar imágenes o capturas de pantalla y proporcionar información relevante o respuestas a consultas específicas.

Los desarrolladores también se beneficiarán de la API de OpenAI, que ofrece acceso al modelo con descuentos y mayor velocidad. Esto permitirá integrar la capacidad de voz en aplicaciones y sistemas, ampliando las posibilidades en el desarrollo de IA.

Entre los ejemplos de uso, se destacan conversaciones casuales, traducciones en tiempo real, análisis de imágenes y códigos de programación, todos ahora posibles con la nueva versión multimodal de ChatGPT.

Salir de la versión móvil