Пт. Май 8th, 2026

OpenAI lanza IA de voz avanzada para razonar, traducir y transcribir en tiempo real

OpenAI ha presentado tres innovadores modelos de inteligencia artificial (IA) de voz diseñados para interactuar de forma más natural e inteligente en tiempo real. Estas nuevas herramientas permiten a las IA no solo escuchar, sino también comprender, traducir y transcribir conversaciones mientras estas ocurren, ofreciendo una experiencia de usuario más fluida y avanzada. Los modelos ya están disponibles para desarrolladores a través de la API de OpenAI.

GPT-Realtime-2: El cerebro conversacional

El modelo más destacado es GPT-Realtime-2, una IA con capacidades de razonamiento equivalentes a GPT-5. Este modelo es capaz de mantener conversaciones complejas, comprendiendo el contexto, gestionando interrupciones y adaptando su tono según la situación. Por ejemplo, puede responder con calma ante la frustración del usuario o elevar el tono para confirmar información. Incorpora frases de transición como «déjame verificar eso» para evitar silencios incómodos y anuncia las acciones que está realizando, como «revisando tu calendario». Con una ventana de contexto de 128.000 tokens, puede manejar diálogos extensos sin perder el hilo. Además, su nivel de razonamiento es configurable en cinco niveles, permitiendo equilibrar la velocidad y la profundidad según la necesidad.

GPT-Realtime-Translate: Rompiendo barreras idiomáticas

El segundo modelo, GPT-Realtime-Translate, se especializa en la traducción de voz simultánea. Soporta más de 70 idiomas de entrada y traduce a 13 idiomas de salida, manteniendo el ritmo del hablante. Esta funcionalidad es ideal para aplicaciones de atención al cliente, plataformas educativas y eventos en directo, facilitando la comunicación entre personas que hablan diferentes idiomas sin interrumpir el flujo de la conversación. Deutsche Telekom ya está probando este modelo para permitir a sus clientes comunicarse en su idioma preferido.

GPT-Realtime-Whisper: Transcripción inteligente y toma de notas

Finalmente, GPT-Realtime-Whisper es un modelo de transcripción avanzado que convierte el audio en texto en tiempo real. Esta IA es útil para añadir subtítulos a presentaciones o transmisiones en directo con menor latencia, haciendo la experiencia más rápida y natural. Además, puede generar notas y resúmenes mientras las conversaciones están en curso. Esto permitirá la creación de agentes de voz más eficientes para departamentos como atención al cliente, sanidad, ventas y reclutamiento, que necesiten comprender y procesar información de forma continua.

Disponibilidad y precios

Los tres modelos se encuentran disponibles en la API de OpenAI. Para probarlos sin necesidad de código, se puede acceder a través del Playground de la plataforma. Para integrarlos en aplicaciones, OpenAI ofrece puntos de partida con Codex. En cuanto a los precios, GPT-Realtime-2 cuesta 32 dólares por millón de tokens de audio de entrada y 64 dólares por millón de salida. GPT-Realtime-Translate tiene un coste de 0,034 dólares por minuto, y GPT-Realtime-Whisper de 0,017 dólares por minuto. La API incluye capas de seguridad para detener conversaciones que infrinjan las políticas de uso.

By Артём Науменко

Артём Науменко - петербургский журналист, освещающий темы науки, общества и технологий. Автор популярного цикла статей о российских научных достижениях.

Related Post