Пт. Май 8th, 2026
Imagen representativa de la nueva tecnología de voz de OpenAI

OpenAI ha introducido tres innovadores modelos de inteligencia artificial de voz, diseñados para razonar, traducir y transcribir audio en tiempo real. Estos avances buscan crear experiencias de voz que se perciban como más naturales y que respondan de manera más inteligente y fluida durante las interacciones. Los desarrolladores ya tienen acceso a estos modelos a través de la API de OpenAI.

Los modelos presentados son GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. El primero, GPT-Realtime-2, destaca por sus capacidades de razonamiento, comparables a las de GPT-5. Esta IA puede gestionar conversaciones complejas sin perder el contexto, manejar interrupciones, interactuar con herramientas externas mientras habla y adaptar su tono según la situación. Por ejemplo, puede responder con más calma ante la frustración del usuario o elevar el tono para confirmar información. Además, introduce frases de transición para mitigar los silencios incómodos durante el procesamiento de solicitudes, como «déjame verificar eso» o «un momento». Una característica adicional es su habilidad para llamar a múltiples herramientas simultáneamente y anunciarlo vocalmente, como «revisando tu calendario» o «buscando esa información ahora».

GPT-Realtime-2 cuenta con una ventana de contexto de 128.000 tokens, permitiendo conversaciones extensas sin que el modelo pierda el hilo. Su nivel de razonamiento es configurable en cinco niveles, desde mínimo hasta muy alto, para ajustar el equilibrio entre velocidad y profundidad según las necesidades específicas.

El segundo modelo, GPT-Realtime-Translate, está enfocado en la traducción de voz simultánea. Soporta más de 70 idiomas de entrada y traduce a 13 idiomas de salida, manteniendo el ritmo del hablante. Esta funcionalidad es ideal para aplicaciones de atención al cliente, plataformas educativas, eventos en vivo o cualquier escenario donde la comunicación multilingüe en tiempo real sea crucial. La compañía enfatiza que la traducción en vivo debe preservar el significado y el flujo de la conversación, incluso ante variaciones en el habla, dialectos o terminología específica.

Deutsche Telekom ya está experimentando con GPT-Realtime-Translate para facilitar que sus clientes se comuniquen en su idioma preferido.

Finalmente, GPT-Realtime-Whisper es un modelo avanzado de transcripción que convierte el audio en texto en tiempo real. Su aplicación práctica incluye la adición de subtítulos en presentaciones o transmisiones en vivo, reduciendo la latencia y mejorando la naturalidad. Este modelo también puede generar notas y resúmenes durante las conversaciones en curso, permitiendo la creación de agentes de voz que necesiten una comprensión continua de los usuarios, beneficiando áreas como atención al cliente, sanidad, ventas y reclutamiento.

Precio y Disponibilidad

Los tres modelos están disponibles a través de la Realtime API de OpenAI. Los desarrolladores pueden probarlos sin necesidad de codificar en el Playground de la plataforma. Para integrarlos en aplicaciones, OpenAI ofrece puntos de partida a través de Codex, permitiendo la incorporación a proyectos existentes o la creación de nuevos desde cero.

En cuanto a los costos, GPT-Realtime-2 tiene un precio de 32 dólares por cada millón de tokens de audio de entrada y 64 dólares por millón de tokens de salida. GPT-Realtime-Translate cuesta 0,034 dólares por minuto, y GPT-Realtime-Whisper tiene un precio de 0,017 dólares por minuto.

OpenAI ha asegurado que la API incluye medidas de seguridad para detener conversaciones que infrinjan sus políticas de uso.

By Артём Науменко

Артём Науменко - петербургский журналист, освещающий темы науки, общества и технологий. Автор популярного цикла статей о российских научных достижениях.

Related Post