OpenAI ha presentado una innovación significativa con el lanzamiento de ChatGPT Images 2.0, su modelo de generación de imágenes de próxima generación. Tras un reajuste estratégico, la compañía ha introducido una actualización que supera las limitaciones técnicas de su predecesor, dotando a la IA de profundas capacidades de razonamiento, comparables a las observadas en modelos avanzados.
La principal distinción de ChatGPT Images 2.0, según la propia OpenAI, radica en su capacidad para analizar y planificar la estructura de una imagen antes de su generación. Esta nueva arquitectura permite procesar textos extensos, infografías y mapas con un nivel de precisión que antes era inalcanzable.
Entre sus nuevas funcionalidades, ChatGPT Images 2.0 es capaz de generar texto legible en diversos idiomas, incluyendo japonés, coreano y chino. Los usuarios podrán crear infografías detalladas, mapas precisos, interfaces gráficas y hasta cómics o manga. OpenAI enfatiza que las imágenes deben funcionar como un medio para organizar y comunicar información compleja, y no solo como un elemento meramente decorativo.
La IA también destaca por su habilidad para mantener la continuidad de personajes y objetos a través de distintas perspectivas y escenarios, preservando su identidad. OpenAI atribuye esta coherencia a una arquitectura que maneja razonamiento espacial avanzado y perspectivas tridimensionales, incluso con instrucciones sencillas.
ChatGPT Images 2.0: Un Proceso de Pensamiento Antes de la Generación
En su novedoso modo de ‘Pensamiento’, el sistema va más allá de la simple ilustración. Analiza materiales proporcionados por el usuario, como presentaciones de PowerPoint o documentos estratégicos, identificando jerarquías de datos, logotipos y estilos específicos para transformar la información en carteles o materiales corporativos que mantienen la exactitud del contenido original.
Este modo de ‘Pensamiento’ es similar a la experiencia de ChatGPT, donde el modelo dedica más tiempo a responder para realizar un análisis exhaustivo de diseño, materiales y objetos. En contraste, el modelo base ofrece respuestas más rápidas y ejecuta instrucciones con precisión, entregando resultados listos para su implementación inmediata.
Otro aspecto notable de ChatGPT Images 2.0 es su excelente precisión tipográfica. Históricamente, el texto legible ha sido un punto débil en las imágenes generadas por IA, facilitando su identificación como contenido sintético. OpenAI asegura que su modelo soporta múltiples alfabetos y puede generar diagramas científicos o mapas históricos con texto completamente comprensible y frases gramaticalmente correctas.
Según informes, la compañía ha estado probando ChatGPT Images 2.0 bajo el nombre clave ‘duct tape’. Los resultados iniciales confirmaron su habilidad para replicar interfaces de usuario y capturas de pantalla de sitios web populares con un realismo asombroso. Además, el modelo puede realizar búsquedas web en tiempo real para asegurar que los elementos visuales estén actualizados.
Disponibilidad de ChatGPT Images 2.0
En línea con lanzamientos anteriores, OpenAI ha puesto a disposición ChatGPT Images 2.0 bajo tres modalidades de acceso. Los usuarios con cuentas gratuitas disponen del modelo base. Por su parte, los suscriptores Plus y Pro tendrán acceso a las herramientas de razonamiento, búsqueda web y generación de múltiples imágenes. Los desarrolladores con acceso a la API gpt-image-2 podrán crear imágenes en resolución 4K y con diversas relaciones de aspecto.
OpenAI ha implementado protocolos de seguridad robustos, incluyendo marcas de agua, filtros y políticas contra contenido perjudicial o abusivo. Es probable que ChatGPT Images 2.0 incorpore restricciones para prevenir la generación de contenido protegido por derechos de autor. Por lo tanto, la creación de material específico bajo licencia, como un manga de una franquicia existente, podría requerir enfoques alternativos para sortear estas protecciones.

