OpenAI lanza GPT-4o (omni), un nuevo gran modelo de lenguaje capaz de relacionarse a través de audio, imágenes y texto en tiempo real

Legal Management

OpenAI lanza GPT-4o (omni), un nuevo gran modelo de lenguaje capaz de relacionarse a través de audio, imágenes y texto en tiempo real

2024/05/14

Su principal característica es que permite una interacción más natural entre la persona y la computadora, pues acepta como entrada cualquier combinación de texto, audio e imagen e, igualmente, genera como resultado cualquier combinación de salidas de texto, audio e imagen, todo ello con gran rapidez y precisión.

Carlos B Fernández. OpenAI, la empresa desarrolladora de ChatGPT, acaba de presentar su última evolución del mismo: GPT-4o (“o” de “omni”). Su principal característica es que permite una interacción entre la persona y la computadora más natural, pues acepta como entrada cualquier combinación de texto, audio e imagen e, igualmente, genera como resultado cualquier combinación de salidas de texto, audio e imagen.

Además, la compañía destaca la gran rapidez con que puede responder el sistema, que en el caso de las entradas de audio en de tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es un tiempo de respuesta similar al tiempo de respuesta humano en una conversación.

Esto significa que iguala el rendimiento de la anterior versión del chat, la GPT-4 Turbo, tanto en texto en inglés como en código informático y que ofrece una mejora significativa en cuanto a la comprensión de textos en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50 % más económico en la API.

En general, indica OpenAI, GPT-4o es 2 veces más rápido, cuesta la mitad de precio y su límite de velocidad es 5 veces más altos en comparación con GPT-4 Turbo, ofreciendo mejores resultados en cuanto a visión y comprensión de audio en comparación con los modelos existentes.

Capacidades del modelo

Con anterioridad a esta versión, ChatGPT aceptaba las entradas (consultas) formuladas por medio de la voz, con una latencia (tiempo de respuesta) promedio de 2,8 segundos (en GPT-3.5) y 5,4 segundos (en GPT-4).

Para ello, se utilizaba una canalización de tres modelos separados: un modelo simple transcribía el audio a texto; a continuación, GPT-3.5 o GPT-4 tomaba texto y generaba un texto y, finalmente, un tercer modelo simple convierte ese texto nuevamente en audio. Pero este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información, pues no puede observar directamente el tono, varios parlantes o ruidos de fondo, y no puede emitir risas, cantar ni expresar emociones.

Sin embargo, con GPT-4o, se ha entrenado un nuevo modelo único, de extremo a extremo, en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Según la empresa desarrollada, debido a que GPT-4o es su primer modelo que combina todas estas modalidades, “todavía estamos apenas rascando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones”.

Por otra parte, y siempre según OpenAI, de acuerdo con los criterios de referencia tradicionales, GPT-4o alcanza el nivel de rendimiento de GPT-4 Turbo en cuanto al tratamiento de texto, razonamiento e inteligencia de codificación, al tiempo que establece nuevos hitos en capacidades multilingües, de audio y de visión.

Seguridad y limitaciones del modelo

GPT-4o incorpora seguridad por diseño en todas sus modalidades, mediante técnicas como el filtrado de los datos de entrenamiento y el perfeccionamiento del comportamiento del modelo a través del post-entrenamiento. También incorpora nuevos sistemas de seguridad para poner barreras a las salidas de voz.

Según la empresa, que afirma haber evaluado GPT-4o de acuerdo con su Marco de Preparación (Preparedness Framework) y en consonancia sus compromisos voluntarios, sus evaluaciones de ciberseguridad, QBRN, persuasión y autonomía del modelo muestran que GPT-4o no supera el nivel de riesgo Medio en ninguna de estas categorías. Esta evaluación consistió en la ejecución de un conjunto de evaluaciones automatizadas y humanas a lo largo de todo el proceso de entrenamiento del modelo. Para ello se probaron del modelo anteriores y posteriores a la mitigación de la seguridad, utilizando ajustes personalizados e instrucciones, para obtener mejores result.

GPT-4o también se ha sometido a un extenso “red teaming” (pruebas de seguridad) externo con más de 70 expertos externos en ámbitos como la psicología social, la parcialidad y la imparcialidad, y la desinformación para identificar los riesgos que introducen o amplifican las nuevas modalidades añadidas, todo ello con el fin de mejorar la seguridad de la interacción con GPT-4o.

La empresa reconoce que las modalidades de audio de GPT-4o presentan una variedad de riesgos novedosos. Por ello, por el momento ha hecho públicas las entradas y salidas de texto e imagen y a lo largo de las próximas semanas y meses, trabajarán en la infraestructura técnica, la usabilidad a través de la formación posterior y la seguridad necesarias para publicar las demás modalidades. Por ejemplo, en el momento del lanzamiento, las salidas de audio se limitarán a una selección de voces preestablecidas y se atendrán a sus actuales políticas de seguridad.

Disponibilidad del modelo

Las capacidades de GPT-4o se implementarán de forma iterativa, a partir del 13 de mayo.

Ese mismo día han comenzado a implementarse las capacidades de texto e imagen de GPT-4o en ChatGPT, permitiendo su disponibilidad para usuarios Plus, con un límite de mensajes hasta 5 veces mayores. Además, planean lanzar soporte para las nuevas capacidades de audio y video de GPT-4o a un pequeño grupo de socios confiables en la API en las próximas semanas.

La empresa ha anunciado que lanzará una nueva versión del Modo de Voz con GPT-4o en una versión alfa dentro de ChatGPT Plus en las próximas semanas.

Los desarrolladores ahora también pueden acceder a GPT-4o en la API como modelo de texto y visión.

Volver a página de inicio

Volver a página de inicio