OpenAI lanzó una nueva versión de GPT optimizada para tareas de "razonamiento complejo"

En concreto, el modelo o1 tiene una mayor capacidad para escribir código de programación y resolver problemas de varios pasos o etapas. Su entrenamiento se llevó a cabo mediante un proceso denominado aprendizaje por refuerzo

1 de 1 |

OpenAI lanzó un nuevo modelo bajo la denominación "o1", el primero de una serie de modelos extensos de lenguaje (LLM en inglés) diseñada para "razonar" con mayor profundidad y responder a consultas más complejas, según apuntaron desde la compañía desarrolladora de ChatGPT. También lanzaron o1-mini, una versión más reducida.

En concreto, el modelo o1 tiene una mayor capacidad para escribir código de programación y resolver problemas de varios pasos o etapas, como cálculo matemático. Esta iteración, que la empresa lanzó como una "avance", tiene un costo de uso mayor y es más lento que las versiones anteriores dado el tipo de operaciones para el que fue diseñado.

Los usuarios de ChatGPT Plus y de la versión para equipos ya pueden acceder al avance de o1 y de o1-mini, mientras que para las versiones corporativa y educatuva su uso se habilitará la próxima semana. Mientras tanto, todavía no hay fecha confirmada para la llegada de este nuevo modelo al resto de usuarios, aunque OpenAI dijo que tiene planeado desplegar o1-mini para todos en el futuro.

En la API de ChatGPT, el avance de o1 tiene un costo de USD 15 por millón de tokens de entrada (fragmentos de texto analizados por el modelo), y de USD 60 por cada millón de tokens de salida. A modo de comparación, GPT-4o cuesta USD 5 por millón de tokens de entrada y USD 15 por millón de tokens de salida.

OpenAI o1 codes a video game from a prompt. pic.twitter.com/aBEcehP0j8
— OpenAI (@OpenAI) September 12, 2024

Según OpenAI, o1 "ha sido entrenado utilizando un algoritmo de optimización completamente nuevo y un nuevo conjunto de datos de entrenamiento específicamente diseñado para él".

Los modelos GPT anteriores fueron entrenados mediante un mecanismo por el cual se les enseñaba a imitar patrones de sus datos de entrenamiento. En cambio, o1 fue dotado de la capacidad para resolver problemas más complejos mediante una técnica conocida como aprendizaje por refuerzo, que condiciona al sistema mediante recompensas y penalizaciones. Luego, utiliza una "cadena de pensamiento" para procesar consultas, imitando un razonamiento humano "paso a paso".

Gracias a que o1 dedida más tiempo a generar sus respuestas, sus desarrolladores destacaron que "alucina menos", en referencia a la inclusión de información errada o falsa que suele haber en muchos de los resultados. No obstante, aclararon que aún no están en condiciones de dar por resuelto este problema.

El nuevo modelo alcanzó el percentil 89 de participantes en las competencias de programación Codeforces, y OpenAI afirma que, en su próxima actualización, o1 razonará "de manera similar a los estudiantes de doctorado en tareas de referencia desafiantes en física, química y biología". Su interfaz incluso fue diseñada para mostrar su cadena de razonamiento mientras "piensa" para responder, e incluye frases que pretenden hacerlo parecer más "humano".

*La versión o1 de GPT superó las capacidades de otros modelos de OpenAI en un conjunto diverso de exámenes de razonamiento intenso.*

Por otro lado, esta versión de GPT no se destaca en aspectos como su conocimiento factual sobre el mundo, ni tampoco tiene la capacidad de navegar por la web o procesar archivos e imágenes.

"o1 avanza significativamente el estado del arte en el razonamiento de la IA. Planeamos lanzar versiones mejoradas de este modelo a medida que continuamos iterando. Esperamos que estas nuevas capacidades de razonamiento mejoren nuestra capacidad de alinear los modelos con los valores y principios humanos", manifestaron desde OpenAI en la publicación de lanzamiento de este modelo.

Y agregaron: "Creemos que o1 (y sus sucesores) desbloqueará muchos casos de uso nuevos para la IA en ciencia, codificación, matemáticas y campos relacionados. Estamos entusiasmados de que los usuarios y desarrolladores de API descubran cómo puede mejorar su trabajo diario".