Hoy OpenAI publicó modelos con Open Weight: gpt-oss-120b y gpt-oss-20b. No es “otro release”: es una señal clara de hacia dónde va el ecosistema —modelos de razonamiento fuertes, listos para agentes (tool-use, outputs estructurados) y con una licencia Apache 2.0 que permite usarlos y adaptarlos sin fricciones. Además, están pensados para correr en hardware hogareño y no solo en datacenters.
Lo primero que miré fue el techo y el piso de despliegue. OpenAI detalla que el 120b puede correr en una sola GPU de 80 GB, mientras que el 20b está pensado para equipos con 16 GB —es decir, entra en setups de escritorio actuales si se prioriza la configuración correcta. Ambos vienen cuantizados de fábrica (MXFP4), lo que baja barreras para probarlos sin una ingeniería previa gigantesca.
A nivel arquitectura, son Transformers Mixture-of-Experts (MoE): el 120b tiene 36 capas, ~117 B de parámetros totales y 5,1 B activos por token; el 20b, 24 capas, ~21 B totales y 3,6 B activos. El contexto nativo es 128k, y OpenAI abre además el tokenizador o200k_harmony, con lo cual hay continuidad con la familia más reciente de la casa. Esto no es un detalle cosmético: habilita prompts largos, logs extensos y documentos completos sin mutilar.
En rendimiento, el mensaje oficial es prudente pero optimista: gpt-oss-120b queda cerca de o4-mini en razonamiento general y muy bien parado en AIME 2024/2025, mientras que gpt-oss-20b se mueve en la órbita de o3-mini, con picos interesantes en matemáticas de competencia y tool-use (Tau-Bench). No son “los tope de gama cerrados”, pero el trade-off costo-latencia-control pinta bien.
Donde OpenAI pisa más fuerte es en la observabilidad del razonamiento. Los modelos exponen Chain-of-Thought (CoT) completo y Structured Outputs, algo clave para auditar decisiones, depurar prompts y construir agentes con trazabilidad. Hay, eso sí, una recomendación explícita: no mostrar CoT en crudo a usuarios finales; puede contener alucinaciones y contenido no alineado si no se filtra.
Sobre seguridad, hay dos capas a considerar. La primera: entrenamiento y evaluaciones estándar con los mismos criterios que OpenAI usa en su línea cerrada. La segunda, y más relevante para modelos abiertos: testearon una versión afinada adversarialmente del 120b dentro del Preparedness Framework; el resultado es que no alcanza niveles “High” en capacidades sensibles (biológico/químico/ciber). Es un hito interesante porque sienta un procedimiento público para releases de pesos abiertos.
También hay matices: en pruebas de jailbreaks los gpt-oss están a la par de o4-mini, pero rinden peor cuando el objetivo es impedir que se sobre-escriba el system prompt (Instruction Hierarchy). En términos prácticos, significa que el diseño de salvaguardas no puede descansar solo en el system; hay que combinar políticas, validadores y, cuando corresponde, browsing o verificación externa para reducir alucinaciones.
El ecosistema acompaña el gesto: descargas en Hugging Face, guías para Transformers, vLLM, Ollama y llama.cpp, y una lista amplia de partners de despliegue y hardware para que el arranque no sea una odisea de ingeniería. Incluso hay un playground web para probarlos en el navegador sin instalar nada. Es decir, no solo hay modelos: hay camino de adopción.
Mi lectura: la jugada devuelve a OpenAI a la conversación sobre apertura útil —no un “todo abierto” académico, pero sí pesos descargables, licencia permisiva y tooling para que cualquiera los ponga a trabajar ya mismo. El foco en razonamiento, agentes y observabilidad marca el tono de esta generación: menos “demo” y más sistemas que uno puede mirar por dentro, medir y mejorar.
Puede leer más en el sitio de OpenAI