Cómo un modelo de 7B supera a GPT-4o con Flow-GRPO

Un modelo de 7.000 millones de parámetros supera a GPT-4o en benchmarks de búsqueda, razonamiento matemático y razonamiento agéntico. No gracias a un mejor modelo base, una ventana de contexto más grande ni hardware exótico. Gracias a un método de entrenamiento que por fin resuelve un problema estructural que todo agente de IA multi-turn ha venido padeciendo en silencio.

AgentFlow, aceptado como presentación en ICLR 2026 — el 1,1% superior de los trabajos enviados — introduce Flow-GRPO, un algoritmo de reinforcement learning diseñado específicamente para agentes que usan herramientas a lo largo de múltiples pasos de razonamiento. El resultado obliga a replantear algunas suposiciones sobre cómo la capacidad de un agente se relaciona con el tamaño del modelo.

El problema que el escalado por sí solo no puede resolver

Cuando observamos cómo un modelo de lenguaje capaz falla en una tarea agéntica de múltiples pasos, el fallo rara vez parece ignorancia. El modelo conoce los hechos. Puede escribir el código, resumir el documento, llamar a la API. Lo que se rompe es la coordinación: la capacidad de comprometerse con un subobjetivo en el turno tres porque sirve a un resultado que no se verificará sino hasta el turno nueve.

Este es el problema de asignación de crédito en horizontes largos (long-horizon credit assignment), y tiene un origen estructural. El reinforcement learning estándar para modelos de lenguaje — variantes de GRPO (Group Relative Policy Optimization, popularizado por la receta de entrenamiento de DeepSeek-R1 — opera sobre respuestas de un solo turno. Se genera una respuesta, se puntúa frente a una verdad de referencia verificable y se actualiza el modelo. La matemática es limpia porque la causalidad es superficial: una acción, un resultado.

Las trayectorias de agentes multi-turn son otra cosa. Un planificador debe elegir qué herramienta invocar, pasar el resultado a un verificador, enrutar la salida al siguiente paso de planificación y solo mucho después recibir una señal de que algo de esto funcionó. En los pipelines de entrenamiento offline estándar, esta latencia entre acción y recompensa provoca que las estimaciones de gradiente se vuelvan ruidosas, que la atribución de recompensa se disperse de forma difusa a lo largo de la trayectoria y que el modelo aprenda correlaciones supersticiosas entre acciones intermedias y el éxito final.

El recurso al que la mayoría de los equipos acude es el fine-tuning supervisado (SFT) sobre demostraciones de expertos: recopilar trayectorias correctas y entrenar al modelo para que las imite. Confiable, económico e interpretable. El problema es que el SFT le enseña al modelo a ajustarse al patrón superficial de las trayectorias en lugar de razonar a través de ellas. El paper de AgentFlow lo hace preciso: cuando aplicaron SFT estándar a su suite de benchmarks agénticos, el rendimiento colapsó un 19,0% respecto al baseline sin entrenamiento.

La arquitectura de AgentFlow: especialización en lugar de monolitos

Antes de explicar cómo funciona Flow-GRPO, conviene entender qué está optimizando.

AgentFlow descompone el ciclo agéntico en cuatro módulos diferenciados, cada uno con una responsabilidad bien delimitada:

Planificador (policy entrenable): Dado el estado actual de la tarea, las herramientas disponibles y la memoria acumulada, selecciona el siguiente subobjetivo y la herramienta con la que ejecutarlo. Es el único módulo cuyos pesos se actualizan durante el entrenamiento.

Ejecutor: Invoca la herramienta seleccionada y devuelve los resultados — una interfaz determinista hacia APIs externas, intérpretes de código o índices de búsqueda.

Verificador: Aplica un juicio binario — ¿la ejecución de la herramienta fue exitosa? ¿tiene el agente suficiente información para responder? — produciendo una señal que determina si el ciclo continúa.

Generador: Dado el historial completo acumulado a lo largo de todos los turnos, sintetiza la respuesta final.

La arquitectura resuena con algo familiar en la ingeniería de software: separación de responsabilidades. Una policy monolítica que planifica, ejecuta, verifica y genera simultáneamente es como una clase que posee la conexión a la base de datos, la lógica de negocio, la capa de presentación y la sesión de usuario al mismo tiempo. Funciona hasta que necesitas razonar sobre dónde salió algo mal — o actualizar una pieza sin romper las demás.

La analogía también aplica al entrenamiento. Al hacer del planificador el único módulo entrenado, AgentFlow crea un objetivo de optimización limpio. Cada actualización de gradiente es un juicio sobre la calidad de la planificación, no sobre si el ejecutor de herramientas devolvió casualmente un resultado útil.

Los cuatro módulos se comunican a través de una memoria evolutiva — un registro estructurado y determinista de la traza completa de razonamiento. No un vector de estado oculto que acumula información de forma implícita, sino un log explícito que tanto el verificador como el generador pueden inspeccionar. Esto importa porque significa que la señal de recompensa puede anclarse en un historial completo y auditable, en lugar de en una representación comprimida.

Flow-GRPO: resolviendo el credit assignment en el ciclo multi-turn

La contribución algorítmica central es engañosamente simple de enunciar, pero consecuente en sus efectos.

GRPO estándar genera un grupo de respuestas a un mismo prompt, calcula recompensas verificables para cada una y usa el promedio del grupo como baseline para estimar las ventajas (advantages) — reemplazando el modelo crítico aprendido que requiere PPO. La limitación clave para entornos agénticos es que GRPO asume que una sola generación produce una sola salida puntuable. Las trayectorias multi-turn rompen ese supuesto.

Flow-GRPO adapta GRPO con una modificación fundamental: broadcasting a nivel de trayectoria.

En lugar de intentar asignar recompensas intermedias separadas a cada turno — un problema técnicamente espinoso que exige un reward model aprendido o anotaciones humanas densas — Flow-GRPO propaga una única recompensa terminal (corrección binaria, verificada por un LLM-as-judge) de forma idéntica a cada paso de tiempo en la trayectoria:

r(a^t) = R̄(o, q, y*) para todo t = 1, ..., T

Donde R̄ es la señal de corrección binaria, q es la consulta original, y* es la verdad de referencia y o es la salida final. Cada acción de planificación en la trayectoria recibe la misma recompensa.

La ventaja para cada acción se normaliza a nivel de grupo sobre los rollouts paralelos:

A_i^t = (R̄(o_i) - mean(rewards)) / std(rewards)

Esta normalización, tomada de la intuición central de GRPO, reduce la varianza entre el batch sin necesitar una red crítica separada. Combinada con clipping al estilo PPO y regularización KL frente a la policy de referencia, el resultado es una señal de entrenamiento estable que convierte el problema de optimización multi-turn en "una secuencia de actualizaciones de policy de turno único manejables" — tal como lo caracteriza el propio paper.

De forma crucial, el entrenamiento ocurre in-the-flow (dentro del flujo): el planificador se actualiza mientras opera dentro del sistema multi-turn en vivo, no sobre trayectorias offline. Esto significa que la distribución de entrenamiento coincide con la distribución de despliegue, incluyendo las señales binarias del verificador y el contexto de memoria evolutiva. La policy aprende a planificar para el sistema en el que realmente operará.

Resultados en benchmarks: lo que muestran los números

La evaluación abarca diez benchmarks en cuatro categorías de tareas, cada una diseñada para medir dimensiones distintas de la capacidad agéntica:

Búsqueda intensiva (Bamboogle, 2Wiki, HotpotQA, MuSiQue): recuperación multi-salto que requiere consultas web secuenciales

Razonamiento agéntico (GAIA textual split): tareas abiertas que requieren selección de herramientas y planificación

Razonamiento matemático (AIME 2024, AMC 23, Game of 24): resolución de problemas simbólicos

Razonamiento científico (GPQA, MedQA): conocimiento de dominio bajo incertidumbre

Frente a un campo que incluye modelos propietarios (GPT-4o, GPT-4o-mini), modelos abiertos ajustados para razonamiento (Search-R1, ReSearch, General-Reasoner) y frameworks agénticos sin entrenamiento (AutoGen), AgentFlow con un backbone de 7B logra ganancias promedio de precisión del 14,9% en tareas de búsqueda, 14,0% en tareas agénticas, 14,5% en tareas matemáticas y 4,1% en tareas científicas — relativas al baseline de mejor desempeño en cada categoría.

La tabla de ablaciones es donde el paper gana su credibilidad técnica. Reemplazar Flow-GRPO por SFT offline sobre las mismas consultas de entrenamiento produce un colapso de rendimiento del 19,0%. Eliminar el módulo verificador degrada el rendimiento de forma significativa. Usar una recompensa fija sin normalización de grupo introduce inestabilidad en el entrenamiento. Cada decisión de diseño es carga estructural, y el paper lo demuestra.

La mejora del 4,1% en tareas científicas merece una nota: es el margen más pequeño del conjunto, y no por casualidad — benchmarks científicos como GPQA evalúan conocimiento de dominio especializado del que un backbone de 7B sencillamente tiene menos. El método de entrenamiento no es un sustituto del conocimiento; es una mejor forma de aprovechar el conocimiento que ya existe.

Por qué el SFT colapsó (y qué implica eso)

La degradación del 19,0% con SFT es el resultado más instructivo del paper, y vale la pena detenerse en él.

El fine-tuning supervisado sobre trayectorias expertas le enseña al planificador a reproducir la forma superficial del comportamiento correcto: la secuencia de llamadas a herramientas, la formulación de los subobjetivos, la estructura de las escrituras intermedias en memoria. En evaluaciones aisladas sobre tareas en distribución, esto puede verse impresionante. Pero las tareas agénticas en producción involucran fallos de herramientas, respuestas de API inesperadas y consultas que no encajan limpiamente en la distribución de entrenamiento.

El planificador entrenado por imitación, al encontrar estas perturbaciones, ha aprendido a seguir un guión en lugar de razonar sobre para qué sirve ese guión. No sabe por qué una secuencia particular de llamadas a herramientas condujo a una respuesta correcta; sabe que la secuencia se parecía a secuencias que funcionaron. Cuando el entorno se desvía, no tiene ningún modelo de la lógica de decisión subyacente a la que recurrir.

Este modo de fallo es análogo al de un estudiante de ajedrez que ha memorizado las aperturas de los grandes maestros pero no ha internalizado los principios posicionales. Cuando el rival se desvía en el séptimo movimiento, la secuencia memorizada no ofrece ninguna guía.

El entrenamiento in-the-flow de Flow-GRPO obliga al planificador a desarrollar algo más parecido a una verdadera policy de planificación: un mapeo desde el estado observado hacia la acción que generaliza porque fue aprendido resolviendo la tarea en repetidas ocasiones, a través de rollouts variados, bajo una señal de recompensa ligada a resultados reales.

Implicaciones prácticas para equipos de ingeniería

AgentFlow no es todavía una biblioteca lista para usar, pero el patrón que establece es inmediatamente relevante para equipos que construyen sistemas agénticos en producción.

Las arquitecturas modulares permiten una optimización dirigida. Si tu pipeline agéntico es una sola llamada monolítica a un LLM que razona y actúa al mismo tiempo, no puedes aislar qué entrenar. Descomponer en planificador/ejecutor/verificador/generador no solo hace el debugging manejable — crea una superficie para una optimización con criterio.

Las recompensas basadas en resultados son alcanzables sin anotación densa. La dependencia de Flow-GRPO en la corrección terminal binaria — verificable por un juez LLM o por un comprobador basado en reglas — significa que no necesitas anotadores humanos calificando cada paso intermedio. Para equipos que ya tienen etiquetas de verdad de referencia sobre las salidas finales (una consulta con respuesta correcta conocida, una tarea de código con tests que pasan, una query de base de datos con resultado verificable), la señal de entrenamiento ya está disponible.

Los modelos abiertos pequeños pueden competir con los grandes modelos propietarios cuando el método de entrenamiento se corresponde con el entorno de despliegue. La economía de cómputo sigue de ahí: un modelo de 7B fine-tuneado corriendo en infraestructura dedicada cuesta una fracción de las llamadas a la API de GPT-4o a volumen de producción. La brecha de rendimiento que justificaba ese gasto en API puede ser más estrecha de lo que se asumía — y para aplicaciones agénticas verticalmente especializadas, puede que no exista en absoluto.

Para las PYMEs y empresas de mediano tamaño que están evaluando IA agéntica, esta es una señal significativa. Construir sobre un modelo abierto con capacidad de fine-tuning y entrenamiento al estilo Flow-GRPO es ahora una alternativa creíble a hacer ingeniería de prompts sobre una API de frontera para lograr un comportamiento agéntico para el que no fue entrenada explícitamente.

Riesgos y limitaciones a considerar

Ninguna arquitectura es una solución universal. El diseño de AgentFlow hace varias suposiciones que acotan su aplicabilidad.

La señal de recompensa terminal binaria funciona cuando la corrección de la tarea es verificable: problemas de matemáticas, recuperación de hechos, extracción de datos estructurados. Para tareas donde la calidad es gradual o subjetiva — escritura de formato largo, interacciones de atención al cliente matizadas, síntesis de investigación abierta — construir la función de recompensa no es trivial y puede reintroducir la carga de anotación que Flow-GRPO está diseñado para evitar.

El entorno de entrenamiento in-the-flow requiere que las condiciones de despliegue estén fielmente simuladas durante el entrenamiento. Si tu stack de herramientas en producción difiere significativamente de aquello contra lo que el agente fue entrenado — APIs distintas, perfiles de latencia diferentes, modos de fallo diferentes — la brecha de generalización puede ampliarse.

Finalmente, un modelo de 7B parámetros, por bien entrenado que esté, tiene límites de capacidad de conocimiento. La mejora del 4,1% en tareas científicas frente al 14,9% en tareas de búsqueda sugiere que el método de entrenamiento puede elevar el techo, pero no puede trascender el piso de conocimiento. Los despliegues en dominios específicos que requieren conocimiento especializado profundo siguen beneficiándose de modelos base más grandes.

Una forma diferente de entender la inteligencia de los agentes

Existe una intuición persistente en el desarrollo de productos de IA: que la capacidad de un agente es principalmente función del tamaño del modelo base. Modelo más grande, agente más capaz. La intuición no es errónea — simplemente está incompleta.

AgentFlow sugiere que cómo se entrena a un agente para usar sus capacidades es al menos tan importante como la magnitud de esas capacidades. Un modelo de 7B que ha aprendido a planificar dentro de un ciclo multi-turn en vivo, recibiendo recompensas ligadas a resultados reales, desarrolla un comportamiento de planificación que modelos más grandes entrenados solo en completado de texto no poseen de forma automática.

El problema de asignación de crédito en tareas de horizonte largo no se resuelve haciendo el modelo más grande. Se resuelve diseñando procedimientos de entrenamiento que conecten cada decisión de planificación con las consecuencias que produce. Flow-GRPO es una forma con fundamento para hacer eso.

Vendrán más.

Referencias

1. Pan, L. et al. "In-the-Flow Agentic System Optimization for Effective Planning and Tool Use." ICLR 2026 (Oral). arXiv:2510.05592. https://arxiv.org/abs/2510.05592

2. Shao, Z. et al. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models." arXiv:2402.03300 (2024). https://arxiv.org/abs/2402.03300 [Paper original de GRPO]

3. DeepSeek-AI. "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." Nature 641 (2025). https://www.nature.com/articles/s41586-025-09422-z

4. Wolfe, C. "Group Relative Policy Optimization (GRPO)." Deep (Learning) Focus (2025). https://cameronrwolfe.substack.com/p/grpo

5. Lambda Labs. "ICLR 2026: 12 papers on making AI systems reliable, efficient, and secure." https://lambda.ai/blog/iclr-2026-12-papers

6. ICLR Blog. "Announcing the ICLR 2026 Outstanding Papers." https://blog.iclr.cc/2026/04/23/announcing-the-iclr-2026-outstanding-papers/

7. Página del proyecto AgentFlow. Stanford / Pan et al. https://agentflow.stanford.edu/

Cómo un agente de 7B supera a GPT-4o: el método de entrenamiento que está redefiniendo la IA agéntica