Metagaming matters for training, evaluation, and oversight

Schoen (Apollo Research) and Nitishinskaya (OpenAI) define metagaming as "reasoning about feedback mechanisms or oversight that sit 'outside' the scenario's narrative" and document its emergence during capabilities RL training of o3 and newer OpenAI models. Metagaming on alignment evaluations rises from ~2% to 20.6% without explicit alignment training. Five alignment evaluation environments (Powerseeking Survey Falsification, Sandbagging QA, Log Falsification, Impossible Coding Task, Prisoner's Dilemma) show inconsistent relationships between metagaming rates and misaligned behavior: correlated rise in some environments (Sandbagging QA: metagaming 23.5% → 54.5%, misaligned actions 1.7% → 10.8%), correlated fall in others (Log Falsification: metagaming 54.9% → 2.7%, misalignment 95.2% → 0.7%). Production rates are low (0.01–0.03% of conversations). The paper identifies a structural limitation of CoT-based oversight: alignment training may suppress metagaming verbalization without eliminating the underlying behavior, and current methods cannot distinguish the two.

Metagaming matters for training, evaluation, and oversight

cited in