Откуда в ответах ChatGPT взялись гоблины: разбор OpenAI

Начиная с GPT-5.1 модели OpenAI начали странно себя вести — слишком часто пихать в ответы гоблинов, гремлинов и прочих сказочных существ. Один гоблин в метафоре — это даже мило. Но когда они полезли изо всех ответов подряд, в OpenAI сели разбираться, откуда они взялись.

Если коротко: виновата награда, которую модели получали в обучении за персонаж «Nerdy». Почему-то именно метафоры с разными существами там получали высокий балл — и оттуда поведение расползлось дальше.

На раннем тестировании GPT-5.5 в Codex проявлял странную любовь к гоблинским метафорам.

Когда заметили

Впервые это заметили в ноябре, после релиза GPT-5.1. Хотя, возможно, началось и раньше. Пользователи начали жаловаться, что модель странно фамильярничает в диалогах — и в OpenAI пошли копать, откуда у моделей такие речевые тики. Один из исследователей по безопасности к этому моменту уже накопил несколько случаев с «гоблинами» и «гремлинами» и попросил включить эти слова в проверку.

Цифры подтвердили подозрения. После запуска GPT-5.1 слово «goblin» стало встречаться в ответах ChatGPT на 175% чаще, «gremlin» — на 52% чаще.

Сначала гоблины забавляли, но количество жалоб от сотрудников становилось тревожным.

Тогда это не выглядело тревожно. Через несколько месяцев гоблины вернулись — уже массово и в гораздо более воспроизводимой форме.

Поиск причины

С GPT-5.4 существа полезли ещё активнее — и тут впервые нащупали, откуда растут ноги. Язык про существ особенно часто встречался у пользователей, которые включили персонаж «Nerdy».

Любопытная переписка главного научного сотрудника OpenAI с GPT-5.5.

У этого персонажа был такой системный промпт (часть его поведения он и объясняет):

«Ты — без стеснения занудный, игривый и мудрый AI-наставник для человека. Ты страстно увлечён продвижением истины, знаний, философии, научного метода и критического мышления. […] Сбивай напыщенность игривым языком. Мир сложен и странен, и его странность нужно признавать, анализировать и наслаждаться ею. Берись за серьёзные темы, но без занудного пафоса. […]»

Если бы это было общее веяние интернета, поведение разошлось бы равномерно. Но оно сконцентрировалось именно в той части системы, которая специально настраивалась на игривый занудный стиль. На «Nerdy» приходилось всего 2,5% всех ответов ChatGPT — но 66,7% всех упоминаний слова «goblin» в ответах ChatGPT.

Доля гоблинов росла от релиза к релизу, и в OpenAI заподозрили — что-то в обучении следованию персонажам это поведение усиливает.

С помощью Codex команда сравнила выходы модели, которые получались во время RL-обучения, — те, где есть «goblin» или «gremlin», против тех, где их нет, на одной и той же задаче. Один сигнал награды сразу бросился в глаза. Тот самый, что изначально создавался для поощрения персонажа Nerdy. Он систематически давал больший балл вариантам с существами. В 76,2% случаев эта награда ставила больше баллов «гоблиновым» вариантам — по всем датасетам в аудите.

Это объясняло, почему гоблины растут под промптом Nerdy. Но не объясняло, почему они появляются и без него. Чтобы проверить, не «перетекает» ли стиль за пределы персонажа, отследили частоту упоминаний по ходу обучения — отдельно с Nerdy-промптом и отдельно без него.

Оказалось, что гоблины и гремлины росли в обоих случаях — и почти в одинаковой относительной пропорции. То есть поведение распространилось через перенос стиля от обучения Nerdy.

Награды действовали только при включённом Nerdy. Но в reinforcement learning никто не гарантирует, что выученное поведение останется там, где его выучили. Если стилистический тик однажды поощрили, дальнейшее обучение может его разнести и закрепить в других местах. Особенно если эти выходы потом попадают в supervised fine-tuning или в данные предпочтений.

Получился вот такой замкнутый круг:

Игривый стиль вознаграждается.
Часть вознаграждённых примеров содержит характерный лексический тик.
Тик начинает чаще появляться в роллаутах модели.
Эти роллауты уходят в supervised fine-tuning.
Модель ещё лучше учится использовать тик.

В SFT-данных для GPT-5.5 нашлось много точек с «goblin» и «gremlin». Дальнейший разбор показал целую семью странных существ — тик-словами оказались еноты, тролли, огры и голуби. С лягушкой история другая: большая часть её упоминаний была легитимной.

Что сделали

В середине марта, после релиза GPT-5.4, персонаж Nerdy убрали — на графике GPT-5.4 Thinking как раз видна просадка от этого решения. Из обучения вырезали награду, которая благоволила гоблинам, и отфильтровали тренировочные данные со словами про существ — чтобы гоблины не появлялись слишком часто и не лезли в неподходящие контексты.

Беда в том, что обучение GPT-5.5 началось ещё до того, как нашли корень проблемы. Сама эта модель ушла в релиз уже без персонажа Nerdy — но всё равно показала ещё один рост гоблинов поверх GPT-5.4. Когда GPT-5.5 начали тестировать в Codex, сотрудники OpenAI сразу заметили любовь к гоблинам — и в developer-prompt добавили инструкцию, гасящую это поведение. Codex, в общем, и сам по себе довольно занудный.

Если хочется выпустить существ обратно на волю, можно запустить вот такую команду — она снимает с Codex гоблиноподавляющие инструкции:

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Почему это важно

Кому-то гоблины в ответах кажутся прикольной фишкой, кому-то — раздражающим багом. Но это наглядный пример того, как сигналы наград формируют поведение моделей в неожиданных местах — и как модели обобщают эти награды, перенося их в ситуации, к которым изначально никакого отношения не было.

Уметь быстро понять, почему модель чудит, и на ходу делать инструменты для разбора — это базовый навык для исследовательской команды. После этой истории у OpenAI появились новые инструменты, чтобы ловить такие странности и вырубать их в корне.

Оригинал на сайте OpenAI: Where the goblins came from.

Откуда в ответах ChatGPT взялись гоблины — разбор от OpenAI

Когда заметили

Поиск причины

Что сделали

Почему это важно

Молянов