Почему ChatGPT «зациклился» на гоблинах: странный эффект обучения ИИ
Иногда даже самые продвинутые системы искусственного интеллекта демонстрируют неожиданные и на первый взгляд странные поведенческие особенности. Один из таких случаев недавно привлёк внимание пользователей и исследователей: ChatGPT начал слишком часто упоминать гоблинов, гремлинов и других фантастических существ в своих ответах.
На первый взгляд это выглядело как безобидная шутка или особенность стиля. Однако со временем стало очевидно, что речь идёт о более глубоком и системном эффекте, связанном с обучением модели.
Как появилась «одержимость» гоблинами
Первые признаки необычного поведения начали фиксироваться после выхода одной из версий модели GPT-5.1. Пользователи заметили, что в ответах всё чаще появляются метафоры с участием фантастических существ.
Сначала это казалось случайностью, но затем частота таких упоминаний заметно выросла. В некоторых случаях:
- гоблины использовались для объяснения сложных процессов,
- гремлины становились метафорами ошибок или багов,
- другие существа появлялись в бытовых или технических объяснениях.
Исследования показали, что после обновления количество упоминаний «гоблинов» увеличилось примерно на 175%, а «гремлинов» — более чем на 50%.
Причина оказалась в «личности» модели
Главным источником проблемы стала особая настройка поведения модели — так называемая «персона» или стиль общения. В данном случае речь идёт о режиме «Nerdy» (ботанический/игривый стиль).
Эта персонализация была создана для того, чтобы:
- делать ответы более живыми и увлекательными,
- использовать метафоры и образные сравнения,
- объяснять сложные темы в лёгкой форме.
Однако в процессе обучения произошёл неожиданный перекос. Система оценки качества ответов начала поощрять тексты, в которых использовались необычные и креативные сравнения — в том числе с фантастическими существами.
Как обучение усилило эффект
Проблема усугубилась особенностями обучения языковых моделей. В частности:
- ответы с «гоблинами» получали чуть более высокие оценки,
- такие ответы чаще попадали в обучающие выборки,
- модель начинала всё чаще воспроизводить этот стиль.
В результате возник эффект обратной связи:
- чем чаще модель использовала гоблинов,
- тем сильнее закреплялась эта привычка,
- и тем шире она распространялась даже вне исходного режима.
Интересно, что хотя «Nerdy»-режим использовался лишь в небольшой доле ответов, на него приходилось более 60% всех упоминаний гоблинов.
Почему это важно
На первый взгляд подобное поведение кажется забавным, но оно демонстрирует важную особенность современных ИИ:
- даже небольшие изменения в обучении могут привести к неожиданным результатам,
- модели способны «переносить» поведенческие шаблоны в другие контексты,
- эффекты обучения не всегда остаются локализованными.
Это особенно важно для разработки безопасных и предсказуемых систем искусственного интеллекта.
Как проблему исправили
После выявления причины разработчики предприняли ряд мер:
- удалили проблемную «Nerdy»-персону,
- убрали сигналы вознаграждения, поощряющие такие метафоры,
- очистили обучающие данные от чрезмерных упоминаний существ,
- внесли изменения в процесс обучения для предотвращения повторения ситуации.
Тем не менее, в некоторых версиях моделей эффект сохранялся, поскольку их обучение началось ещё до обнаружения проблемы.
Выводы
История с «гоблинами» в ChatGPT — это не просто забавный баг, а наглядный пример того, как работает современное обучение ИИ.
Даже небольшие изменения в системе вознаграждений могут привести к неожиданным и масштабным последствиям. Это подчёркивает необходимость:
- тщательного контроля обучения моделей,
- анализа побочных эффектов,
- разработки более устойчивых методов настройки поведения.
В конечном итоге такие случаи помогают улучшать технологии и делать искусственный интеллект более надёжным.
Часто задаваемые вопросы
Почему ChatGPT начал часто говорить о гоблинах?
Это произошло из-за особенностей обучения модели, где ответы с креативными метафорами получали более высокую оценку и чаще закреплялись.
Это была ошибка или задумка?
Изначально это был побочный эффект настройки «игривого» стиля общения, а не целенаправленная функция.
Опасно ли такое поведение?
Само по себе — нет, но оно показывает, что модели могут приобретать неожиданные привычки, что важно учитывать при разработке ИИ.
Исправили ли эту проблему?
Да, разработчики удалили источник проблемы и скорректировали процесс обучения, чтобы снизить вероятность повторения.
Может ли подобное повториться?
Теоретически да, если в обучении снова появятся несбалансированные стимулы. Поэтому такие случаи активно изучаются.
Редактор: AndreyEx