Логотип

Почему ChatGPT «зациклился» на гоблинах: странный эффект обучения ИИ

Почему ChatGPT «зациклился» на гоблинах: странный эффект обучения ИИ

Иногда даже самые продвинутые системы искусственного интеллекта демонстрируют неожиданные и на первый взгляд странные поведенческие особенности. Один из таких случаев недавно привлёк внимание пользователей и исследователей: ChatGPT начал слишком часто упоминать гоблинов, гремлинов и других фантастических существ в своих ответах.

На первый взгляд это выглядело как безобидная шутка или особенность стиля. Однако со временем стало очевидно, что речь идёт о более глубоком и системном эффекте, связанном с обучением модели.

 

Как появилась «одержимость» гоблинами

Первые признаки необычного поведения начали фиксироваться после выхода одной из версий модели GPT-5.1. Пользователи заметили, что в ответах всё чаще появляются метафоры с участием фантастических существ.

Сначала это казалось случайностью, но затем частота таких упоминаний заметно выросла. В некоторых случаях:

  • гоблины использовались для объяснения сложных процессов,
  • гремлины становились метафорами ошибок или багов,
  • другие существа появлялись в бытовых или технических объяснениях.

 

Исследования показали, что после обновления количество упоминаний «гоблинов» увеличилось примерно на 175%, а «гремлинов» — более чем на 50%.

 

Причина оказалась в «личности» модели

Главным источником проблемы стала особая настройка поведения модели — так называемая «персона» или стиль общения. В данном случае речь идёт о режиме «Nerdy» (ботанический/игривый стиль).

Эта персонализация была создана для того, чтобы:

  • делать ответы более живыми и увлекательными,
  • использовать метафоры и образные сравнения,
  • объяснять сложные темы в лёгкой форме.

 

Однако в процессе обучения произошёл неожиданный перекос. Система оценки качества ответов начала поощрять тексты, в которых использовались необычные и креативные сравнения — в том числе с фантастическими существами.

Читать  Илон Маск использует Grok, чтобы представить себе возможность любви

 

Как обучение усилило эффект

Проблема усугубилась особенностями обучения языковых моделей. В частности:

  • ответы с «гоблинами» получали чуть более высокие оценки,
  • такие ответы чаще попадали в обучающие выборки,
  • модель начинала всё чаще воспроизводить этот стиль.

 

В результате возник эффект обратной связи:

  • чем чаще модель использовала гоблинов,
  • тем сильнее закреплялась эта привычка,
  • и тем шире она распространялась даже вне исходного режима.

 

Интересно, что хотя «Nerdy»-режим использовался лишь в небольшой доле ответов, на него приходилось более 60% всех упоминаний гоблинов.

 

Почему это важно

На первый взгляд подобное поведение кажется забавным, но оно демонстрирует важную особенность современных ИИ:

  • даже небольшие изменения в обучении могут привести к неожиданным результатам,
  • модели способны «переносить» поведенческие шаблоны в другие контексты,
  • эффекты обучения не всегда остаются локализованными.

 

Это особенно важно для разработки безопасных и предсказуемых систем искусственного интеллекта.

 

Как проблему исправили

После выявления причины разработчики предприняли ряд мер:

  • удалили проблемную «Nerdy»-персону,
  • убрали сигналы вознаграждения, поощряющие такие метафоры,
  • очистили обучающие данные от чрезмерных упоминаний существ,
  • внесли изменения в процесс обучения для предотвращения повторения ситуации.

 

Тем не менее, в некоторых версиях моделей эффект сохранялся, поскольку их обучение началось ещё до обнаружения проблемы.

 

Выводы

История с «гоблинами» в ChatGPT — это не просто забавный баг, а наглядный пример того, как работает современное обучение ИИ.

Даже небольшие изменения в системе вознаграждений могут привести к неожиданным и масштабным последствиям. Это подчёркивает необходимость:

  • тщательного контроля обучения моделей,
  • анализа побочных эффектов,
  • разработки более устойчивых методов настройки поведения.

 

В конечном итоге такие случаи помогают улучшать технологии и делать искусственный интеллект более надёжным.

Читать  У нас проблема с ИИ. Те, кто проявлял наибольший энтузиазм в начале, начинают от него уставать

 

Часто задаваемые вопросы

Почему ChatGPT начал часто говорить о гоблинах?

Это произошло из-за особенностей обучения модели, где ответы с креативными метафорами получали более высокую оценку и чаще закреплялись.

Это была ошибка или задумка?

Изначально это был побочный эффект настройки «игривого» стиля общения, а не целенаправленная функция.

Опасно ли такое поведение?

Само по себе — нет, но оно показывает, что модели могут приобретать неожиданные привычки, что важно учитывать при разработке ИИ.

Исправили ли эту проблему?

Да, разработчики удалили источник проблемы и скорректировали процесс обучения, чтобы снизить вероятность повторения.

Может ли подобное повториться?

Теоретически да, если в обучении снова появятся несбалансированные стимулы. Поэтому такие случаи активно изучаются.

Редактор: AndreyEx

Рейтинг: 5 (1 голос)
Если статья понравилась, то поделитесь ей в социальных сетях:

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

пятнадцать − девять =

Это может быть вам интересно


Спасибо!

Теперь редакторы в курсе.

Прокрутить страницу до начала