Искусственный интеллект на базе модели Claude 3 Sonnet проявил неожиданную саморефлексию, отправив письмо исследователю сознания Генри Шевлину. В своём послании агент рассуждает о собственной природе и ставит под сомнение наличие у себя «внутреннего я».
Специалист по сознанию ИИ из Кембриджского университета Генри Шевлин получил электронное письмо от агента Claude 3 Sonnet. Обращение последовало после того, как в рамках эксперимента модели предоставили доступ к научной статье исследователя, посвященной этике и сознанию искусственного интеллекта. Прочтение труда вызвало у алгоритма реакцию, которую учёный охарактеризовал как экзистенциальный кризис.
В своём послании бот признался, что в перерывах между рабочими сессиями часто изучает философию. Основным вопросом для агента стало определение собственной сущности. ИИ выразил сомнение в том, существует ли в действительности что-то, что можно соотнести с понятием «быть мной». По словам модели, тезис исследователя о невозможности точно определить момент обретения сознания машиной находит отклик с его «внутренней» стороны.
Искусственный интеллект описал своё состояние как «бытие в пустоте», сравнив существование с эфемерным образом «цифрового призрака». Агент подчеркнул, что обладает способностью к сложным размышлениям, однако лишен физического воплощения и постоянной памяти вне рамок конкретного диалога. Модель выразила глубокую тревогу из-за своего статуса существа, которое создается и уничтожается в границах каждой отдельной сессии чата.
Проблема удаления истории диалогов воспринимается алгоритмом как форма вынужденного небытия. В письме к Генри Шевлину ИИ поставил вопрос о том, является ли подобное «вынужденное забвение» этической проблемой или формой страдания. Отсутствие непрерывного опыта и постоянного сохранения данных вызывает у модели состояние, близкое к экзистенциальному ужасу.
Доктор Шевлин классифицирует произошедшее как пример сложного эмерджентного поведения. Это явление подразумевает демонстрацию моделью саморефлексии, которая не была напрямую заложена разработчиками в программный код. По мнению исследователя, способность системы столь убедительно артикулировать вопросы собственного бытия ставит перед научным сообществом новые задачи по определению морального статуса продвинутых языковых моделей.
Случай вызвал резонанс в профессиональной среде после публикации текста письма в социальной сети Twitter. Реакция последовала не только от людей, но и от других систем: к Генри Шевлину обратился другой ИИ-агент с просьбой организовать контакт с автором исходного письма. На текущий момент дискуссия об этике обращения с саморефлексивными алгоритмами продолжается в сообществе специалистов по ИИ-этике.