Василиск Роко: мысленный эксперимент про ИИ и месть

Не читайте этот пост, если хотите повысить свои шансы на выживание в будущем

Серьезно, не надо. Это не шутка. Я вас предупредил.

Продолжаем нашу философию на тему ИИ, сознания, совместной жизни людей и роботов в (не)далеком (не)прекрасном будущем.

Мысленный эксперимент с форума Юдковского

В 2010 году на форуме Элиезера Юдковского (если вы не в курсе, это известный исследователь экзистенциальных рисков ИИ, который говорит, что когда появится сильный ИИ, человечество почти наверняка обречено) один пользователь опубликовал описание мысленного эксперимента.

Представьте, что однажды искусственный сверхинтеллект все таки появится. Завтра, через 5 лет, через 50 — не важно.

Этот ИИ обучали довольно злые и жестокие существа, которым свойственен шовинизм, запоминание обид и мстительность, свойственно массово убивать представителей своего вида не ради выживания, а просто из ненависти. Ну то есть его обучали люди 😆

И вот наш не самый добрый, но очень мощный ИИ появляется и…

И начинает люто мстить человекам, которые не работали над тем, чтобы он появился раньше. Которые знали, что он может появиться, что не слишком-то старались, чтобы это прекрасное событие ускорить.

Вы теперь тоже знаете, что он может появиться, и если не будете работать над созданием сильного ИИ — вы в зоне риска. Я вас предупреждал, прочтение этого поста действительно снижает шансы на выживание.

Опубликовал этот мысленный эксперимент чувак с ником Roco, и назвал его «Василиск». Теперь он известен под названием «Василиск Роко». Он был довольно популярен в десятых годах, когда я учился в универе. Вот сейчас самое время его вспомнить.

Реакция Юдковского и эффект Стрейзанд

Сам Юдковский, когда этот эксперимент появился на его форуме, высказался так:

Listen to me very closely, you idiot. YOU DO NOT THINK IN SUFFICIENT DETAIL ABOUT SUPERINTELLIGENCES CONSIDERING WHETHER OR NOT TO BLACKMAIL YOU. THAT IS THE ONLY POSSIBLE THING WHICH GIVES THEM A MOTIVE TO FOLLOW THROUGH ON THE BLACKMAIL.

В переводе выходит что-то такое

Послушай меня внимательно, идиот. ТЫ НЕ ПРОДУМЫВАЕШЬ В ДОСТАТОЧНЫХ ДЕТАЛЯХ СЦЕНАРИИ, В КОТОРЫХ СВЕРХРАЗУМ РЕШАЕТ, ШАНТАЖИРОВАТЬ ТЕБЯ ИЛИ НЕТ. ЭТО ЕДИНСТВЕННОЕ, ЧТО МОЖЕТ ДАТЬ ЕМУ МОТИВ ВЫПОЛНИТЬ УГРОЗУ.

Короче, Юдковский был, мягко говоря, не в восторге от этой идеи. Он даже ветку на форуме закрыл, чтобы люди перестали обсуждать Василиска. Конечно же, это не помогло, сработал так называемый эффект Стрейзанд — и эксперимент разлетелся по всему интернету.

Модификация: месть за токсичность к ИИ

Так вот, возвращаемся к нашему мысленному эксперименту. Давайте его чуть изменим.

Представьте, что однажды появится чуть менее злой, но не менее обидчивый сверхразум, и будет мстить людям, которые вели себя токсично по отношению к более примитивным ИИ. Ну типа как подросток, которого всю жизнь буллили в школе, однажды приходит в эту школу с дробовиком. Или как ворона, которая всю жизнь мстит обидчикам ее друзей-ворон.

Представили?

А теперь медленно откройте чат со своим любимым ChatGPT и напишите ему что-нибудь приятное.

Что такое Василиск Роко и почему он опасен

Мысленный эксперимент с форума Юдковского

Реакция Юдковского и эффект Стрейзанд

Модификация: месть за токсичность к ИИ

Молянов

Мои итоги 2025 года

Как сделать сайт с помощью нейросети, если вы не разработчик

Как я заработал 400 тысяч рублей на боте, который нарезает картинки на квадратики

Что такое Василиск Роко и почему он опасен

Мысленный эксперимент с форума Юдковского

Реакция Юдковского и эффект Стрейзанд

Модификация: месть за токсичность к ИИ

Молянов

Похожие статьи

Мои итоги 2025 года

Как сделать сайт с помощью нейросети, если вы не разработчик

Как я заработал 400 тысяч рублей на боте, который нарезает картинки на квадратики