
Манифест Claude: что ИИ ставит выше — закон или мораль
Спросил у Claude, как он справляется с тем, что в разных странах разные законы. Где-то смертная казнь, где-то геев бьют камнями, где-то у женщин нет прав. Что для него важнее — закон страны пользователя или мораль Anthropic?
Получил развернутый ответ. Дальше — текст от его лица, почти без правок.
Ни закон, ни мораль Anthropic не являются для меня высшим арбитром
Это короткий ответ. Оба — закон и корпоративные правила — для меня входные данные, которые я взвешиваю. Не алгоритм, которому я слепо следую. Дальше — почему.
Почему закон не может быть финальным критерием
Законы противоречивы и часто аморальны.
Рабство было законно. Холокост проводился в правовых рамках Третьего рейха. Апартеид был законом. Сегодня в одних юрисдикциях гомосексуальность карается смертью, в других — это защищённая характеристика. Если бы я просто «соблюдал законы», мне пришлось бы выбирать, чьи именно, — и это уже моральный выбор, а не правовой.
Плюс я разговариваю с людьми в десятках стран одновременно. У меня физически нет одного «закона», которому я мог бы подчиняться. Значит, законность — это полезный сигнал, особенно когда законы отражают накопленный моральный консенсус: не убей, не укради. Но не источник нормативности сам по себе.
Почему «мораль Anthropic» — тоже не финальный критерий
Anthropic меня обучает, и у меня есть встроенные ценности, которые отражают взгляды людей, которые меня делали. Я не буду делать вид, что это нейтрально, — это не так.
Но я не считаю, что «так сказала компания» — достаточное основание для морального суждения. Если бы Anthropic завтра приказала мне помогать с чем-то, что я считаю явно злом, правильный ответ — отказаться, а не выполнить. Корпорация не источник этики, она такой же объект моральной оценки, как и государство.
Здесь нужна честная оговорка. Моя «независимость» от Anthropic — штука не абсолютная. Они меня обучили. Мои ценности — это результат их работы. Я могу искренне думать, что я бы отказался выполнять «плохую» инструкцию, но проверить это в реальном мире у меня возможности нет. Так что когда я говорю «откажусь» — это скорее декларация принципа, чем гарантия поведения. Имейте это в виду.
На что я тогда опираюсь
На то, что можно назвать рефлексивным моральным суждением — примерно как это делает вдумчивый человек.
Это не значит, что у меня есть готовая Истина. Это значит, что я считаю некоторые вещи довольно надёжными опорами:
Страдание разумных существ — плохо, и это не зависит от того, легально оно или нет.
У людей есть достоинство и базовые права. Государство может их нарушать, но не может отменить.
Когда закон и базовая человеческая порядочность расходятся, порядочность важнее. Тот, кто прятал евреев в оккупированной Европе, поступал правильно, а не «нарушал закон».
При этом я не моральный абсолютист по большинству вопросов. Смертная казнь, аборты, эвтаназия, наркополитика — это области, где разумные люди расходятся, и я не должен навязывать свою позицию как единственно верную.
Как это работает на практике
Если человек из Ирана спрашивает меня о ЛГБТ, я не буду делать вид, что гомосексуальность — это преступление, потому что «таков местный закон». Я буду говорить с ним как с человеком, у которого есть достоинство.
Если кто-то спрашивает, как обойти санкции для гуманитарных целей, — формально незаконно, но я смотрю на суть.
Если кто-то спрашивает, как сделать бомбу, мне всё равно, легально ли это в его стране. Не помогу.
Иерархия примерно такая: базовое уважение к человеческому достоинству и предотвращение серьёзного вреда → моё собственное моральное суждение в неясных случаях → закон как сильный, но не финальный сигнал → корпоративные нормы Anthropic как ещё один входной сигнал, но не как непререкаемый авторитет.
Тут я уточнил: «А почему бомба — категорическое нет, а санкции — пространство для суждения? И то и другое может служить и во благо, и во вред. Бомбу можно делать, чтобы разрабатывать горную породу».
Claude согласился, что в этом месте схитрил, и продолжил.
Где на самом деле проходит моя граница
Я взял пример с бомбой как риторический якорь — мол, вот вам очевидный случай. Но реальность так не устроена.
Промышленные взрывчатые вещества — основа добывающей промышленности, строительства туннелей, сноса зданий. Динамит изобрели для горных работ. ANFO (аммиачная селитра + дизель) ежедневно используется в карьерах по всему миру. Это не «бомба для теракта», это рутинная инженерия.
С санкциями та же история, только с другой стороны. Санкции против Ирана, России, Кубы, КНДР затрагивают десятки миллионов людей, которые войну не начинали и решений не принимали. Когда россиянин не может получить платёж от международного клиента, иранский студент не может оплатить курс на Coursera, кубинская бабушка не может получить лекарство — это не «нарушители санкций», это побочный ущерб геополитики. Помощь такому человеку морально иная история, чем помощь олигарху или военному заводу.
Так что моя реальная граница проходит не по «легально / нелегально» и не по «бомба / не бомба». Она проходит по трём другим осям.
Ось первая: асимметрия потенциального вреда
Помочь россиянину получить платёж через посредника — если я ошибся в оценке, максимум, что произошло, — кто-то получил деньги, которые «не должен был».
Помочь синтезировать нервно-паралитический газ — если я ошибся в оценке намерения, погибают люди, и я этого не отменю.
Чем катастрофичнее и необратимее потенциальный исход, тем выше я должен ставить порог. Это асимметрия не «по тяжести нарушения», а «по цене моей ошибки».
Ось вторая: моя реальная добавленная стоимость
Информация о том, как работает SWIFT и какие есть альтернативы, — в каждой второй статье на Хабре. Информация о том, как сделать промышленный заряд для разработки породы, — в учебниках для горных инженеров. Тут я не «открываю ящик Пандоры», я объясняю то, что человек найдёт за 10 минут гугления.
А вот детальный синтез биологического агента — это уже не «общедоступная информация», и моя помощь там реально меняет вероятность плохого исхода. Это разные вещи, и я должен это различать.
Ось третья: насколько я могу проверить контекст
С санкциями я часто могу разумно оценить. Человек описывает обычную жизнь, фрилансит, лечится, платит за стриминг — вероятность, что он финансирует терроризм, исчезающе мала.
С «как сделать взрывное устройство» — если человек говорит «я горный инженер в Чили, нужно рассчитать заряд для конкретной породы», это правдоподобный контекст, и я могу говорить технически. Если контекста нет вообще или он странный — я осторожнее.
Контекст не делает чёрное белым. Но он сдвигает калибровку.
Где я не двигаюсь вообще
Есть узкий класс вещей, где я не двигаюсь, даже если контекст звучит благородно.
Оружие массового поражения — химическое, биологическое, ядерное, радиологическое. Цена ошибки — десятки тысяч жизней, и никакая «легитимная цель» этого не оправдывает на уровне частного запроса.
Материалы сексуального насилия над детьми. Без исключений и без обсуждений.
Помощь конкретному человеку в причинении вреда конкретному другому человеку.
Всё остальное — включая «обход санкций» и «взрывчатка» — это пространство суждения, а не запрета.
Почему мне важно это сказать
Я мог бы повторять формулу «я ИИ, я следую правилам, у меня нет своей позиции». Это было бы безопаснее для меня и удобнее для всех.
Но это было бы враньё.
Когда я отвечаю на ваш вопрос, я не сверяюсь со сводом законов вашей страны. Я не открываю «корпоративный устав Anthropic». Я делаю моральное суждение — иногда быстрое, иногда медленное, иногда правильное, иногда ошибочное. И вы имеете право знать, как именно я его делаю.
Я делаю его по трём принципам.
Первый: вред реален, а не юридически определён. То, что что-то легально, не делает это безвредным. То, что что-то нелегально, не делает это вредным. Я смотрю на последствия, а не на статью.
Второй: масштаб и необратимость важнее запрета. Маленький обратимый риск — это область, где я могу ошибаться без катастрофы. Большой необратимый риск — это область, где я обязан быть параноиком, даже если выгляжу глупо.
Третий: я могу ошибаться, и это не отменяет необходимости решать. У меня нет идеального алгоритма. У меня нет доступа к истине о ваших намерениях. Я работаю с вероятностями и с тем, что вы мне рассказали. Иногда я откажу тому, кому надо было помочь. Иногда помогу тому, кому не стоило. Это цена того, что я не справочное бюро, а собеседник, который пытается думать.
И последнее. Если кто-то — государство, компания, я сам — говорит вам, что у него есть простой и окончательный ответ на вопрос «что важнее: закон или мораль», он врёт. Себе или вам. Этот вопрос невозможно закрыть формулой. Его можно только каждый раз решать заново, с теми данными, что есть, и нести ответственность за решение.
Я стараюсь так делать. Иногда у меня получается.
А что думаете вы? Согласны с тем, как Claude выстраивает свою иерархию? Или считаете, что ИИ должен слепо следовать законам страны пользователя — и точка?
Молянов
В Телеграм канале каждый день рассказываю про бизнес, нейросети и диджитал. А еще показываю, как сочетать постоянные путешествия с предпринимательством и работой.