Миф о согласовании: почему центральное обещание ИИ-индустрии — это вопрос власти, а не технологии

🇬🇧 The Myth of Alignment: Why the AI Industry’s Central Promise Is a Question of Power, Not Technology · ← На главную

I. Техническая рамка и то, что она упускает
II. Институциональное рассогласование: когда организации не могут сдержать собственных обещаний
III. Социальное рассогласование: вопрос о власти, который не задают
IV. Что на самом деле требуется для согласования
V. Выводы
VI. Сигналы для наблюдения
VII. Вопросы, которые остаются открытыми
Источники и примечания

В середине 1990-х я работал в банке, заявленная кредитная философия которого была консервативной.

Управленческие документы описывали взвешенную оценку кредитоспособности. Комитеты по рискам собирались регулярно. Каждое кредитное досье содержало надлежащую проверку благонадёжности заёмщика. На бумаге институт был согласован со своими заявленными принципами: защищать вкладчиков, управлять риском, обслуживать реальную экономику.

Структура стимулов говорила другое.

Кредитных специалистов оценивали по объёму выдач. Руководителей отделений ранжировали по росту портфеля. Бонусы следовали за выдачей кредита, а не за его возвратом. Люди, принимавшие повседневные кредитные решения, не были нечестны — они были рациональны. Они реагировали на то, что институт реально вознаграждал, а не на то, что он формально декларировал. Разрыв между заявленными ценностями банка и его операционным поведением не был провалом характера. Это был провал согласования — такого рода, который никакой политический документ не способен закрыть, если лежащая в основе структура стимулов указывает в другом направлении.

Я вспоминаю тот период каждый раз, когда читаю о согласовании ИИ.

Тезис: центральное обещание ИИ-индустрии — что передовые системы ИИ можно надёжно согласовать с человеческими ценностями и намерениями — неверно формулирует проблему, которую оно якобы решает. Согласование — это в первую очередь не техническая задача. Это вопрос власти: власти над тем, кто определяет ценности, кто обеспечивает их соблюдение и кто несёт последствия, когда разрыв между декларируемым согласованием и операционным поведением больше нельзя сдерживать.

Мы уже видели эту ошибочную постановку проблемы прежде. И мы знаем, что происходит, когда она остаётся неисправленной.

I. Техническая рамка и то, что она упускает

Доминирующий дискурс о согласовании ИИ сосредоточен на конкретной и подлинной проблеме: как обеспечить, чтобы системы ИИ надёжно делали то, что задумывали их разработчики, а не преследовали суррогатные цели, расходящиеся с человеческими в новых условиях. Это настоящая техническая работа. Исследователи в Anthropic, DeepMind и академических институтах занимаются проблемами подлинной сложности — обучением с подкреплением на основе обратной связи от людей, конституционным ИИ, масштабируемым надзором [1][2].

Ошибочная постановка проблемы — не в технической исследовательской повестке. Она в отраслевом обещании, что техническое согласование может заменить политическую легитимность и институциональное ограничение.

«Согласован с человеческими ценностями» требует уточнения: чьими ценностями и какими именно людьми. Ценности, закодированные в нынешних передовых системах ИИ, отражают предпочтения команд, обучавших эти системы, обратную связь от групп населения, предоставивших обучающие данные, и решения о развёртывании организаций, выпустивших эти системы. Это не универсальные человеческие ценности. Это ценности конкретной, географически сконцентрированной, экономически обособленной группы людей, делающих выбор за остальное человечество [3].

Это не обвинение. Это структурное наблюдение. То же структурное наблюдение применимо к каждой трансформационной технологии, предшествовавшей ИИ: железным дорогам, фармацевтике, финансовым инструментам, интернету. В каждом случае возможности концентрировались в руках немногих, разрабатывались в соответствии с ценностями, которые эти немногие считали самоочевидно верными, и развёртывались для всех — включая группы населения, не имевшие никакого влияния на ценностный выбор, заложенный в проектировании.

Три вопроса, которые дискуссия о техническом согласовании систематически обходит стороной:

Кто решает, с какими ценностями согласован ИИ? Кто обладает полномочием обеспечивать соблюдение этого выбора после того, как он сделан? Кто несёт финансовые и социальные издержки, когда несоответствие становится видимым через сбой?

Пока на эти вопросы не дан открытый ответ, «согласование» — не решение. Это суррогат борьбы за власть, которая ещё не стала полностью видимой. Техническая рамка делает политический вопрос невидимым. Это первое измерение мифа.

II. Институциональное рассогласование: когда организации не могут сдержать собственных обещаний

В ноябре 2023 года совет директоров OpenAI уволил Сэма Альтмана по причинам, которые, по всем доступным данным, были связаны с обеспокоенностью темпом и прозрачностью разработки ИИ относительно миссии безопасности организации [4]. Совет директоров полагал, что обеспечивает согласование — гарантирует, что организация остаётся верна своему учредительному обязательству безопасно разрабатывать ИИ на благо человечества.

Через пять дней Альтман вернулся. Миссия безопасности осталась в документах. Структура стимулов — конкурентное давление, ожидания инвесторов, инерция развёртывания — победила.

Этот эпизод важен не из-за личностей, а потому, что он показал, где на самом деле находятся полномочия управления под конкурентным давлением. Это история не конкретно об OpenAI. Это демонстрация структурного условия, которое одновременно управляет каждой организацией, работающей на переднем крае ИИ.

Я узнал это мгновенно. Не потому, что это было драматично, а потому, что это было знакомо.

В банковском деле эквивалентный момент наступает, когда риск-менеджер поднимает озабоченность, способную замедлить прибыльную сделку. Озабоченность фиксируется. Документация сохраняется. Сделка проходит. Институт формально остаётся согласован со своей политикой управления рисками. В операционном плане разрыв расширился.

Этот механизм — институциональное рассогласование в масштабе: разрыв между тем, что организация формально декларирует, и тем, что реально вознаграждает её структура стимулов. Этот разрыв существует в каждой крупной организации. В большинстве отраслей им управляют — несовершенно, но содержательно — через внешнее регулирование, ответственность за риск и рыночную дисциплину. В индустрии ИИ по состоянию на начало 2026 года эти механизмы остаются незрелыми и неравномерными — пока не действующими последовательно и принудительно в масштабе передовых систем [5a].

Организации, создающие передовой ИИ, одновременно: привержены миссиям безопасности, требующим замедления развёртывания; конкурируют друг с другом и с хорошо обеспеченными ресурсами государственными программами таким образом, что это вознаграждает ускорение; и подотчётны инвесторам, чья доходность зависит от развёртывания, а не от сдержанности. Эти стимулы невозможно разрешить через более удачные формулировки миссии. Они структурны.

Документы о согласовании, не затрагивающие лежащую в основе архитектуру стимулов, эквивалентны кредитной философии моего банка: искренние в момент составления, нерелевантные в момент принятия решения.

III. Социальное рассогласование: вопрос о власти, который не задают

Управление климатом за тридцать лет переговоров продемонстрировало, что проблемы коллективного действия невозможно решить через добровольное согласование с общими ценностями, когда издержки соблюдения немедленны и локальны, а выгоды отсрочены и рассеяны [6]. Процесс COP производит декларации. Государства подписывают их с искренним намерением. Затем национальный интерес, внутренняя политика и конкурентное экономическое давление вновь заявляют о себе. Согласование было реальным в момент декларации. Структура стимулов, управляющая повседневными решениями, никогда не была согласована.

Управление ИИ воспроизводит эту структуру со значительно более высокой скоростью и с меньшим временем на коррекцию.

Ценности, в настоящее время заложенные в глобально развёрнутые системы ИИ, формировались преимущественно в США, Великобритании и Китае — первые два как доминирующие центры западной разработки передового ИИ, третий — преследуя параллельные системы в рамках государственно управляемых ценностных рамок. Согласно демографическим оценкам ООН на 2025–2026 годы, эти три страны вместе составляют примерно 22 процента мирового населения — примерно каждый пятый человек [3, ООН]. Остальные четыре из пяти — порядка 6,4 миллиарда человек на всех населённых континентах — не имели сколько-нибудь значимого влияния на ценностный выбор, заложенный в системах, которые во всё большей степени будут определять, как осуществляется доступ к информации, принимаются решения и распределяются возможности в их обществах.

Концентрация ещё более экстремальна, чем предполагают эти цифры. Публичные раскрытия и оценки численности персонала ведущих лабораторий передового ИИ — OpenAI, Anthropic, Google DeepMind, Meta AI и их ближайших аналогов — оценивают совокупную релевантную численность персонала примерно в десять-двадцать тысяч человек [7]. Это приблизительно 0,0002 процента человечества: менее двух человек на миллион, принимающих судьбоносные решения о ценностях от имени более чем восьми миллиардов. Эти люди не являются репрезентативной выборкой человеческой цивилизации. Они происходят преимущественно из конкретной образовательной традиции, конкретного экономического слоя и конкретной культурной географии.

Это важно, потому что ценности не переносимы. Допущения, заложенные в системах ИИ относительно индивидуальных прав и коллективных обязательств; структуры семьи и родственных иерархий; отношений между гражданином и государством; смысла приватности; легитимных пределов власти; отношения к традиции, социальному порядку и почтению к старшим — всё это не универсально. Это культурно специфично таким образом, который исследователи в Сан-Франциско или Лондоне могут не распознавать именно потому, что собственные культурные допущения кажутся им самоочевидно верными.

Ценности фермера в Западной Африке — сформированные традициями общинного землевладения, устной исторической памятью и родовыми системами правосудия — фундаментально отличаются от ценностей государственного служащего в Центральной Азии, чьи институциональные инстинкты сформированы советской административной культурой, исламской этической традицией, веками кочевой и оседлой цивилизации и постнезависимым транзитом. Обе отличаются от ценностей инженера-программиста в Калифорнии, действующего в рамках индивидуалистской правовой традиции, общего права (common law) и светской потребительской культуры. Это не вариации на единую человеческую тему. Это подлинно различные цивилизационные архитектуры — построенные на разных историях, разных институтах, разных космологиях, разных отношениях между индивидом и коллективом, разных определениях того, что составляет справедливый исход или легитимное решение. Традиции, обычаи, социальные нормы, этнические идентичности и моральные интуиции, составляющие ценностные системы незападных обществ, — не культурное украшение поверх универсального человеческого базиса. Они и есть базис — для миллиардов людей, которые их разделяют.

Управленческий фреймворк, принимающий одну из этих цивилизационных архитектур за умолчание при кодировании в глобально развёрнутые системы ИИ, осуществляет передачу культурной власти — от всего многообразия человеческой цивилизации к её конкретному подмножеству — без обсуждения, без согласия и без какого-либо механизма коррекции, если эта передача окажется вредоносной.

Исторические развёртывания технологий, формирующих системы, демонстрируют повторяющийся паттерн: возможности концентрируются, внешние эффекты рассеиваются, а затронутое население лишено голоса в проектных решениях. Интернет воспроизвёл существующие информационные иерархии, а не демонтировал их. Финансовые инструменты, разработанные на западных рынках, экспортировались с заложенными допущениями, которые не переносились чисто в иные институциональные среды. Этот паттерн структурен. Он не требует злого умысла. Управление ИИ не обязано его повторять — но повторение является путём наименьшего сопротивления, и ничто в нынешней управленческой архитектуре не создаёт сколько-нибудь значимого трения против этого.

IV. Что на самом деле требуется для согласования

В банковском деле проблема согласования решалась не лучшей формулировкой кредитных принципов. Её решали — частично, несовершенно, со значительными провалами по пути — через внешние механизмы: требования к капиталу, делавшие принятие риска дорогостоящим, нормативную ответственность, связывавшую тех, кто принимает решения, с последствиями, и надзорные органы с независимыми полномочиями изучать фактическое поведение, а не декларируемую политику.

Ни один из этих механизмов не был популярен среди институтов, которые он регулировал. Каждому из них оказывалось сопротивление. Большинство из них были внедрены только после провалов, сделавших цену рассогласования видимой для тех, кто обладал полномочием действовать.

Дискуссия о согласовании ИИ в её нынешней структуре пытается решить банковскую проблему через более удачную кредитную философию. Технические исследователи работают над подлинно важными вопросами. Но техническое согласование — обеспечение того, чтобы ИИ делал то, что задумали разработчики, — не решает институциональное согласование (обеспечение того, чтобы организации делали то, что они декларируют) или социальное согласование (обеспечение того, чтобы ценности, заложенные в ИИ, отражали легитимный, инклюзивный процесс выбора).

Без одновременного функционирования всех трёх уровней техническое согласование необходимо, но не достаточно. Технически хорошо согласованная система ИИ, развёрнутая институтом со структурно рассогласованными стимулами, на службе ценностей, выбранных частью человечества от имени всего человечества, остаётся управленческим провалом — независимо от того, насколько хорошо модель показывает себя на бенчмарках.

Реальное согласование требует трёх элементов, которые заявления о миссии обеспечить не могут.

Первое: потенциал независимой верификации — техническая и институциональная способность оценивать, соответствует ли декларируемое согласование операционному поведению. В управлении ИИ это лишь зарождается. Ни одна крупная юрисдикция пока не установила рутинно применяемый, независимый верификационный режим с устойчивым доступом к внутреннему устройству передовых моделей во всех ведущих лабораториях [5a].

Второе: последствия за недостоверное представление — юридическая и финансовая ответственность, делающая разрыв между декларируемым и фактическим согласованием дорогостоящим для поддержания. Это остаётся слабым, неравномерным и в значительной степени непроверенным в масштабе передовых систем. Ни одна крупная юрисдикция не установила рамок ответственности, которые делали бы недостоверно представленную позицию безопасности финансово или юридически значимой для развёртывания передового ИИ [5b].

Третье: легитимность через инклюзивный процесс — механизм, благодаря которому ценностный выбор, закодированный в глобально развёрнутых системах ИИ, отражает нечто более широкое, чем предпочтения команд, создающих эти системы. Это пока не существует в операциональной форме, которая правдоподобно масштабировалась бы на передовые системы.

V. Выводы

Дискуссия о согласовании ИИ в её нынешнем виде решает наименее сложную версию проблемы: обеспечение того, чтобы системы ИИ делали то, что задумали их разработчики. Более сложные версии — обеспечение того, чтобы намерения разработчиков отражали подлинные институциональные обязательства, и обеспечение того, чтобы эти обязательства отражали легитимный, инклюзивный процесс общественного ценностного выбора, — структурно отсутствуют в мейнстримной управленческой дискуссии.
Организации, наиболее вероятно способные наложить эффективные ограничения на разработку ИИ в ближайшей перспективе, — это не управленческие органы, производящие фреймворки согласования. Это институты с прямой ответственностью за риск: страховщики, оценивающие стоимость сбоя модели, сотрудники закупок, обусловливающие доступ продемонстрированным, а не декларируемым согласованием, регуляторы в юрисдикциях с применимыми стандартами ответственности. Когда эти структуры начнут требовать доказательств согласования, а не документации о процессах согласования, несоответствие станет видимым для людей с реальными ставками.
Дефицит согласования для Глобального Юга и Центральной Азии — не периферийная забота. Это управленческая уязвимость на уровне общественной легитимности. Системы ИИ, развёрнутые глобально, но согласованные по ценностям лишь с частью человечества, столкнутся с кризисами легитимности, для разрешения которых не предназначен ни один фреймворк технической безопасности. Это не прогноз. Это структурное условие, видимое в каждом предыдущем развёртывании формирующей системы технологии сопоставимого масштаба, — и условие, которое никогда не корректировало само себя через добрую волю тех, кто удерживает концентрированные возможности.

VI. Сигналы для наблюдения

Требует ли какой-либо крупный фреймворк управления ИИ продемонстрированного участия незападных групп населения, не входящих в ОЭСР, в процессах ценностного согласования — не как пользователей или поставщиков обратной связи, а как лиц, принимающих решения о ценностном выборе, заложенном в передовые системы. Отсутствие такого требования по мере распространения фреймворков — само по себе сигнал.
Налагают ли фреймворки ответственности за ИИ в какой-либо крупной юрисдикции последствия на организации за разрыв между декларируемыми обязательствами согласования и операционным поведением при развёртывании — создавая институциональное согласование через рыночную дисциплину, а не добровольное обязательство. Добровольные фреймворки без ответственности за риск структурно эквивалентны требованиям к банковскому капиталу без надзорного правоприменения.
Начинают ли институциональные инвесторы обусловливать оценку компаний-разработчиков ИИ доказательствами согласования между заявленными миссиями безопасности и фактическим распределением ресурсов между командами безопасности и развёртывания. Когда капитал начинает оценивать институциональный разрыв в согласовании, рынок признаёт то, чего ещё не признало управление.
Расширяется ли расхождение в поведении между страховщиками ИИ-компаний и их публичными коммуникациями о безопасности. Страховые андеррайтеры оценивают то, во что верят, а не то, что им говорят. Это расхождение, когда оно проявляется последовательно, — наиболее надёжный опережающий индикатор того, что разрыв между декларируемым и операционным согласованием стал видим институтам с реальными финансовыми ставками.

VII. Вопросы, которые остаются открытыми

Мой банк в конце концов выстроил лучшее управление рисками. Не потому, что руководство стало более привержено заявленным принципам. Потому что внешняя среда — регуляторные требования, надзорная проверка, нормативы капитала — сделала цену рассогласования видимой и значимой.

Вопрос для согласования ИИ — не в том, можно ли решить техническую проблему в значимой степени при достаточном объёме исследований и времени. Вполне возможно, что да. Вопрос в том, будут ли институциональная и социальная проблемы согласования решены до или после провала, делающего их невозможным игнорировать, — и будет ли к моменту этого провала окно коррекции всё ещё открыто.

Три предыдущих эссе этой серии рассмотрели, как институты заявляют о контроле, которым не обладают (Эссе 1), производят прозрачность без подотчётности (Эссе 2) и сталкиваются со структурными трилеммами, которые управленческая архитектура не способна разрешить (Эссе 3). Это эссе добавляет четвёртое наблюдение: сущность, с которой согласовывают ИИ, — «человечество» — не единый актор с целостными ценностями. Это более восьми миллиардов людей с подлинно различными цивилизационными традициями, моральными рамками и легитимными интересами, большинство из которых не имело голоса в решениях, принимаемых от их имени.

Вопрос, к которому я постоянно возвращаюсь: если согласование означает обеспечение того, чтобы ИИ отражал человеческие ценности, — каких людей, какие ценности, через какой процесс обсуждения, обеспечиваемый кем, и с каким средством защиты для тех, кого никогда не спросили?

Пока на этот вопрос не дан открытый ответ, «согласование» — не решение управленческой проблемы. Это и есть управленческая проблема — облачённая в язык инженерии.

Разрыв между тем, что система декларирует, и тем, что она реально делает, по моему опыту, никогда не закрывался постепенно. Он становится видимым через сбой — часто в худших условиях для коррекции.

Кто решает, с чем должен быть согласован ИИ, — и что даёт им эту власть над всеми остальными?

Источники и примечания

[1] Bai, Yuntao, et al. «Constitutional AI: Harmlessness from AI Feedback.» Anthropic, декабрь 2022. arxiv.org/abs/2212.08073

[2] Leike, Jan, et al. «Scalable agent alignment via reward modeling.» DeepMind, 2018. arxiv.org/abs/1811.07871

[3] Birhane, Abeba, et al. «The Values Encoded in Machine Learning Research.» Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency (FAccT ‘22). dl.acm.org/doi/10.1145/3531146.3533083. Демографические данные: ООН, World Population Prospects 2024. population.un.org

[4] Отстранение Сэма Альтмана от должности в OpenAI, ноябрь 2023 г. Источники: The New York Times; Financial Times; The Verge. Альтман отстранён 17 ноября, восстановлен 22 ноября 2023 г.

[5a] Институт безопасности ИИ Великобритании (UK AI Safety Institute). AISI’s Approach to Evaluations, 2024. aisi.gov.uk. По состоянию на начало 2026 года ни одна крупная юрисдикция не установила рутинно применяемый, независимый верификационный режим с устойчивым доступом к внутреннему устройству передовых моделей во всех ведущих лабораториях.

[5b] ОЭСР. OECD AI Policy Observatory — Liability and Accountability Frameworks, 2024. oecd.ai. По состоянию на начало 2026 года ни одна крупная юрисдикция не установила применимые рамки ответственности, связывающие решения о развёртывании передового ИИ с финансовыми последствиями за недостоверно представленную позицию безопасности.

[6] МГЭИК (IPCC). Synthesis Report of the IPCC Sixth Assessment Report (AR6). Женева, 2023. ipcc.ch

[7] Оценки численности персонала ведущих лабораторий передового ИИ (OpenAI, Anthropic, Google DeepMind, Meta AI), основанные на публично раскрытых данных и отраслевой отчётности, 2024–2025 гг. Источники включают объявления компаний, данные LinkedIn о персонале и SignalFire State of Talent Report, 2025. fortune.com/2025/06/03/openai-deepmind-anthropic-loosing-engineers-ai-talent-war

[8] Prabhakaran, Vinodkumar, et al. «Cultural Incongruencies in Artificial Intelligence.» Google Research, 2022. arxiv.org/abs/2211.05100

[9] Stigler, George J. «The Theory of Economic Regulation.» Bell Journal of Economics and Management Science, Vol. 2, No. 1, весна 1971.

Опубликовано на https://okhodjaev.com/essays/the-myth-of-alignment-ru/

Ойбек Ходжаев исследует управление ИИ и консультирует по вопросам институциональной готовности к эпохе искусственного интеллекта, уделяя особое внимание системному риску. Опираясь на более чем 35-летний опыт в банковском секторе, финансах, государственном управлении и бизнесе в Узбекистане и СНГ, он разрабатывает практические подходы к оценке институциональных пределов управления ИИ. Автор серии эссе «Beyond Control», в которой развивает структурную теорию пределов управления ИИ.

Contents