Loe raamatut: «ИИ: Необъяснимый, непредсказуемый, неконтролируемый»

Font:

© All Rights Reserved

Authorised translation from the English language edition published by CRC Press, a member of the Taylor & Francis Group LLC

© Издание на русском языке, дизайн. Nova Creative Group, 2025

Предисловие

«Сотворили его люди, но управлять им они не могут», – писал Джон Стейнбек в своем романе «Гроздья гнева» почти сто лет назад. И хотя речь шла о банке, сегодня эти слова можно отнести и к проблематике искусственного интеллекта (AI).

Новостной поток, который сопровождает всемирную гонку в создании искусственного сверхинтеллекта, постоянно приносит нам сообщения о превосходстве машин над человеком в решении задач. Эти успехи не только создают завышенные ожидания к разработчикам AI, но и вызывают опасения за будущее человечества среди ученых и инженеров.

Обеспокоенность эта серьезна – пионеры отрасли готовы к радикальным изменениям карьеры, чтобы обратить внимание общества на проблему контроля над AI. И хотя технология создается нами, людьми, сможем ли мы ее контролировать? Один из героев книги Ямпольского, американский специалист по AI Элиезер Юдковский, предупреждает, что «наибольшая опасность искусственного интеллекта заключается в том, что люди слишком рано решают, что понимают его».

Более того, если посмотреть в историческом плане, то первая, по-настоящему значимая технология, оказавшаяся в руках человека, – расщепление атома. Она разрабатывалась по инициативе государств, и до сих пор использование атомной энергии тщательно контролируется во всех странах. Вторая – преобразование информации. Однако есть одно важное отличие – впервые радикальная, трансформационная технология развилась и сосредоточивалась в частных компаниях.

В публичном поле сегодня представлено множество мнений о контролируемости AI. Но ситуация больше напоминает библиотеку после ремонта – книги на полках хорошие, но не на своих местах. На этом фоне работа доктора Ямпольского появилась в правильный момент: ученый предлагает несколько методов и классификаций для ответа на вопрос, можем ли мы контролировать AI. И кажется, это именно то, что нужно современному читателю, – тщательно и аккуратно разобраться в теме, используя научный подход. Обрисовывая долгосрочную перспективу, автор дает однозначный ответ – на существующей технологической парадигме мы не можем полностью и однозначно контролировать AI и последствия его применения.

Однако отнести Ямпольского к техноскептикам нельзя. Со свойственной ученым основательностью он отделяет зерна от плевел: надо использовать слабый AI там, где это полезно, например в медицине, и тщательно изучать все последствия, где есть риски. В случае искусственного суперинтеллекта любая ошибка может стать последней для человечества. И чтобы избежать катастрофических сценариев, необходимы исследования новых подходов к разработке моделей. Ямпольский считает, что любое определение AI критически ошибочно, если в нем не используется слово «безопасность».

Именно поэтому книга достойна внимания руководителей технологических компаний, разрабатывающих и внедряющих AI. Кроме того, ее будет полезно прочитать всем исследователям, вовлеченным в создание AI, – осознание небезопасности этой технологии должно стать необходимым шагом для всех дальнейших работ. Единственное, что мы не можем себе позволить, – игнорировать риски необъяснимого, непредсказуемого и неконтролируемого AI.

Альберт Ефимов, к. филос. н.,
Вице-президент – директор управления исследований и инноваций ПАО Сбербанк
Заведующий кафедрой инженерной кибернетики Университет науки и технологий МИСИС

Моему другу Яану Таллинну, человеку, сделавшему для мира больше, чем вы когда-либо узнаете.


Благодарности

Я хотел бы поблагодарить многих людей за помощь, советы, замечания к моей работе, содействие в исследованиях – или просто за то, что они так или иначе подталкивали мои размышления. Одних мне повезло встретить лично, другие остались моими виртуальными собеседниками – но для идей это неважно, так что все эти люди в равной степени замечательны. Уверен, что я многих упустил, ведь я не обладаю сверхразумом, да и память у меня скверная. Заранее приношу извинения всем, кого я здесь не упомянул. Вклад многих выдающихся ученых я признаю, цитируя их работы, ведь это главное признание для любого исследователя. Большое спасибо вам: Макс Тегмарк, Иэн Гудфеллоу, Кеннет Риган, Эдуард Френкель, Себастьен Зани, Сорен Эльверлин, Мелисса Хелтон, Анна Хусфельдт, Торе Хусфельдт, Дэвид Келли, Дэвид Джилк, Скотт Ааронсон, Роб Бенсингер, Сет Баум, Тони Барретт и Алексей Турчин. Последними, но не в последнюю очередь я хочу поблагодарить Яана Таллинна и Фонд выживания и процветания (Survival and Flourishing Fund), а также Илона Маска и Институт будущего жизни (Future of Life Institute) за частичное финансирование моей работы, посвященной безопасности ИИ.

Об авторе

Доктор Роман Владимирович Ямпольский – доцент, штатный сотрудник кафедры компьютерно-технических наук Инженерной школы Дж. Б. Спида при Луисвиллском университете. Основатель и действующий руководитель лаборатории кибербезопасности при Луисвиллском университете, автор множества книг, в т. ч. «Искусственный сверхинтеллект. Футуристический подход» («Artificial Superintelligence: A Futuristic Approach»), редактор сборников «Безопасность и защита ИИ» («AI Safety and Security») и «Технологическая сингулярность» («The Technological Singularity»). За время работы в Луисвиллском университете Роман Ямпольский получил звания почетного профессора-преподавателя, профессора года, самого популярного преподавателя своего факультета, эксперта в техническом образовании и награду за выдающееся начало карьеры в образовании, вошел в четверку лучших преподавателей факультета и десятку лучших профессоров года, а также удостоился многих других наград и почетных званий. Роман Ямпольский – старший член Общества изучения сильного и слабого ИИ института IEEE, член Академии наук штата Кентукки, ранее был научным руководителем Machine Intelligence Research Institute (MIRI) и Global Catastrophic Risk Institute (GCRI).

Роман Ямпольский получил степень доктора философии на кафедре компьютерно-технических наук университета штата Нью-Йорк в Буффало. Четыре года был стипендиатом Программы интегрированного обучения аспирантов и исследовательских стажировок Национального научного фонда США (National Science Foundation, NSF). Перед докторантурой Роман Ямпольский получил комбинированную степень бакалавра/магистра информатики (с отличием) в Рочестерском технологическом институте (шт. Нью-Йорк, США). После защиты докторской диссертации занял должность члена-корреспондента в Центре расширенного пространственного анализа Университетского колледжа Лондона в Лондонском университете. Ранее проводил исследования в Лаборатории прикладных вычислений в Рочестерском технологическом институте и в Центре комплексной биометрии и датчиков университета штата Нью-Йорк в Буффало. Роман Ямпольский – выпускник Университета сингулярности (летняя программа последипломного образования, 2012 г.) и приглашенный научный сотрудник Института сингулярности (Институт исследований машинного интеллекта).

Основная сфера интересов Романа Ямпольского – безопасность ИИ. Он автор более 200 публикаций, включая многочисленные статьи в журналах и книгах. Его исследования цитируются тысячами ученых и рассматриваются в популярных журналах как в США, так и за рубежом. Работы Романа Ямпольского упоминаются более 10 000 раз в различных статьях в СМИ более чем на 40 языках.

Глава 1
Введение1

1.1. Введение

Стремительный прогресс искусственного интеллекта (ИИ) за последнее десятилетие сопровождался и несколькими громкими провалами [1]. Стала очевидной необходимость следить за тем, чтобы ИИ работал на благо человечества. Так возникла новая сфера исследований – безопасность ИИ [2], охватывающая широкий спектр областей. Число публикаций по безопасности ИИ в последнее время уверенно растет [3–10].

Однако в основе всех этих исследований лежит предположение, что задача контроля ИИ в принципе разрешима, хотя не существует ни строгих математических доказательств тому, ни предпосылок к их появлению. В компьютерных науках принято сначала определить, относится ли задача к числу решаемых, а затем уже вкладывать ресурсы в ее решение.

Все признают, что контроль ИИ, возможно, является одной из важнейших проблем, стоящих перед человечеством, – и тем не менее, эта сфера остается малопонятной, недостаточно изученной и плохо исследованной. Задачи компьютерных наук принято делить на решаемые, нерешаемые, неразрешимые или имеющие частичное решение – но мы до сих пор не знаем, к какому виду относится задача контроля ИИ. Мы предполагаем, что в некоторых ситуациях возможны определенные формы контроля, но существует и вероятность того, что во многих случаях частичного контроля будет недостаточно. Пока мы не понимаем ни природы, ни осуществимости задач контроля ИИ, мы не сможем выработать соответствующую методику [11].

Потенциальные методы контроля сильного ИИ (Artificial General Intelligence, AGI) делят две общие категории: методы, основанные на контроле возможностей, и методы контроля мотивации [12]. Первые призваны минимизировать вред от систем сильного ИИ, помещая их в ограниченную среду, оснащенную механизмами (триггерами) останова. Методы контроля мотивации предполагают разработку систем сильного ИИ, которые будут наделены желанием не причинять вреда даже без ограничения их возможностей. Широкого признано, что контроль возможностей – в лучшем случае временная мера и не может считаться долгосрочным решением задачи контроля сильного ИИ [12]. Кроме того, использование средств контроля мотивации может потребоваться еще до запуска системы – на стадии разработки и обучения.

1.2. Задача контроля ИИ

Мы определяем проблему контроля ИИ следующим образом:

«Как человечество может безопасным образом осуществлять контроль, используя высшую форму интеллекта с выгодой для себя?»

Это фундаментальная проблема безопасности ИИ, которая сама по себе посвящена обеспечению безопасности интеллектуальных систем для всех заинтересованных сторон.

В настоящее время для обеспечения безопасности ИИ чаще всего рассматривают метод согласования ценностей2. Тем не менее, несмотря на долгие годы исследований, степень безопасности все еще сложно протестировать или точно измерить даже в программном обеспечении (ПО), которое не используют ИИ [13]. В лучшем случае мы, пожалуй, сможем отличить совершенно безопасную систему от системы, сравнимой по безопасности с человеком, выполняющим ту же задачу. Но вряд ли общество смирится с ошибками машин, даже если они возникают не чаще, чем человеческие ошибки. Мы ожидаем, что машины будут работать лучше нас, и не согласимся на частичную безопасность настолько мощных систем. Влияние ИИ (как положительное, так и отрицательное [3]) во многом зависит от его способностей. В том, что касается экзистенциальных угроз, частичная безопасность недопустима.

На первый взгляд кажется, что для решения задачи контроля нужно разработать машину, в точности выполняющую команды человека. Но такая форма контроля неоптимальна – команды могут быть противоречивыми или парадоксальными, человеческие языки неоднозначны [14], а постановка задач бывает некорректной (хотя желательно предусмотреть возможность обратной связи от человека). Предполагается, что для решения этой проблемы ИИ должен стать идеальным советником, который будет избегать проблем с неверным толкованием прямых команд и не будет допускать поступления команд от злоумышленников.

Считается, что отсутствие контроля ИИ приведет к настолько серьезным последствиям, что даже при малейшей вероятности появления враждебного ИИ потенциальный вред приобретет астрономический масштаб – а значит, исследования по безопасности ИИ в любой случае окупятся. Здравый смысл говорит о том, что огромный негативный эффект даже при его малой вероятности означает очень большой вред. И такой вариант развития событий действительно необходимо воспринимать всерьез. К тому же в реальности шансы несогласованности ИИ с целями и нормами его создателей довольно высоки. Это значит, что в отсутствие эффективной программы безопасности ИИ единственно возможный результат – почти гарантированное отрицательное событие с потенциалом экзистенциальной катастрофы. Таким образом, статистика говорит в пользу масштабного исследования безопасности ИИ. Речь о не о сценариях с низкими рисками и высокой отдачей – риски велики, а результатом будет предотвращение худшего. Неудивительно, что многие считают, что это самая серьезная задача, когда-либо стоявшая перед человечеством. Мы выбираем между нашим процветанием и нашим уничтожением. На весах находится судьба мира, поэтому доказательство решаемости или нерешаемости задачи контроля ИИ – действительно важнейшая проблема всех времен.

1.3. Что мешает контролировать ИИ

Для того чтобы контролировать модель сильного ИИ, нам нужны инструменты, которые обеспечат ее объяснимость, предсказуемость и проверяемость [15]. Но возникает вопрос доступности этих инструментов для нас.

• Концепция необъяснимости ИИ предполагает, что невозможно дать на 100 % точное и понятное объяснение конкретных решений интеллектуальной системы. Ее дополняет концепция непостижимости ИИ, которая означает, что человек не сможет до конца понять любое совершенно точное объяснение решений интеллектуальных систем [16].

• Непредсказуемость ИИ, которая также мешает достижению безопасности ИИ, – это неспособность человека точно и закономерно предсказывать действия интеллектуальной системы, которые она предпримет для достижения своих целей, даже если известны ее конечные цели [17]. Непредсказуемость связана с необъяснимостью и непостижимостью ИИ, но не совпадает с ними полностью. Она не означает, что невозможен статистический анализ с точностью выше случайной, но указывает на общее ограничение эффективности анализа, особенно ярко выраженное у передовых систем сильного ИИ в новых областях.

• Непроверяемость – фундаментальное ограничение проверки математических доказательств, ПО, поведения интеллектуальных агентов и любых формальных систем [18]. Все более очевидно, что у нас есть лишь вероятная уверенность в правильности математических доказательств и программных решений – и весьма ограниченная возможность проверки интеллектуальных агентов.

Многие исследователи предполагают, что задачу контроля ИИ можно решить, но никаких доказательств или подтверждений тому нет. Поэтому прежде чем приступать к созданию контролируемого ИИ, важно показать, что задача в принципе имеет решение, чтобы не тратить ценные ресурсы понапрасну. Бремя доказательств лежит на тех, кто утверждает, что эта задача вполне решаемая, а отсутствие таких доказательств в настоящее время свидетельствует о том, насколько рискованно разрабатывать сильный ИИ. С большой вероятностью ИИ не поддается контролю – это можно доказать приведением данной проблемы к задаче контроля со стороны человека.

Есть множество открытых вопросов о контролируемости ИИ: можно ли решить задачу контроля? Возможно ли это в принципе? Возможно ли это на практике? Можно ли при этом добиться достаточного уровня точности? Сколько времени это займет? Успеем ли мы это сделать? Каковы затраты энергии и вычислительных мощностей для данной задачи? На что будет похоже решение? Каким будет минимально осуществимое решение? Как мы поймем, что задача решена? Поддается ли решение масштабированию при дальнейшем развитии системы? Мы считаем, что интеллект без ограничений нельзя контролировать, а интеллект с ограничениями не сможет создавать что-либо новое. Если не контролировать сильный ИИ, то, кто бы ни программировал его, последствия будут катастрофическими для всех и в первую очередь – для его создателей. Неконтролируемый сильный ИИ никому не принесет пользы.

Отсутствуют публикации, подтверждающие, что менее интеллектуальный агент может бесконечно сохранять контроль над более интеллектуальным. Разрабатывая системы, уступающие нам по интеллекту, мы сохраняем контроль над ними, но если системы станут умнее нас, мы потеряем контроль. Если же мы пытаемся сохранить контроль, разрабатывая все более продвинутые интеллектуальные агенты, мы попадаем в «Уловку-22»3, так как механизм контроля должен быть умнее контролируемого агента или хотя бы иметь тот же уровень интеллекта. Это приведет к тому, что для контроля систем, возможности которых постоянно растут, потребуется целая иерархия интеллектуальных систем.

Более того, задача контроля более мощного интеллекта усложняется и, очевидно, становится недоступной для агентов с постоянным уровнем интеллекта. Контролировать ситуацию будет тот, кто умнее, и он же будет принимать окончательные решения. Насколько нам известно, на данный момент нигде в мире не существует не только действующего механизма контроля ИИ, который можно было бы масштабировать до ИИ человеческого уровня и (когда-нибудь) выше, но даже представления о том, каким мог бы быть прототип такого механизма. Никто до сих пор не доказал наличия таких технологий – а ведь если кто-то утверждает, что задача контроля ИИ решаема, он должен доказать это. Но пока, судя по всему, наша способность создавать интеллектуальное ПО намного выше нашей возможности контролировать или даже проверять его.

1.4. Определение безопасного ИИ

В статье «Определение искусственного интеллекта» («On Defining Artificial Intelligence») Пэй Ван дает следующее определение [19]: «Интеллект – это способность системы обработки информации адаптироваться к среде и при этом работать в условиях недостаточных данных и ресурсов» [20]. Ван не только дает совершенно адекватную формулировку, но и рассматривает другие определения интеллекта, уже ставшие стандартом [21]. Однако есть существенная разница между определением интеллекта вообще или человеческого интеллекта в частности и определением ИИ, что и подразумевает заголовок работы Вана. В этой главе я бы хотел обозначить фундаментальные различия между ИИ и естественным интеллектом [22].

Обычно ИИ разрабатывают специально для получения пользы создателями и пользователями, и в определение ИИ важно включить эту отличительную особенность. Ван лишь мельком упоминает в своей статье концепцию безопасности ИИ [12, 23–26] и не анализирует ни ее, ни другие смежные концепции. Но я считаю неполными, а значит, опасными определения ИИ, в которых не упоминается в явном виде безопасность или хотя бы ее составные части: управляемость, объяснимость [27], постижимость, предсказуемость [28] и возможность внесения поправок [29].

Разработка сильного ИИ предсказуемо приведет к сдвигу вектора развития человеческой цивилизации [30]. Чтобы получить выгоду, избежав подводных камней настолько мощной технологии, важно иметь возможность контролировать ее. Полный контроль над интеллектуальной системой [31] подразумевает возможность ограничить ее производительность [32] – например, установить ей потолок, эквивалентный определенному IQ. Дополнительные средства контроля могли бы отключать систему [33], включать и отключать ее сознание [34, 35], свободу воли, собственный выбор цели и задавать моральные принципы [36], которыми система должна руководствоваться в принятии решений. Также необходима возможность вносить поправки в систему после ее развертывания [1, 37] для устранения проблем, обнаруженных в ходе эксплуатации. Система ИИ должна быть способна объяснить свои решения понятным человеку языком, насколько это теоретически возможно. А разработчики и конечные пользователи должны иметь возможность в общих чертах прогнозировать ее поведение. При необходимости систему нужно ограничить определенной средой [38–40] или сократить доступные ей вычислительные ресурсы. Работа ИИ должна быть максимально непредвзятой и прозрачной, ИИ должен быть доброжелательным [41] и безопасным [2].

Соответственно, мы предлагаем следующее определение ИИ, дополняющее формулировку Вана: «Искусственный интеллект – это полностью контролируемый агент, система обработки информации которого обладает способностью адаптироваться к среде, работая в условиях недостаточных данных и ресурсов».

1.5. Управляемость ИИ

Чтобы в будущем ИИ приносил пользу всему человечеству, инициативы по управлению ИИ пытаются подчинить ИИ различным правительствам, международным организациям и транснациональным корпорациям мира, которые совместно разрабатывают нормативную базу и отраслевые стандарты. Поскольку пытаться непосредственно управлять ИИ бессмысленно, этот термин подразумевает управление исследователями и создателями ИИ – иными словами, им разрешают разрабатывать определенные продукты и услуги определенными способами. Возможность управлять учеными и инженерами, работающими над ИИ, зависит от сложности создания сильного ИИ.

Если окажется, что вычислительные ресурсы и сбор данных, необходимые для создания сильного ИИ, сравнимы по стоимости и объему человеческого капитала с «Манхэттенским проектом», в рамках которого США разработали атомную бомбу, правительства получат целый ряд способов, чтобы направлять исследователей и приспособить будущий ИИ под свои требования. С другой стороны, если выяснится, что первый сильный ИИ, или т. н. «исходный» ИИ, который может вырасти в полномасштабный сверхинтеллект, может создать подросток с тысячедолларовым ноутбуком у себя в гараже (вариант менее вероятный, но все же возможный), то попытки контроля со стороны государств могут оказаться тщетными. В реальности же мы видим, что известные из истории попытки регулировать сферу ПО (например спам, компьютерные вирусы, дипфейки) дали весьма ограниченный результат. Когда сильный ИИ обретет независимость, он может стать неконтролируемым, поскольку традиционные методы распределения ответственности, принуждения и санкций несостоятельны по отношению к ПО.

Но даже в том благоприятном случае, если дорогостоящее управление ИИ все же окажется возможным, останется ряд технических ограничений предсказуемости [17], объяснимости [16] и контролируемости ИИ [42]. Как следствие, управляемость ИИ, для которой требуются как минимум эти три параметра, тоже будет достижима лишь частично, а значит, ИИ, превосходящий интеллект человека, в некоторых важных аспектах выйдет за пределы нашего контроля. Уполномоченные лица при этом не захотят брать на себя ответственность за ошибки [43] или намеренные действия ИИ, даже если они были допущены или выполнены в установленных и регулируемых рамках – а значит, высокопроизводительный, изобретательный, неконтролируемый сильный ИИ сможет косвенно или даже напрямую контролировать некоторые организации и лица, которым будет доверено управлять интеллектуальным ПО.

1.Фрагменты этой главы ранее были опубликованы в статьях Романа Ямпольского «Об управляемости ИИ» («On Governability of AI») в AI Governance in 2020 a Year in Review. June, 2021, и «Определение различий между интеллектом и искусственным интеллектом» (On Defining Differences Between Intelligence and Artificial Intelligence) в Journal of Artificial General Intelligence 11(2), 68–70. 2020. – Прим. пер.
2.Тем самым предполагается, что машины можно научить понимать человеческие ценности и цели и действовать в соответствии с ними. –  Прим. пер.
3.Логический парадокс, описанный в одноименном романе Джозефа Хеллера, – выполнение условий задачи одновременно обеспечивает невыполнимость задачи. – Прим. пер.
Vanusepiirang:
16+
Ilmumiskuupäev Litres'is:
21 november 2025
Tõlkimise kuupäev:
2025
Kirjutamise kuupäev:
2025
Objętość:
463 lk 6 illustratsiooni
ISBN:
978-5-908058-01-8
Õiguste omanik:
Nova Creative Group
Allalaadimise formaat: