Думай «почему?». Причина и следствие как ключ к мышлению

Tekst

Raamat on vene keeles

Autorid:Джудиа Перл, Дана Маккензи

Sari: Власть и успех

Arvustused

Loe katkendit

Märgi loetuks

Kuidas lugeda raamatut pärast ostmist

Nutitelefon,
tahvelarvuti Arvuti,
sülearvuti E-luger

Laadi alla:
FB2
EPUB
iOS.EPUB
Veel 7

Kas teil pole raamatute lugemiseks aega?

Lõigu kuulamine

− 20%

Ostke elektroonilisi raamatuid ja audioraamatuid 20% allahindlusega

Ostke komplekt hinnaga € 12,30 € 9,84

Mine üle audioraamatule

Maht: 560 lk. 86 illustratsiooni
Žanr: Välisriigi õppekirjanduse, физика и математика
Märgised: andmete analüüs, tehisintellekt, teaduse ajalugu, loogiline mõtlemine, andmetöötlus, mõtlemise areng, Statistiline analüüs Muuda

Думай «почему?». Причина и следствие как ключ к мышлению

Audio

Думай «почему?». Причина и следствие как ключ к мышлению

Audioraamat

Loeb Владислав Горбылев

€ 6,48

Sünkroonitud tekstiga

Lisateave

Šrift:Väiksem АаSuurem Aa

Мини-тест Тьюринга

В 1950 году Алан Тьюринг задался вопросом, что это значит: компьютер, думающий как человек. Он предложил практический тест под названием «Игра в имитацию», но исследователи искусственного интеллекта с тех пор зовут его исключительно тестом Тьюринга. Во всех практических отношениях компьютер достоин считаться думающей машиной, если обычный человек, который общается с ним при помощи клавиатуры, не догадается, с кем он разговаривает – с другим человеком или с компьютером. Тьюринг был горячо уверен в том, что это абсолютно достижимо. Он писал: «Я верю, что примерно через 50 лет можно будет так хорошо программировать компьютеры для игры в имитацию, что после пяти минут вопросов и ответов у среднего собеседника будет не более 70 %-ного шанса сделать правильный выбор».

Предсказание Тьюринга оказалось немного неточным. Ежегодно самый похожий на человека чатбот в мире борется за премию Лёбнера: за программу, которая сумеет обмануть всех четырех судей, притворяясь человеком, полагается золотая медаль и 100 тысяч долларов. В 2015 году, спустя 25 лет с начала соревнований, ни одной программе не удалось обмануть не то что всех судей, но даже и половину.

Тьюринг не просто разработал игру в имитацию, он также предложил стратегию, чтобы пройти тест. «Что, если разработать программу, симулирующую не разум взрослого человека, а ум ребенка?» – спросил он. Если это сделать, можно было бы обучить ее так, как мы обучаем детей, – и вуаля! Через 20 лет (или меньше, учитывая более высокую скорость компьютера) мы получим искусственный интеллект. «Можно предположить, что ум ребенка подобен тетради, которую покупают в канцелярском магазине, – писал он. – Совсем небольшой механизм и много пустых страниц». Здесь он ошибался: мозг ребенка богат механизмами и заранее загруженными шаблонами.

И все же я думаю, что в чем-то Тьюринг прав. Скорее всего, у нас не получится произвести интеллект, подобный человеческому, пока мы не создадим интеллект, схожий с детским, и главным компонентом этого интеллекта будет владение причинно-следственными связями.

Как же машины могут получить знания о причинно-следственных связях? Это и по сей день остается важнейшим вызовом, который, несомненно, относится к замысловатым сочетаниям данных, поступающих из активных экспериментов, пассивного наблюдения и (не в последней степени) самого программиста, что во многом похоже на входящую информацию, которую получает ребенок, только эволюцию, родителей и товарищей заменяет программист.

Тем не менее ответим на несколько менее амбициозный вопрос: как машины (и люди) могли бы представить знания о причинно-следственных связях таким образом, чтобы быстро получать доступ к нужной информации, правильно отвечать на вопросы и делать это с такой же легкостью, с какой это получается у трехлетнего ребенка? На самом деле таков главный вопрос, который мы рассмотрим в этой книге.

Я называю это мини-тестом Тьюринга. Идея здесь в том, чтобы взять простую историю, каким-то образом закодировать ее на машине, а потом проверить, сможет ли она правильно ответить на вопросы о причинно-следственных связях, на которые способен ответить человек. Это мини-тест по двум причинам. Во-первых, потому что он сведен к рассуждениям о причинах и следствиях, что исключает остальные аспекты человеческого интеллекта, такие как общая картина мира и естественный язык. Во-вторых, мы позволяем конкурсанту закодировать историю в виде любого удобного представления и освобождаем машину от задачи извлечь историю из собственного опыта. Проходить этот мини-тест стало задачей всей моей жизни – я делаю это сознательно последние 25 лет и делал бессознательно раньше.

Очевидно, готовясь к мини-тесту Тьюринга, мы должны сначала ответить на вопрос о репрезентации, а уже потом – об усвоении информации. Без репрезентации мы не знали бы, как хранить данные для использования в будущем. Даже если бы мы могли дать роботу манипулировать окружающей средой по его желанию, любая информация, полученная таким образом, забылась бы, если бы роботу не дали шаблон, чтобы закодировать результаты этих манипуляций. Важнейшим вкладом ИИ в исследование познания стала парадигма «Сначала репрезентация – потом усвоение». Часто поиск хорошей репрезентации приводил к ценным находкам о том, как стоит получать знания – и из данных, и от программиста.

Когда я описываю мини-тест Тьюринга, в ответ мне обычно утверждают, что его легко пройти с помощью обмана. Например, можно взять список всех вероятных вопросов, сохранить правильные ответы, а потом привести их по памяти, когда вас спросят. И тогда не будет способа отличить машину, в которой всего лишь хранится список вопросов и ответов, от машины, которая отвечает так же, как мы с вами, т. е. понимает вопрос и производит ответ, используя ментальную модель причинности. И что же докажет мини-тест Тьюринга, если жульничать так просто?

Философ Джон Сёрл в 1980 году описал эту возможность обмана с помощью мысленного эксперимента под названием «Китайская комната». Он подверг сомнению утверждение Тьюринга о том, что способность сымитировать интеллект равна обладанию им. С аргументом Сёрла есть только одна проблема: обмануть тест нелегко, более того, это нереально. Даже при ограниченном наборе переменных количество вероятных вопросов растет астрономически. Скажем, у нас есть 10 каузальных переменных и каждая из них может иметь два значения (0 или 1). Мы способны задать около 30 миллионов предполагаемых запросов, например: «Какова вероятность, что результат будет равен 1, если мы увидим, что переменная X равна 1, и сделаем переменную Y равной 0, а переменную Z равной 1?». Если бы переменных было больше или если бы у каждой было свыше двух состояний, то число возможностей вышло бы за пределы нашего воображения. В список Сёрла пришлось бы внести пунктов больше, чем атомов во Вселенной. Очевидно, что простой список вопросов и ответов никогда не сымитирует интеллект ребенка, не говоря уже об интеллекте взрослого.

Человеческому мозгу необходимы компактное представление информации, а также эффективная процедура, которая позволит должным образом интерпретировать каждый вопрос и вычленить нужный ответ из этого сохраненного представления. Таким образом, чтобы пройти мини-тест Тьюринга, нужно снабдить машины такой же эффективной репрезентацией и алгоритмом для получения ответа.

Эта репрезентация не просто существует, она по-детски проста – я говорю о диаграмме причинности. Мы уже видели один пример – диаграмму об охоте на мамонта. С учетом невероятной легкости, с какой люди могут передавать свои знания в диаграммах из стрелок и точек, я верю, что у нас в мозге действительно существует такая репрезентация. Но, что важнее для наших целей, эти модели позволяют пройти мини-тест Тьюринга, тогда как ни одна другая модель на это не способна. Давайте рассмотрим некоторые примеры.

Рис. 4. Диаграмма причинности для примера с расстрелом. A и B представляют действия солдат A и B

Предположим, что расстрельная команда собирается казнить узника. Чтобы это произошло, должна случиться определенная последовательность событий. Сначала суд выносит приговор о расстреле. Его доводят до капитана, который дает сигнал солдатам из расстрельной команды (А и В) стрелять. Будем считать, что они послушные исполнители и опытные снайперы, поэтому действуют только по команде, и если один из них выстрелит, то узник умрет.

На рис. 4 показана диаграмма, представляющая сюжет, который я только что изложил. Каждое из неизвестных (ПС, К, A, B, С) является переменной со значением «верно/неверно». Например, «С = верно» свидетельствует, что узник мертв; «С = неверно» выражает, что узник жив. «ПС = неверно» означает, что приговор не был вынесен; «ПС = верно» – что он был вынесен и т. д.

Диаграмма позволяет нам отвечать на вопросы о причинах, соответствующие разным уровням Лестницы. Во-первых, можно ответить на вопросы о связях (т. е. о том, что один факт говорит нам о другом). Если узник мертв, значит ли это, что приговор был вынесен? Мы (или компьютер) способны изучить диаграмму, проследить правила, стоящие за каждой стрелкой и, используя стандартную логику, прийти к выводу, что два солдата не выстрелили бы без команды капитана. Подобным образом капитан не дал бы команды, если бы в его распоряжении не было приговора. Поэтому ответ на наш вопрос – да. Другой вариант: предположим, мы узнали, что выстрелил А. Что это говорит нам о действиях В? Следуя стрелкам, компьютер приходит к выводу, что В тоже должен был выстрелить (А не стал бы стрелять, если бы капитан не дал сигнала, значит, В точно стрелял). Это справедливо, даже когда А не вызывает B (между A и B нет стрелки).

Поднимаясь по Лестнице Причинности, можно поставить вопрос об интервенции. А если солдат А по собственной инициативе решит выстрелить, не дожидаясь команды капитана? Будет ли узник жив или мертв? Вообще, этот вопрос сам по себе содержит некоторое противоречие. Я сейчас сказал вам, что А выстрелит, только если получит команду, а теперь мы спрашиваем, что будет, если он выстрелит без команды. Если просто использовать правила логики, как обычно делают компьютеры, этот вопрос становится бессмысленным. Как говорил в таких случаях робот из телесериала 1960-х годов «Затерянные в космосе», «это не вычисляется».

Если мы хотим, чтобы наш компьютер понимал причинно-следственные связи, нужно научить его нарушать правила. Он должен усвоить, что просто наблюдать за событием и быть его причиной – разные вещи. Мы говорим компьютеру: «Во всех случаях, когда ты становишься причиной события, убери все стрелки, указывающие на это событие, и продолжай анализ с помощью обычной логики, как будто стрелок никогда не было». Таким образом, мы стираем все стрелки, ведущие к переменной, ставшей объектом интервенции (А). Также мы вручную настраиваем эту переменную, присваивая ей значение («верно»). Обоснование для этой странной «хирургической операции» простое: вызывая событие к жизни, мы освобождаем его от всех других влияющих обстоятельств и подвергаем только одному – тому, которое заставляет его случиться.

На рис. 5 показана диаграмма причинности на основе нашего примера. Эта интервенция неизбежно приводит к смерти узника. Такова причинная функция стрелки, ведущей от А к С.

Рис. 5. Рассуждение об интервенциях. Солдат А решает выстрелить; стрелка от К к А стерта, и А получает значение «верно».

Заметим, что этот вывод согласуется с нашим интуитивным суждением: выстрел А, сделанный без команды, приведет к смерти узника, потому что хирургическое вмешательство оставило стрелку от А к С неприкосновенной. Кроме того, мы придем к выводу, что В (по всей вероятности) не выстрелил; ничего, связанное с решением А, не должно влиять на переменные в модели, не являющиеся результатом выстрела А. Это утверждение стоит повторить. Если мы видим, что А стреляет, то делаем вывод, что В тоже выстрелил. Но если А решает выстрелить или если мы заставляем А выстрелить, то верно обратное. В этом разница между тем, чтобы видеть, и тем, чтобы делать. Только компьютер, способный уловить эту разницу, может пройти мини-тест Тьюринга.

Заметим, что, если бы мы просто собирали большие данные, это не помогло бы подняться по Лестнице и ответить на вопросы, заданные выше. Предположим, вы журналист, который ежедневно собирает информацию о расстрелах. В ваших данных будут только два типа событий: либо все пять переменных верны, либо все они неверны. Вот почему, располагая данными такого рода и не понимая, кто кого «слушает», вы (или любой алгоритм машинного обучения) ни за что не предскажете, что будет, если убедить снайпера А не стрелять.

Наконец, чтобы проиллюстрировать третий уровень Лестницы Причинности, давайте зададим контрфактивный вопрос. Предположим, мертвый узник лежит на земле. Из этого мы можем сделать вывод (используя первый уровень), что А выстрелил, В выстрелил, капитан подал сигнал, а суд вынес приговор. А если бы А решил не стрелять? Остался бы узник в живых? Этот вопрос требует от нас сравнения реального мира с вымышленным и противоречащим нашему, в котором А не выстрелил. В этом вымышленном мире стрелка, ведущая к А, стерта, чтобы А мог не слушать К. Переменной А присвоено значение «неверно», но ее предыдущая история остается той же, что и в реальном мире. Итак, вымышленный мир выглядит как на рис. 6.

Чтобы пройти этот мини-тест Тьюринга, наш компьютер должен прийти к выводу: узник будет мертв в вымышленном мире тоже, потому что там его убил бы выстрел В, т. е. доблестный отказ А не спас бы его жизни. Несомненно, по этой единственной причине и существуют расстрельные команды: они гарантируют, что приговор будет приведен в исполнение, и снимают некоторое бремя ответственности с каждого стрелка в отдельности: все они могут с чистой (относительно) совестью утверждать, что их действия не привели к смерти узника, потому что «он все равно бы умер».

Может показаться, что мы приложили массу усилий, стараясь ответить на ненастоящие вопросы, с которыми и так все было ясно. Я полностью согласен! Рассуждения о причинно-следственных связах даются вам без труда, потому что вы человек, и когда-то вам было три года, и у вас был замечательный трехлетний мозг, который понимал причинно-следственные связи лучше, чем любое животное или компьютер. Весь смысл мини-теста Тьюринга в том, чтобы рассуждения о причинности стали по силам и машинам. В ходе этого процесса мы могли узнать что-то новое о том, как это делают люди. Все три примера показывают, что компьютеры нужно научить выборочно нарушать правила логики. Компьютерам трудно это делать, а детям очень легко. (И пещерным людям тоже! Человекольва не создали бы, не нарушив правила о том, какая голова подходит для того или иного тела.)

Рис. 6. Контрфактивное рассуждение. Мы наблюдаем, что узник мертв и спрашиваем, что случилось бы, если бы солдат А решил не стрелять.

Но все же не будем почивать на лаврах, утверждаясь в человеческом превосходстве. В очень многих ситуациях людям, скорее всего, будет гораздо сложнее прийти к верным выводам о причинно-следственных связях. Так, может возникнуть гораздо больше переменных и они окажутся не просто бинарными (верно/неверно). Вместо того чтобы гадать, жив или мертв узник, нам, предположим, понадобится предсказать, насколько вырастит безработица, если поднять минимальную заработную плату. Такого рода количественное рассуждение о причинно-следственных связах обычно не под силу нашей интуиции. Кроме того, в примере с расстрельной командой мы исключили неопределенность: скажем, капитан дал команду через долю секунды после того, как солдат А решил выстрелить или у солдата В заклинило ружье и т. д. Чтобы справиться с неопределенностью, нам нужна информация о вероятности таких ненормальных ситуаций.

Позвольте привести пример, в котором от вероятностей зависит все. Он отражает споры, разгоревшиеся в Европе, когда впервые появилась вакцина от оспы. Тогда статистические данные неожиданно показали, что от прививки умирает больше людей, чем от самой болезни. Естественно, некоторые люди использовали эту информацию как аргумент в пользу запрета прививок, тогда как на деле она спасала жизни, избавляя от риска заболеть. Давайте рассмотрим вымышленные данные, чтобы проиллюстрировать этот эффект и разрешить спор.

Представим, что из миллиона детей 99 % получает прививку, а 1 % – нет. Если ребенок привит, то у него или у нее есть один шанс из 100 на побочную реакцию, и в одном случае из 100 реакция может стать смертельной. В то же время, если ребенок не прививается, у него или у нее очевидно нет риска получить побочную реакцию на прививку, однако есть один шанс из 50 заболеть оспой. Наконец, давайте считать, что оспа смертельна в одном случаев из пяти.

Я думаю, вы согласитесь, что вакцинация – хорошая мысль. Шансы получить побочную реакцию ниже, чем шансы заразиться оспой, и сама реакция гораздо менее опасна, чем болезнь. Но давайте посмотрим на данные. Из миллиона детей 990 тысяч получают прививку, у 9 900 возникает побочная реакция и 99 умирает. В то же время 10 тысяч не прививаются, 200 заражаются оспой и 40 умирает. В результате от вакцины умирает больше детей (99), чем от болезни (40).

Я понимаю родителей, которые готовы устроить демонстрацию перед министерством здравоохранения с лозунгами «Прививки убивают!». И вроде бы данные подтверждают их позицию – прививки действительно вызывают больше смертей, чем сама оспа. Но на их ли стороне логика? Надо ли запретить прививки или же стоит взять в расчет предотвращенные смерти? На рис. 7 вы найдете диаграмму причинности для этого примера.

Когда мы начали, вакцинировалось 99 % детей. Теперь мы задаем контрфактивный вопрос: «А что, если снизить число вакцинированных до нуля?». Используя вероятности, которые я привел выше, мы можем прийти к выводу, что из миллиона детей 20 тысяч заразились бы оспой и 4 тысячи умерли бы. Сравнивая контрфактивный мир с настоящим, мы видим, что отсутствие прививок стоило бы жизни 3 861 ребенку (разница между 4 тысячами и 139). Стоит поблагодарить язык контрфактивных суждений, который помогает нам избежать таких потерь.

Главный урок для изучающих причинность состоит в том, что модель причинности подразумевает гораздо больше, чем простое рисование стрелок. За стрелками стоят вероятности. Когда мы рисуем стрелку от X к Y, мы подразумеваем, что некоторое правило или функция, определяющие вероятность, указывают, как изменится Y, если изменится X. В некоторых случаях мы знаем правило, но вероятнее, что его придется вывести из данных. Одна из самых интригующих особенностей Революции Причинности, однако, состоит в том, что во многих случаях можно оставить математические данные абсолютно неопределенными. Очень часто структура самой диаграммы позволяет нам оценить самые разные причинные и контрфактивные отношения – простые или сложные, детерминистские или вероятностные, линейные или нелинейные.

С вычислительной точки зрения наша схема для мини-теста Тьюринга также примечательна тем, что мы использовали один порядок действий для всех трех примеров: перевели историю в диаграмму, выслушали запрос, сделали «хирургическое вмешательство», соответствующее конкретному запросу (интервенционное или контрфактивное; если запрос о связях, вмешательства не требуется), использовали измененную причинную модель, чтобы вычислить ответ. Нам не пришлось обучать машину множеству новых запросов каждый раз, когда история менялась. Этот подход достаточно гибкий, чтобы работать каждый раз, когда возможно нарисовать диаграмму причинности – применительно к мамонтам, расстрельным командам или прививкам. Именно это мы и хотим получить от механизма причинного вывода – именно такой гибкостью обладаем мы, люди.

Рис. 7. Диаграмма причинности для примера с прививками. Полезна ли вакцинация?

Конечно, в самой диаграмме нет ничего волшебного. Она позволяет достичь успеха, потому что содержит информацию о причинах; т. е., составив диаграмму, мы спросили: «Кто может вызвать смерть заключенного напрямую?» или «Каков непосредственный эффект от вакцинации?». Если бы мы составляли диаграмму, спрашивая исключительно об ассоциациях, она не дала бы нам таких возможностей. Например, если бы на рис. 7 мы направили стрелку от оспы к прививкам, то получили бы такие же связи между данными, но пришли бы к ошибочному мнению о том, что оспа влияет на вакцинацию.

Но давайте внимательнее рассмотрим этот критерий повышения вероятности и увидим, где он дает сбой. Вопрос общей причины или вмешивающегося фактора для X и Y доставлял философам максимум неприятностей. Если взять критерий повышения вероятности как таковой, то придется заключить, что продажи мороженого вызывают преступления, так как вероятность преступлений выше в месяцы, когда продается больше мороженого. В этом конкретном случае мы объясним феномен тем, что и продажи мороженого, и преступность выше летом, когда погода теплее. Тем не менее у нас все равно остается вопрос: какой общий философский критерий способен определить, что причина – погода, а не продажи мороженого?

Философы изо всех сил старались исправить это определение – они учли в нем так называемые фоновые факторы (еще одно название для осложняющих факторов) и привлекли критерий P (Y | X, K = k) > P (Y | K = k), где K обозначает некие фоновые переменные. Более того, этот критерий работает для нашего примера с мороженым, если считать температуру фоновой переменной. Скажем, если мы рассмотрим только дни, когда температура достигает 30 °C (K = 30), то не найдем остаточных связей между мороженым и преступлениями. Иллюзия, что вероятность повышается, возникнет, только если мы сравним дни, когда было +30 °C, с днями, когда был 0 °C.

И все же ни один философ не смог дать убедительный общий ответ на вопрос: какие переменные необходимо включить в набор общих переменных K и сделать условием задачи? Проблема очевидна: осложняющие переменные – это тоже понятие из сферы причинности, поэтому они не поддаются описанию с точки зрения вероятности. В 1983 году Нэнси Картрайт вышла из тупика и обогатила описание фонового контекста элементами причинности. Она предложила учитывать только факторы, «причинно релевантные» для следствия. Позаимствовав это понятие со второго уровня Лестницы Причинности, она, по сути дела, отказалась от идеи определять причины на основе исключительно вероятности. Это был прогресс, но критики получили возможность утверждать, что мы определяем причину через нее саму.

Философские споры по поводу подобающего содержания K продолжались более 20 лет и зашли в тупик. Замечу, что мы увидим верный критерий в главе 4 и я не буду портить здесь сюрприз. На данный момент достаточно сказать, что это критерий практически нереально сформулировать без диаграмм причинности.

Обобщая, следует сказать, что вероятностная причинность всегда сталкивалась с осложняющими переменными. Каждый раз, когда приверженцы вероятностной причинности пытаются починить корабль, снабдив его новым корпусом, он натыкается на тот же подводный камень и получает очередную протечку. Но, если выразить «рост вероятности» на языке условных вероятностей, как ни подлатывай корпус, на следующий уровень Лестницы не попадешь. Как бы странно это ни звучало, понятие повышения вероятности нельзя объяснить в терминах вероятностей.

Верный способ спасти идею повышения вероятности – использовать оператор do: можно сказать, что X вызывает Y, если P (Y | do (X)) > P (Y). Поскольку интервенция – понятие второго уровня, это определение способно отразить причинную интерпретацию повышения вероятности, а еще оно будет работать на диаграммах причинности. Другими словами, если у нас на руках диаграмма причинности и данные, и исследователь спрашивает, действительно ли P (Y | do (X)) > P (Y), мы в состоянии дать связный алгоритмический ответ и таким образом решить, является ли X причиной Y в плане повышения вероятности.

Обычно я обращаю много внимания на то, что философы хотят сказать о скользких понятиях, таких как причинность, индукция или логика научных рассуждений. У философов есть преимущество: они стоят в стороне от оживленных научных дебатов и от реалий взаимодействия с данными на практике. Они в меньшей степени, чем другие ученые, заражены антипричинными предубеждениями статистики.

Они могут привлечь традицию восприятия причинности, которая восходит к Аристотелю, и говорить о причинности, не краснея и не пряча ее за этикеткой «ассоциации».

Однако, стараясь перевести понятие причинности на язык математики, что само по себе идея, достойная похвалы, философы слишком быстро прибегли к единственному известному им языку, который может описать неопределенность, – к языку вероятности. За последний десяток лет они в основном преодолели это заблуждение, но, к несчастью, похожие идеи сейчас рассматриваются в эконометрике под названиями вроде «причинность по Грэнджеру» и «векторная автокорреляция».

И сейчас я сделаю признание: я совершил ту же ошибку. Я не всегда ставил причинность на первое место, а вероятность – на второе. Наоборот! Когда я стал работать над искусственным интеллектом в начале 1980-х годов, я думал, что неопределенность – самая важная вещь, которой не хватает ИИ. Более того, я настаивал на том, чтобы неопределенность была представлена с помощью вероятностей. Таким образом, как я объясняю в главе 3, я разработал подход к рассуждениям в условиях неопределенности под названием «байесовские сети», который имитирует, как идеализированный, децентрализованный мозг может включить вероятности в принятие решений. Если мы видим определенные факты, байесовские сети способны быстро вычислить вероятность верности или неверности определенных фактов. Неудивительно, что байе-совские сети сразу обрели популярность в сообществе ИИ и даже сегодня считаются ведущей парадигмой в искусственном интеллекте для рассуждений при неопределенности.

Хотя продолжающийся успех байесовских сетей чрезвычайно радует меня, они не смогли закрыть зазор между искусственным и человеческим интеллектом. Я уверен, что вам понятно, какой составляющей не хватает – причинности. Да, призраки причинности в изобилии витали рядом. Стрелки неизменно вели от причин к следствиям, и практики часто замечали, что диагностические системы становятся неуправляемыми, если направление стрелок меняется в обратную сторону. Но по большей части мы думали, что эта культурная привычка – артефакт былых сценариев мышления, а не центральный аспект разумного поведения.

В то время меня так опьянила сила вероятностей, что я счел причинность второстепенным понятием – просто удобством или ментальной скорописью для выражения вероятностных зависимостей и отделения релевантных переменных от нерелевантных.

В своей книге 1988 года «Вероятностные рассуждения в интеллектуальных системах» (Probabilistic Reasoning in Intelligent Systems) я писал: «Причинность – язык, на котором мы можем эффективно обсуждать определенные структуры в отношениях релевантности». Я смущаюсь, вспоминая эти слова сегодня, потому что релевантность – очевидно, понятие первого уровня. Еще ко времени, когда книга была напечатана, в глубине души я знал, что был неправ. Для моих коллег – специалистов по компьютерным наукам книга стала библией вероятностных рассуждений в условиях неопределенности, но я уже чувствовал себя еретиком.

Байесовские сети существуют в мире, где все вопросы сводятся к вероятностям или (в терминах этой главы) степеням связи между переменными; они не могли подняться на второй или третий уровни Лестницы Причинности. К счастью, потребовалось всего два небольших изменения, чтобы забраться наверх. Сначала, в 1991 году, благодаря идее сделать графику «хирургическую операцию», получилось применить его и к наблюдениям, и к интервенциям. Еще один поворот, в 1994 году, вывел их на третий уровень – они стали применимы к контрфактивным суждениям. Но все это заслуживает обсуждения ниже. Главное в следующем: в то время как вероятности кодируют наши представления о статичном мире, причинность говорит нам, как вероятности меняются (и меняются ли) в статичном мире, будь то посредством интервенции или воображения.