Тест Тюрінга
Частина з циклу про |
Штучний інтелект |
---|
Тест Тюрінга — тест, створений 1950 року задля визначення здатності машини проявляти інтелектуально обумовлену поведінку, що тотожна до поведінки людини і яку неможливо відрізнити від поведінки людини. Ідею запропонував Алан Тюрінг у статті «Обчислювальні машини та розум», опублікованій 1950 року у філософському журналі «Mind».[1]
Стандартна інтерпретація цього тесту звучить наступним чином: «Суддя взаємодіє з одним комп'ютером і однією людиною. На підставі відповідей на питання суддя повинен визначити, з ким він розмовляє: з людиною чи з комп'ютерною програмою. Завдання комп'ютерної програми — ввести суддю в оману, змусивши зробити неправильний вибір».
Всі учасники тесту не бачать один одного. Якщо суддя не може сказати точно, хто зі співрозмовників є людиною, то вважається, що машина пройшла тест. Щоб протестувати саме інтелект машини, а не її можливість розпізнавати усне мовлення, бесіда ведеться в режимі «тільки текст», наприклад, за допомогою клавіатури і екрану (комп'ютера-посередника). Листування має проводитися через контрольовані проміжки часу, щоб суддя не міг робити висновки, виходячи зі швидкості відповідей. За часів Тюрінга комп'ютери реагували повільніше за людину. Зараз це правило теж необхідне, тому що вони реагують набагато швидше, ніж людина.
Хоча дослідження в області штучного інтелекту почалися 1956 року, їхнє філософське коріння сягає глибоко в минуле. Питання, чи зможе машина думати, має довгу історію. Воно тісно пов'язане з відмінностями між дуалістичним і матеріалістичними поглядами. З точки зору дуалізму, думка не є матеріальною (або, щонайменше, не має матеріальних властивостей), і тому розум не можна пояснити тільки за допомогою фізичних понять. З іншого боку, матеріалізм говорить, що розум можна пояснити фізично, таким чином, залишаючи можливість існування розумів, створених штучно.
1936 року філософ Альфред Айер розглянув звичайне для філософії питання щодо інших умів: як дізнатися, що інші люди мають той же свідомий досвід, що і ми? У своїй книзі «Мова, істина і логіка» Айер запропонував алгоритм розпізнавання свідомої людини і несвідомої машини: «Єдиною підставою, чому я можу стверджувати, що об'єкт, який здається розумним, насправді не розумна істота, а просто дурна машина, є те, що він не може пройти один з емпіричних тестів, згідно з якими визначається наявність або відсутність свідомості». Це висловлювання дуже схоже на тест Тюрінга, проте точно не відомо, чи була відома Тюрінгу популярна філософська класика Айера.
Незважаючи на те, що пройшло понад 50 років, тест Тюрінга не втратив своєї значимості. Але в даний час дослідники штучного інтелекту практично не займаються вирішенням завдання проходження тесту Тюринга, вважаючи, що набагато важливіше вивчити основоположні принципи інтелекту, ніж продублювати одного з носіїв природного інтелекту. Зокрема, проблему «штучного польоту» вдалося успішно вирішити лише після того, як брати Райт та інші дослідники перестали імітувати птахів і приступили до вивчення аеродинаміки. У наукових і технічних роботах з повітроплавання мета цієї галузі знань не визначається як «створення машин, які в своєму польоті настільки нагадують голубів, що навіть можуть обдурити справжніх птахів».[2]
До 1956 року британські вчені вже протягом 10 років досліджували «машинний інтелект». Це питання було звичайним предметом для обговорення серед членів «Ratio Club[en]» — неформальної групи британських кібернетиків і дослідників в галузі електроніки, в якій перебував і Алан Тюрінг, на честь якого назвали тест.
Тюрінг особливо займався проблемою штучного інтелекту щонайменше з 1941 року. Одна з його перших згадок про «комп'ютерний інтелект» була 1947 року. У доповіді «Інтелектуальні машини» Тюрінг досліджував питання, чи може машина виявляти розумну поведінку, і в рамках цього дослідження запропонував те, що може вважатися предтечею його подальших досліджень: «Неважко розробити машину, яка буде непогано грати в шахи. Тепер візьмемо трьох осіб — суб'єктів експерименту. А, В і С. Нехай А і С погано грають в шахи, а В — оператор машини. […] Використовуються дві кімнати, а також деякий механізм для передачі повідомлень про ходи. Учасник С грає або з А, або з машиною. Учасникові С може бути важко відповісти, з ким він грає.»
Таким чином, до моменту публікації 1950 року статті «Обчислювальні машини й розум» Тюрінг вже протягом багатьох років розглядав можливість існування штучного інтелекту. Проте дана стаття стала першою статтею Тюрінга, в якій розглядалося виключно це поняття.
Тюрінг починає свою статтю твердженням: «Я пропоную розглянути питання „Чи можуть машини думати?“». Він підкреслює, що традиційний підхід до цього питання полягає в тому, щоб спочатку визначити поняття «машина» й «інтелект». Тюрінг, однак, вибрав інший шлях; замість цього він замінив вихідне питання іншим, «яке тісно пов'язане з вихідним питанням і формулюється недвозначно». По суті, він пропонує замінити питання «Чи думають машини?» питанням «Чи можуть машини робити те, що можемо робити ми (як істоти, що мислять)?». Перевагою нового питання, як стверджує Тюрінг, є те, що він проводить «чітку межу між фізичними та інтелектуальними можливостями людини».
Щоб продемонструвати цей підхід, Тюрінг пропонує тест, придуманий за аналогією до гри для вечірок «Imitation game» — імітаційна гра. У цій грі чоловік і жінка йдуть в різні кімнати, а гості намагаються розрізнити їх, ставлячи їм серію письмових запитань і читаючи надруковані на машинці відповіді на них. За правилами гри і чоловік, і жінка намагаються переконати гостей, що все навпаки. Тюрінг пропонує переробити гру наступним чином: "Тепер запитаймо себе, що трапиться, якщо в цій грі роль А виконуватиме машина? Чи буде той, хто питає, помилятися так само часто, як тоді, коли б він грав з чоловіком і жінкою? Ці питання замінюють собою вихідне «Чи може машина думати?».
У тій же доповіді Тюрінг пізніше пропонує «еквівалентне» альтернативне формулювання, що включає суддю, який розмовляє тільки з комп'ютером і людиною. Поряд з тим, що жодне з цих формулювань точно не відповідає тій версії тесту Тюрінга, яка найбільш відома сьогодні, 1952-го вчений запропонував третю. У цій версії тесту, яку Тюрінг обговорив в ефірі радіо Бі-Бі-Сі, журі ставить запитання комп'ютерові, а роль комп'ютера полягає в тому, щоб змусити значну частину членів журі повірити, що він насправді людина.
У статті Тюрінга враховано 9 передбачуваних питань, які включають всі основні заперечення проти штучного інтелекту, підняті після того, як статтю вперше опублікували.
Блей Вітбі[en] вказує на чотири основні поворотні точки в історії тесту Тюрінга — публікація статті «Обчислювальні машини й розум» 1950 року, повідомлення про створення Джозефом Вейценбаумом програми Еліза (англ. ELIZA) 1966 року, створення Кеннетом Колбі програми PARRY, яку було вперше описано 1972 року, і Колоквіум Тюрінга 1990 року.
Принцип роботи Елізи полягає в дослідженні введених користувачем коментарів на наявність ключових слів. Якщо знайдено ключове слово, то застосовується правило, за яким коментар користувача перетворюється і повертається результат. Якщо ж ключове слово не знайдене, Еліза або повертає користувачеві загальну відповідь, або повторює один з попередніх коментарів. До того ж Уайзенбаум запрограмував Елізу на імітацію поведінки психотерапевта, що працює за клієнт-центрованою методикою. Це дозволяє Елізі «прикинутися, що вона не знає майже нічого про реальний світ». Застосовуючи ці способи, програма Уайзенбаума могла вводити в оману деяких людей, які думали, що вони розмовляють з реально існуючою людиною, а деяких було «дуже важко переконати, що Еліза […] не людина». На цій підставі деякі стверджують, що Еліза — одна з програм (можливо перша), які змогли пройти тест Тюрінга. Однак це твердження дуже спірне, тому що людей, «які задають питання», інструктували так, щоб вони думали, що з ними буде розмовляти справжній психотерапевт, і не підозрювали про те, що вони можуть розмовляти з комп'ютером.
Робота Колбі — PARRY — була описана, як «Еліза з думками»: програма намагалася моделювати поведінку параноїдального шизофреніка, використовуючи схожий (а то й більш просунутий) з Елізою підхід, застосований Уайзенбаумом. Для того щоб перевірити програму, PARRY тестували на початку 70-х, використовуючи модифікацію тесту Тюрінга. Команда досвідчених психіатрів аналізувала групу, складену з реальних пацієнтів і комп'ютерів під управлінням PARRY, використовуючи телетайп. Інший команді з 33 психіатрів пізніше показали стенограми розмов. Потім обидві команди попросили визначити, хто з «пацієнтів» — людина, а хто — комп'ютерна програма. Психіатри лише в 48 % випадків змогли винести правильне рішення. Ця цифра узгоджується з ймовірністю випадкового вибору. Ці експерименти не були тестами Тюрінга в повному сенсі, оскільки для винесення рішення даний тест вимагає, щоб питання можна було ставити в інтерактивному режимі, замість читання стенограми бесіди, що вже пройшла.
Майже всі розроблені програми і близько не підійшли до проходження тесту. Хоча такі програми, як Еліза, іноді змушували людей вірити, що вони говорять з людиною, як, наприклад, в неформальному експерименті, названому AOLiza, але ці випадки не можна вважати коректним проходженням тесту Тюрінга за цілою низкою причин:
- Людина в таких бесідах не мала ніяких підстав вважати, що вона говорить з програмою, в той час як у справжньому тесті Тюрінга людина активно намагається визначити, з ким вона розмовляє.
- Задокументовані випадки зазвичай належать до таких чатів, як IRC, де багато бесід уривчасті і безглузді.
- Багато користувачів Інтернету використовують англійську мову як другу або третю мову, так що безглузді відповіді програми легко можуть бути списані на мовний бар'єр.
- Багато хто просто нічого не знають про Елізу і їй подібні програми, і тому не визнають співрозмовника програмою навіть в разі абсолютно нелюдських помилок, які ці програми допускають.
1980 року в статті «Розум, мозок і програми» Джон Серль висунув аргумент проти тесту Тюрінга, відомий як уявний експеримент «Китайська кімната». Серль наполягав, що програми (такі як Еліза) змогли пройти тест Тюрінга, просто маніпулюючи символами, значення яких вони не розуміли. А без розуміння їх не можна вважати «розумними» в тому ж сенсі, що і людей. «Таким чином, — робить висновок Серль, — тест Тюрінга не є доказом того, що машина може думати, а це суперечить споконвічному припущенню Тюрінга».
Такі аргументи, як запропонований Серлєм, а також інші, засновані на філософії розуму, породили набагато бурхливіші дискусії про природу розуму, можливості існування розумних машин і значущості тесту Тюрінга, що тривали протягом 80-х і 90-х років.
1990 року відбулася сорокова річниця публікації статті Тюрінга «Обчислювальні машини й розум», що відновило інтерес до цього тесту. В тому році відбулися дві важливі події.
Одна з них — колоквіум Тюрінга, який проходив в квітні в Університеті Сассекса. В його рамках зустрілися академіки і дослідники з різноманітних галузей науки, щоб обговорити тест Тюрінга з позицій його минулого, сьогодення і майбутнього. Другою подією стало заснування щорічного змагання на здобуття премії Льобнера (англ. Loebner prize).
7 червня 2014 року, на конкурсі, присвяченому 60-річчю з дня смерті Тюрінга, комп'ютерна програма «Євген Густман», що видавала себе за 13-річного хлопчика з України, переконала 33 % суддів, що вона людина, ставши першим в історії комп'ютером, але багато скептиків не вважають, що тест було пройдено.[3][4]
Щорічний конкурс «AI Loebner» на здобуття премії Лебнера є платформою для практичного проведення тестів Тюрінга. Перший конкурс пройшов, коли був 1991 рік. Приз гарантований Г'ю Льобнером (Hugh Loebner). Кембриджський центр досліджень поведінки, розташований в Массачусетсі (США), надавав призи по 2003 рік включно. За словами Льобнера, змагання було організовано з метою просування вперед в області досліджень, пов'язаних зі штучним інтелектом, частково тому, що «ніхто не зробив заходів, щоб це здійснити».
Срібна (текстова) і золота (аудіо і зорова) медалі ніколи ще не вручалися. Проте щорічно з усіх представлених на конкурс комп'ютерних систем судді нагороджують бронзовою медаллю ту, яка, на їхню думку, продемонструє «найбільш людську» поведінку в розмові. Не так давно програма «Штучна лінгвістична інтернет-комп'ютерна істота» (Artificial Linguistic Internet Computer Entity — A.L.I.C.E.) тричі завоювала бронзову медаль (у 2000, 2001 і 2004 роках). Здатна до навчання програма Jabberwacky[5] перемагала в 2005 і 2006 роках. Її творці запропонували персоналізовану версію: можливість пройти імітаційний тест, намагаючись більш точно зімітувати людину, з якою машина тісно поспілкувалася перед тестом.
Конкурс перевіряє здатність розмовляти; переможцями стають зазвичай чат-боти, або «Штучні розмовні істоти» (англ. Artificial Conversational Entities, ACEs). Правилами перших конкурсів передбачалося обмеження. Згідно з цим обмеженням кожна бесіда з програмою або прихованою людиною могла бути тільки на одну тему. Починаючи з конкурсу 1995 року, це правило скасовано. Тривалість розмови між суддею і учасником була різною в різні роки. 2003 року, коли конкурс проходив в Університеті Суррея[en], кожен суддя міг розмовляти з кожним учасником (машиною або людиною) рівно 5 хвилин. З 2004 по 2007 роки цей час становив вже понад 20 хвилин. 2008 року максимальний час розмови становив 5 хвилин на пару, тому що організатор Кевін Уорік і координатор Г'юма Ша (англ. Huma Shah) вважали, що ACE не мали технічних можливостей підтримувати тривалішу бесіду. Переможець 2008 року, Elbot[6], не прикидався людиною, але все-таки зумів обдурити трьох суддів. У конкурсі, проведеному 2010 року, час було збільшено до 25 хвилин при спілкуванні між системою і дослідником, на вимогу спонсора (програми просунулися вперед в здатності імітувати людину, і тільки лише при тривалій бесіді з'являються нюанси, що дозволяють виявляти співрозмовника). Конкурс, проведений 15 травня 2012 року, відбувся вперше в світі з прямою трансляцією бесіди, що тільки підняло інтерес до даного конкурсу.
Поява конкурсу на здобуття премії Лебнера призвела до відновлення дискусій про доцільність тесту Тюрінга, про значення його проходження. У статті «Штучна тупість» газети The Economist відзначається, що перша програма-переможець конкурсу змогла виграти частково тому, що вона «імітувала людські помилки». (Тюрінг запропонував, щоб програми додавали помилки в висновок, щоб бути кращими «гравцями»). Існувала думка, що спроби пройти тест Тюрінга просто перешкоджають більш плідним дослідженням.
Під час перших конкурсів була виявлена друга проблема: участь недостатньо компетентних суддів, які піддавалися вміло організованим маніпуляціям, а не тому, що можна вважати інтелектом.
Проте з 2004 року як співрозмовники в конкурсі беруть участь філософи, комп'ютерні фахівці та журналісти.
Варто зауважити, що повного діалогу з машиною поки не існує. А те, що є, більше нагадує спілкування в колі друзів, коли відповідаєш на запитання одного, а слідом задає питання інший або якби на твоє запитання відповідав хтось зовсім сторонній. На цьому і можна ловити машинну програму, якщо перевіряти її за тестом Тюрінга.
Суддівство на конкурсі дуже суворе. Експерти заздалегідь готуються до турніру і підбирають досить хитромудрі питання, щоб зрозуміти, з ким же вони спілкуються. Їх розмова з програмами нагадує допит слідчого. Судді люблять, наприклад, повторювати деякі питання через певний час, оскільки слабкі боти не вміють стежити за історією діалогу і їх можна зловити на одноманітних відповідях[7].
У листопаді 2005 року в Університеті Суррея[en] проходила одноденна зустріч розробників ACE, яку відвідали переможці практичних тестів Тюрінга, що проходили в рамках конкурсу на отримання премії Льобнера: Роббі Гарнер[en], Річард Уоллес[en], Ролл Карпентер[en]. У числі запрошених доповідачів були Девід Хемілл[en], Г'ю Льобнер і Г'юма Ша.
2008 року поряд з проведенням чергового конкурсу на здобуття премії Льобнера, що проходив в Університеті Редінга[en], Товариство вивчення штучного інтелекту і моделювання поведінки[en] (англ. The Society for the Study of Artificial Intelligence and Simulation of Behavior — AISB) провело одноденний симпозіум, на якому обговорювався тест Тюрінга. Симпозіум організували Джон Бернден (англ. John Barnden), Марк Бішоп[en], Г'юма Ша і Кевін Ворвік. У числі доповідачів були директорка Королівського інституту баронеса Сьюзен Грінфілд[en], Сельмер Брінгсорд[en], біограф Тюрінга Ендрю Ходжес[en] і науковець Оуен Холланд[en]. Ніякої угоди про канонічні тести Тюрінга не з'явилося, однак Брінгсорд припустив, що більша премія сприятиме тому, що тест Тюрінга буде пройдено швидше.
2012 року відзначався ювілей Алана Тюрінга. Протягом всього року проходило безліч великих заходів. Багато з них проходили в місцях, які мали велике значення в житті Тюрінга: Кембридж, Манчестер і Блечлі-Парк. Рік Алана Тюрінга[en][8] керується організацією TCAC (Turing Centenary Advisory Committee), що здійснює професійну та організаційну підтримку заходів 2012 року. Також підтримкою заходів займаються: ACM, ASL, SSAISB[en], BCS, BCTCS[en], Блечлі-Парк, BMC[9], BLC[10], CCS[11], Association CiE[en][12], EACSL[en], EATCS[en], FoLLI[en], IACAP[en], IACR, KGS[en] і LICS[en].
Для організації заходів з відзначення в червні 2012 року сторіччя з дня народження Тюрінга створено спеціальний комітет, завданням якого є донести думку Тюрінга про розумну машину, відображену в таких голлівудських фільмах, як «Той, що біжить по лезу», до широкого загалу, включаючи дітей. У роботі комітету беруть участь: Кевін Ворвік, голова, Г'юма Ша, координатор, Ян Бланд (англ. Ian Bland), Кріс Чапмен (англ. Chris Chapman), Марк Аллен (англ. Marc Allen), Рорі Данлоуп (англ. Rory Dunlop), переможці конкурсу на здобуття премії Льобнера Роббі Гарне і Фред Робертс (англ. Fred Roberts). Комітет працює за підтримки організації «Жінки в техніці[en]» (англ. Women in Technology) і Daden Ltd.
На цьому конкурсі росіяни, імена яких не розголошувалися, представили програму «Євген Густман»[13]. У 150 проведених тестах (а по факту п'ятихвилинних розмовах) брали участь п'ять новітніх програм, які «загубилися» серед 25 звичайних людей. Програма «Євген Густман», що зображала 13-річного хлопчика, який проживає в Одесі, стала переможцем, зумівши в 29,2 % своїх відповідей ввести екзаменаторів в оману. Таким чином, програма не добрала всього 0,8 % для повного проходження тесту.
Існують принаймні три основні варіанти теста Тюрінга, два з яких було запропоновано в статті «Обчислювальні машини й розум», а третій варіант, за термінологією Сола Трейджера (англ. Saul Traiger), є стандартною інтерпретацією.
Поряд з тим, що існує певна дискусія, чи відповідає сучасна інтерпретація тому, що описував Тюрінг, або вона є результатом невірного тлумачення його робіт, всі три версії не вважаються рівносильними, їх сильні і слабкі сторони розрізняються.
- Cohen, Paul R. (2006), 'If Not Turing's Test, Then What?, AI Magazine, 26 (4) (англ.)
- Moor, James H. (2001), The Status and Future of the Turing Test, Minds and Machines, 11 (1): 77—93, doi:10.1023/A:1011218925467, ISSN 0924-6495. (англ.)
- ↑ Turing, Alan (October 1950), Computing Machinery and Intelligence, Mind (англ.), LIX (236): 433—460, doi:10.1093/mind/LIX.236.433, ISSN 0026-4423
- ↑ other / turing-test.html Портал штучного інтелекту
- ↑ Комп'ютер вперше в історії зміг видати себе за людину
- ↑ [1] Хабрахабр. Тест Тьюринга пройден (на детском уровне сложности)
- ↑ Jabberwacky [Архівовано 11 квітня 2005 у Wayback Machine.] (англ.)
- ↑ Elbot (англ.)
- ↑ = 62564 Пройти тест Тьюринга не так-то просто // pcweek.ru
- ↑ Swansea Alan Turing Year Events. Архів оригіналу за 11 червня 2011. Процитовано 14 березня 2017. [Архівовано 2011-06-11 у Wayback Machine.] (англ.)
- ↑ British Mathematical Colloquium. (англ.)
- ↑ British Logic Colloquium. (англ.)
- ↑ Computer Conservation Society. (англ.)
- ↑ Computability In Europe - CiE. Архів оригіналу за 17 лютого 2011. Процитовано 18 вересня 2016. [Архівовано 2011-02-17 у Wayback Machine.] (англ.)
- ↑ Макарчев, Віталій (22 серпня 2012). Програма "Євген" майже пройшла текст математика Алана Тюрінга. ІТАР-ТАРС. Архів оригіналу за 9 червня 2014. Процитовано 9 червня 2014. (рос.)