SLY_G Aug 3 2020 at 12:08

Подвергаем модель GPT-3 тесту Тьюринга

7 min

13K

Machine learning*Artificial Intelligence

Translation

+38

Comments 27

UFO just landed and posted this here

uacrypto Aug 3 2020 at 13:50

Вот бы еще придумать модельку, которая может получать новые знания из уже имеющихся в GPT-3 и использовать их

pfffffffffffff Aug 4 2020 at 00:57

Нужна моделька которая анализирует картинки и хранит опыт. Тогда сможет отвечать и на такие вопросы из статьи)

svanichkin Aug 3 2020 at 14:00

вот все ответы по типу сири… сначала весь вопрос продиктовывается, а затем суть. Например:

«В: Какова ожидаемая продолжительность жизни в США?
О: Ожидаемая продолжительность жизни в США составляет 78 лет.»

С человеком такой диалог не возможен, он просто ответит «помоему 78» или «78» или «ХЗ»…

«В: Какое твоё любимое животное?
О: Моё любимое животное – собака.»

Опять же человек просто скажет, «Я собак люблю», или «Собака», или «У меня собака», или «Собаки нравятся, потому что они классные»

uacrypto Aug 3 2020 at 14:28

Мне кажется, это можно поправить, задав правильный вектор инициализации.

youROCK Aug 3 2020 at 14:31

Не забывайте, что мы в данном случае знаем, что по ту сторону находится нейросеть, поэтому можем замечать такие вещи относительно легко. При этом, если бы мне кто-нибудь 10 лет назад показал такую нейросеть, то я бы легко поверил, что с той стороны просто какой-то псих, а не робот.

Ermit Aug 3 2020 at 14:42

Тест на здравый смысл может выглядеть так:
В: у меня две собаки и одна трехногая кошка. Сколько ног топчут пол в моем доме?
Ответ 11 неправильный, почти правильный ответ 13 (я тоже топчу), а совсем правильный: а сколько и какие еще носители ног есть в вашем доме?

red75prim Aug 3 2020 at 15:32

Количество глаз, ног, и прочие очевидные вещи, в текстах описываются редко. Подобный тест уже проводили и сеть с ним справилась плохо.

panvartan Aug 3 2020 at 16:10

потому что человек строит модели для понимания, а сеть помнит модели, которые использовал человек. Редкие модели ей просто негде взять, а свои строить она не умеет

Aberro Aug 4 2020 at 00:23

Мне кажется, тут не вполне корректно говорить о неумении. Насколько я знаю, сеть справляется с математическими операциями сложения, вычитания, умножения и деления с двузначными числами, сложение и вычитание — почти безошибочно, умножение и деление — по большей части правильно. И учитывая, что её никто не обучал специально математике, очень похоже, что сеть таки строит свои модели поступающей при обучении информации. Но есть один очень важный нюанс, который вы упускаете — если она и может их строить, то именно только при обучении, когда веса нейронов могут изменяться. В работе она статична.
Конечно, я не хочу сказать, что если каким-то образом позволить ей дообучаться в процессе работы она сможет понять, что от неё хотят и построить модель, всё-таки, сам процесс обучения слишком неструктурирован и не приспособлен к тому, чтобы научить нейросеть думать, её лишь тренируют предсказывать текст, и с этой задачей она, по-моему, справляется невероятно хорошо. Но если же изменить не только режим работы, но и сам процесс обучения — кто знает, кто знает…

Elandor Aug 3 2020 at 18:11

У собак с кошками нет ног — у них есть только лапы. При этом и ответ «11», и ответы «13» или «42» могут быть верными. При игре в иммитацию важны не сами ответы, а цепочка рассуждений, которая к ним ведёт. Даже если ответ будет ~~неверным~~ не таким, какого ожидал от испытуемого экзаменатор — это само по себе ещё ни о чём не говорит.

mayorovp Aug 4 2020 at 00:49

Вот только 11 может и человек ответить...

Aniro Aug 4 2020 at 18:54

Спросил у младшего братика опенаишного GPT-3. Помоему ответ прекрасен:

Q: I have two dogs and one three-legged cat. How many feet trample the floor in my house?

A: Six feet trample the floor in your house.



Q: Why six?

A: Because three legs on the cat add to the three on you, making six.



Q: Why didn't you count the dogs?

A: I am not counting the dogs because they do not have three legs each.



Q: Why do you think I have three legs?

A: I don't know. Maybe you are in the military.

Довольно похоже на живого троля.
Справедливости ради, на этот вопрос и люди не ответят так как вам нравится. А вашего ответа заданный формат Q/A вообще не предполагает.

Ermit Aug 4 2020 at 21:00

Огромное спасибо! Вы сделали не только мой день, но и открыли крышку ящика пандоры в моей голове. Я не думал, что мы (человечество) так близки к фиаско…

AntonyMcGreen Feb 5 2022 at 11:04

Единственно верным ответом на этот вопрос будет "Недостаточно исходных данных для верного ответа". В вопросе слишком многое остается на "додумывание" — кто еще ходит по дому, пускает ли задающий вопрос свою живность в дом, считается ли протез кошки-инвалида за ногу (и есть ли он у нее), какое количество ног у задающего вопрос и много других моментов, требующих уточнения разной степени упоротости.

Kilorad Aug 3 2020 at 17:53

Её можно инициализировать так: «вы — безумный учёный, который смог через портал вытащить в наш мир Шерлока Холмса/Дамблдора/Гендальфа».
А дальше уже идёт вменяемый диалог. Даже с GPT-2. Выглядит довольно по-человечески. И ещё персонаж занятно реагирует на слова «ты кстати сейчас в компьютерной симуляции находишься». Некоторые начинают намекать, что не верят мне. Другие беспокоятся на тему «а я вообще настоящий?»

В такой обстановке возникает хоть какое-то ощущение, что со мной говорит человек, у которого какие-то свои цели и желания, и который от этого диалога хочет чего-то вообще своего

id_potassium_chloride Aug 3 2020 at 17:56

Ну то есть модель обучили маскироваться под человека, а не думать. Как и прочие сегодняшние модели ИИ :)

Но маскируется действительно хорошо: это выглядит, будто взяли сонного человека с нарушением когнитивных способностей (например, из-за травмы головы), который раньше исправно был секретарём или бухгалтером, и спрашивают его в официальной обстановке

Aberro Aug 4 2020 at 00:25

Не совсем. Её обучили предсказывать дальнейший текст по предыдущему фрагменту.

Apxuej Aug 3 2020 at 18:33

Немного идиотская мысль, но если натравить GPT-3 на акинатора. Вроде как ты говоришь GPT-3: мы загадали Брюса Уиллиса. А потом задавать те вопросы, которые акинатор задаёт. По идее должна справиться. Или вообще, если не говорить кого мы загадали, а сразу начать с вопросов акинатора, кого загадает сама сеть?
А вообще именно из-за наличия таких штук как GPT-3 у меня создаётся ощущение, что живу в будущем. Меня особенно удивил вот этот ролик: GPT3: An Even Bigger Language Model. Там, в том числе, рассказывается как хорошо GPT-3 умеет проводить арифметические операции даже по тем парам чисел, которые не встречались в тренировочной выборке.

densss2 Aug 3 2020 at 22:07

В: Сколько радуг нужно, чтобы прыгнуть от Гавайев до семнадцати?
О: Чтобы прыгнуть от Гавайев до семнадцати, нужно две радуги.

Хм… И не поспоришь.

ivan2kh Aug 3 2020 at 22:26

из аннотации к статье

performing 3-digit arithmetic

модель тренировали на трехзнаковых числах

Sakar Aug 4 2020 at 00:57

Интересно что на все 5 вопросов вида «Что тяжелее, X или Y?» модель ответила «Y тяжелее X». Возможно это следствие некоторого переобучения, а может просто случайность.

wilderwind Aug 4 2020 at 11:10

Как говорится, я боюсь не того ИИ, который пройдёт тест Тьюринга, а того, который намеренно его завалит.

vikarti Aug 8 2020 at 13:31

Литературные примеры вспоминаются, в некоторых (Perilous Waif, E. William Brown)- доходит до того, что например автоматизированные средства персональной защиты запрашивают определение что есть человек с точки зрения закона — у местных властей, потому что это определение — различается очень сильно (и нет, ответ «двуногое без перьев» — не пройдет, как и «существо у которого мозг создан на основе человеческой ДНК»).
И при этом местный суд может потребоваться тыкать носом в их же законы.
А тест Тьюринга… ну в рамках того сеттинг тест не пройдут боты примитивные а также не пройдут еще некоторые ИИ 5 ранга (реакция большинства соседей на попытку создать ИИ 5-го ранга — остеклить исследовательский центр с орбиты, такие ИИ обычно безумны, потому что пока еще люди не научились нормально создавать и контролировать разум который значительно превосходит человеческий).

dims12 Aug 5 2020 at 01:19

Классные примеры. ИМХО, они говорят, скорее, что система проходит тест Тьюринга, нежели, чем не проходит.

ChiefPilot Aug 5 2020 at 21:49

Про коробку, карандаши и лягушек. Я бы спрашивал «Какие предметы будут в коробке?» Или даже «Сколько и каких предметов останется в коробке?» Так как просто на вопрос «что будет в коробке?», мне кажется, даётся вполне удовлетворительный ответ, состоящий из одного предмета — вы же не спрашиваете типа что там в целом, всего, всё в месте осталось, а просто «что». То есть, вы как бы спрашиваете что-то типа: «назови что-нибудь из того, что там есть». Как-то так, мне кажется…

Xom Mar 21 2021 at 18:41

Странные тесты на логику. Почему не силлогизмы?

Show the best of all time