Pull to refresh

Comments 59

Существуют убедительные данные, что мы — люди — воспринимаем мир с помощью структуры.

Думаю, человек может воспринимать мир как угодно.

Это значит, что мы делим все сложные абстрактные понятия на части, и воспринимаем все объекты и понятия как сложные составные сущности, состоящие из простых элементов (building blocks), которые взаимодействуют между собой (имеют relations).

Из ложной посылки может следовать что угодно.

Да, вы правы в том, что неизвестно досконально, как именно человек воспринимает мир. Я и не претендую на истину, я лишь со ссылкой на научные исследования (в разделе литература) привожу, что одна из (и очень вероятная) гипотеза состоит в том, что человек оперирует понятием структуры. В статьях в разделе "литература" описаны методы исследований, которым ученые это проверяли.

Короче, я описываю одну из гипотез человеческого восприятия и показываю, как это может делать наше взаимодействие с миром эффективнее

Дело не в доскональности или истинности. Просто не нужно делать подмену реальности ее описанием (моделью), это грубая ошибка. Особенно в таких сферах как сознание, восприятие, мышление.

Я не делаю подмену реальности, я ж не говорю, что я полностью описываю то, как работает человеческое мышление) Это одно из его свойств. Точно так же, как в психологии есть много различных моделей поведения/мышления человека — никакая из них не является точной, но все они описывают некие общие свойства разума и помогают в работе над психикой. Так и тут — эта модель помогает что-то понять о мышлении и, возможно, построить лучший ИИ

Полнота тут не при чем. Но вот искажение - хуже неполноты. Вместо "мышление работает во так" более корректно и скромно сказать что "мышление можно [рассмотреть, cмоделировать, описать], например, так-то и так-то". Ощутите, что называется, разницу в претенциозности и трезвости рассуждений.

Я поняла, что вы придираетесь к формулировке. Да, возможно, она не самая удачная и ее можно понять не так, как я задумывала. Я подумаю, возможно исправлю. На всякий случай поясню еще раз: я вообще не имею в виду, что "мышление работает вот так", и даже не "мышление можно смоделировать вот так". Я не моделирую мышление целиком. Я говорю, что одно из свойств нашего мышления в том, что оно использует структурное восприятие. Т.е. "мы воспринимаем мир с помощью структуры" — это не то же, что "мы воспринимаем мир только с помощью структуры". Кроме структуры в мышлении есть еще много составляющих, многие из которых нам непонятны .

Я не моделирую мышление целиком. Я говорю, что одно из свойств нашего мышления в том, что оно использует структурное восприятие.

Здесь снова ошибка. "Оно" ничего не использует и уж тем более что-то структурное. Это Вы моделируете "его" таким образом, причем это лишь один из вариантов. То есть, Вы проецируете то, как вы "его" понимаете на "него" же (приписываете то что "оно" работает именно так как вы это понимаете). Ну, а еще одна ошибка считать смысл формулировкой и аргументы придирками. Но это уже личное, оставим этот пункт в стороне.

Нет, я все же ничего не моделирую. Моделировать и описывать одно из свойств — разные вещи.
Формулировка порождает смысл у читающего в голове. Про "придираетесь" прошу прощения, если слово вас задело.

Нет, я все же ничего не моделирую.

А кто сводил восприятие к структурам? Если это были не Вы то извините, значит кто-то еще пишет с вашего аккаунта.

Моделировать и описывать одно из свойств — разные вещи.

Посмотрите на небо. Там Вы найдете (увидите) барашка. Потом скажите друзьям что небо состоит из барашков. Но это не полная картина, там еще может быть черепашка и мало ли чего еще. Просто мы его еще не до конца исследовали. Как-то так. Абсурд, вобщем.

Я не свожу восприятие к структурам, я указываю, что понимание структуры — одно из свойств восприятия. Пишу это уже раз третий, наверное.

Про барашка: да, это одно из свойств неба: на нем иногда может появляться что-то похожее на барашка. Если бы нам казалось, что барашек как-то помогает небу, то при моделировании небыли было бы логично попытаться барашка повторить. Да, в случае с небом понятно, что барашек — это вообще не фундаментальное его составляющее, и мы ошибались, думая, что моделировать барашка — хорошо. Также может быть и со структурой в восприятии. Но на данный момент нашего (хорошо, моего) понимания мышления кажется, что это свойство мышления нам помогает. И идея внедрить его в ИИ не лишена смысла.

Я не свожу восприятие к структурам, я указываю, что понимание структуры — одно из свойств восприятия. Пишу это уже раз третий, наверное.

Вот здесь и ошибка. Свойства восприятия - универсальность, несводимость ни к чему одному, гибкость, чувственность и так далее. А то, что свойственно вашему видению не характеризует видимое от слова никак. Как барашковость не описывает небо, как цилиндричность не описывает форму воды в стакане и так далее. Вы до сих пор не видите подмену и проекцию в ваших рассуждениях? Если да то чудеса таки есть в этом мире :)

Мне становится довольно неприятно то, как вы выражаетесь. "Абсурд, в общем", "чудеса таки есть". Если честно, я вижу здесь нотку издевки.

Да, возможно, я ошибаюсь. Это нормально. И я дискутирую с вами в комментариях, чтобы разобраться в этом и, возможно, как-то поправить и расширить свое представление.

Но я все еще не вижу подмену и проекцию, да. Напротив, я вижу, что вы путаете следствие и признак. Цилиндричность не является признаком воды в стакане, как и структура не является признаком мышления. Но цилиндричность является свойством воды в стакане, как структура является свойством мышления.

Но цилиндричность является свойством воды в стакане, как структура является свойством мышления.

Мы живем в разных мирах. В моем свойством воды (жидкой) является принятие любой формы. А уж свойство стакана - цилиндричность. Зачем мне именно такое описание? А чтобы подойти, вылить воду и мир остался таким же как я его понимал и до этого. А мышление, конечно же, может быть вырождено (сведено) к структурному, логическому. Но логичность будет характеризовать не мышление, а акт сведения. Если Вы понимаете о чем я.

А я вам и говорю, что я не утверждаю, что "мышление таково", вот и все.

Я живу в математическом мире. В нем четко определены понятия свойства и признака объектов. И цилиндричность стакана с водой — вполне себе свойство. Если определять свойство как "свойство это то что мне хочется называть свойством", то ни о какой строгости и правильности формулировок речи быть не может.

Я живу в математическом мире. В нем четко определены понятия свойства и признака объектов. И цилиндричность стакана с водой — вполне себе свойство.

Не похоже что Ваш мир математический, он скорее спутанный. Осознавание нетождественности мира его картине, модели, представления (в Вашем уме) здесь бы помогло.

Я прекрасно это осознаю, о чем я писала уже в половине своих комментариев

И еще про "суть ваше видение". Отчасти да, но именно затем, чтобы мои слова были подкреплены чем-то большим, чем "мое видение", я привожу ссылки на научные работы, которые это "видение" подкрепляют. Поэтому я пишу "существуют убедительные данные, что", а не просто, что мы все воспринимаем структурно.

Убедительные? Подкрепляют? Простите, это не аргументация, а тенденциозность.

Возражу. Реальности как таковой для человека не существует от слова совсем. В голове - сложная модель реальности, мы пытаемся ее повторить на другом "железе" и на других принципах, но это именно две модели

В голове не модель, а потенциал. Поэтому одно к другому и несводимо.

Объясните пожалуйста, что за потенциал вы имеете в виду, и что к чему несводимо?

Реальность (восприятие) можно чувствовать, понимать, описывать, моделировать как угодно. Говорить что она именно "такова" - это и есть сводить ее к конкретной модели. Отсюда и потенциал - чистое сознание (как у ребенка) может освоить любые способы описания мира, в зависимости от того, в какой культуре оно развивается. Так понятно?

Не просто иерархия обьектов важна, но очень важно понимание свойств этих обьектов и способов их взаимодействия между собой.
Нужно уметь видеть не только стол и чашку, но и «чашность» по Платону, и «стольность».
Та самая «чашность» может быть обнаружена даже у человеческой ладони, особым образом сложенной, чтобы зачерпнуть воду из источника.

это тоже верно. Структура и иерархия — не единственные свойства человеческого мышления)

"Например, нейросеть, которая отлично распознает лица европейцев, будет плохо работать на лицах людей из Африки."

чтож тут мы с нашим творением на равных

часто возникают вопрос, что если учить не на 2д изображениях, а на 3д моделях и 2д изображениях?

Честно — не знаю, что будет, если учить на 3D моделях. Скорее всего, это внесет больше дополнительной информации в модель и она сможет работать лучше

Я бы рядом с сервером нейросети поставил еще сервер, реализующий некий виртуальный мир, в котором ИИ мог бы создавать все предметы, которые распознал, и изучать их.
Пусть он сам строит 3D модели обектов, которые увидел на фотках, и выдвигает гипотезы о их предназначении и свойствах.
Вертит под разными углами, меняет освещение, перекрывает другими предметами и изучает что при этом происходит.
Задает вопросы людям, или ищет самостоятельно информацию.
А если в этот виртуальный мир еще и запустить цифровые копии реальных людей в реальном времени, и предложить этим людям взаимодействовать с предметами, обучая таким образом ИИ тому, как эти предметы используются, то получим… барабанная дробь… «META».
Да, наверняка, это не просто площадка для организации взаимодействия людей :)))
Я потихоньку занимаюсь разработкой алгоритмов поиска закономерностей в текстах без нейронок. Что я могу сказать: там есть структуры. Для изображений там должны быть алгоритмы отчасти похожи.

Алгоритмы такие работают очень быстро относительно нейронок. Эффективность выделения структур такими алгоритмами, логически рассуждая, выше чем у нейронок, просто потому, что точные алгоритмы всегда эффективней нейронок, если таковые сумели сделать. Это как расчет корелляции или МНК, производится за один проход и находится лучший вариант, вместо много-итерационного подхода у нейронок.

Проблема таких алгоритмов в том, что структура закономерности может быть любой конфигурации, а точный алгоритм работает лишь под определенную заложенную заранее структуру. Соответственно нужно создать достаточно много вариантов сканирования закономерностей.

Очередная попытка программистов поиграть в науку и натянуть паттерны объектно-ориентированного программирования на работу головного мозга. Для начала- попробуйте нарисовать иерархическую структуру мышления человека, объясняющую различные агнозии при повреждениях головного мозга в предположении, что поврежденная структура отвечает как минимум за один объект в иерархии.

Этим я хочу сказать, что не вижу пока оснований проводить параллели в функционировании нейросетей с человеческим мозгом. Сам рассказ о нейросетях довольно интересен.

структурное мышление позволяет нам создавать новое 

Это как? Кто то уже опроверг теорему Геделя о неполноте? Не сдержался от легкой иронии...

Мне кажется, вы меня неправильно поняли: я совсем не утверждаю, что мозг структурен и каждый его элемент отвечает за какой-то объект в иерархии. Я говорю, что мы воспринимаем объекты окружающего мира в том числе с помощью структуры. О том, как именно работает мозг и, не дай бог, о связи с нейросетями, я не говорю. Мой посыл: если человеку структурное восприятие помогает взаимодействовать с миром, то кажется логичным попытаться этот механизм внедрить в нейросети. При этом вообще не утверждается, что нейросети похожи на мозг ни в плане дизайна, ни в плане функции.

Про "создавать новое": имеется в виду новое для каждого конкретного человека.

Спасибо автору за статью, было интересно почитать.
У меня к вам вот такой вопрос. Есть ли у вас идеи, как построить машину "основанную на градиентном поиске", которая бы могла отличить правильное скобочное выражение от неправильного (то есть из примеров научилась бы отличать одни от других) и машину, способную ответить, являются ли две разделенные пробелом последовательности цифр записями двух последовательных натуральных чисел (n и n+1). Оба примера - это задачи контестносвободных грамматик - простейших языков, в которых глубина определения понятий может быть сколь угодно большой.

Да по идее с такими несложными задачами должны даже примитивные LSTM'ки справляться.
Думаю, большинство из тех, кто изучал нейросети, натыкались на туториал с нейросетевым символьным калькулятором на LSTM: в процессе обучения сети «скармливается» большой обучающий набор символьных последовательностей вида «99+12/5» и правильных ответов к ним, и сетка быстро обучается счёту, ничего заранее не зная о правилах математики.
И это очень маленькая сеточка весом менее 10Мб, которую можно даже на CPU обучать.
Проблема лишь в том, что точность её ответов не равна 100%. Она может быть очень большой, более 97%, но никогда не станет абсолютной, и в вычислениях всё равно будут проскакивать ошибки. Это фундаментальная проблема всех нейросетей (в том числе живых межушных).

Вангую, что точность чрезвычайно просядет, если дать lstm-калькулятору примеры с числами, хотя бы в двое превышающими характерную длину чисел в тренеровочных данных. Да, контестносвободные и контектнозавиимые грамматики, ели ограничить длину разбираемых слов константой, можно разбирать автоматами, но без ограничений - нельзя. LSTM-архитектура является автоматной до мозга костей: боюсь, неограниченную арифметику она не потянет.

Вы говорите "основная сложность внедрения структурного восприятия в модели машинного обучения — это то, как сделать структуру гибкой".

Ответ, как мне кажется, уже содержится в вопросе - нужно использовать структурную адаптацию, а не параметрическую, как все (или не все?) делают.

Параметрическая адаптация означает, что подстраиваются числовые параметры модели, минимизируются различные ошибки и пр.

Структурная адаптация - означает, что модель не работает с символами (числами), а работает по принципу адаптивного пространственно-временного фильтра для входящих потоков данных, просто перенаправляя потоки в правильном направлении.

Как сделать подобную адаптацию - до конца не знаю)

Так в этом-то и затык: как сделать структурную адаптацию?)

Понятие структурной адаптации далеко не новое. Как сейчас её делают, анализировали?)

Мы в Государственном архиве РФ создаем виртуального сотрудника иподключаем в него различные модели мышления, ставим приоритеты по их последовательному применению для понимания запросов граждан: дедуктивное - экспертные системы самый первый приоритет анализа - дает достоверную картину; второй приоритет - интуитивное мышление на основе ассоциативного анализа по спец словарям; индуктивное мышление третьего приоритета на основе нейросетей распознает типовые сущности - эвристики и дает правдоподобные оценки в случае, если 1 и 2 модель мышления не сработала и наконец 4 приоритет это абдуктивный анализ на основе сравнения всех предыдущих методов пытается построить новую картину происходящего.

Ну здрасте, приехали. Ещё совсем недавно, каких-то 20 лет назад, отличием человеческого ума от ИИ было как раз то, что мы воспринимаем вещи как единое целое, а для ИИ (был тогда представлен экспертными системами, базами знаний, системами логического вывода) всё нужно разложить на структуры.
По ходу дела, просто память у ребят короткая.

Абсолютно согласен. Индуктивные методы, читай нейросети, очень не достоверны и мало применимы для организаций, которые хранят и обрабатывают достоверные данные, например государственные архивы.

А 150 лет назад люди не верили, что мытье рук хирургами помогает избежать инфекций при операциях. Мир и наука так и развиваются: представления сменяют друг друга, становятся сложнее. Говорить "мы воспринимаем как целое" — это очень грубое представление того, как работает мышление)

Так никто ж не заставляет эти организации использовать нейросети) Для хранения и обработки важных данных используются другие алгоритмы

Я не о том, какое из двух представлений о том, как работает мышление, является правильным. Если честно, оба мусор. Мне забавно наблюдать, как технохайп влияет на культурные феномены. В данном случае мы наблюдаем, как фокус внимания вернулся к мышлению структурами.

Восприятие (будем говорить далее конкретно – зрительное восприятие) достаточно сложный многоэтапный и иерархически организованный процесс формирования текущей предметной картины среды (текущей модели обстановки), который в том числе включает в себя распознавание (опознание). Процесс восприятия реализуется и организуется в единое целое активностью некоторой совокупности функционально-специфических нейронных ансамблей ЦНС для достижения главного полезного для организма результата – построения текущей предметной картины среды (обстановки). И не стоит думать, что это справедливо только для человека.  Также не стоит надеяться та то, что, и распознавание (опознание), как составная часть зрительного восприятия, происходит «одномоментно», одним проходом через сложный нейросетевой ансамбль, на который (на однопроходную процедуру) большие надежды, как я полагаю, возлагают нейросетевики, в том числе упомянутые в статье (что само по себе удивительно – это специалисты высокой квалификации – и я уверен что они знакомы с соответствующими исследованиями  психологов и нейрофизиологов). Распознавание также достаточно сложный процесс: вспомним, например, про важнейшую роль саккад – задействование глазодвигательной системы – в этом процессе, или зрительные иллюзии (применительно ко всему процессу зрительного восприятия). Но и механически вырывать его из  общего процесса восприятия и пытаться найти некую «волшебную» архитектуру нейросети, которая гарантировано обеспечила 100% распознавание при выполнении перечисленных в статье дополнительных требований к ней, мне кажется неразумно, и даже невозможно.

Для подтверждения вышесказанного не буду вдаваться в детали надежно установленных фактов по зрительному восприятию которые прямо или косвенно приводят к такому выводу – при желании лучше ознакомиться с работами А.Л. Ярбуса, Н.В. Позина, В.П. Зинченко, Б.М. Величковского, Н.Ю. Веригилес, В.А. Барабанщикова, Е.Н. Соколова, А.Н. Радченко, а также их соавторов и многочисленных коллег - других крупных психологов и (нейро)физиологов (ссылки на зарубежных авторов можно найти в публикациях вышеуказанных исследователей). Работы этих исследователей как раз и приводят к пониманию процессов распознавания и зрительного восприятия как сложного (комплексного) психофизиологического процесса. Игнорировать их результаты при попытках моделирования искусственного разума (ИР) нерационально. Это надежная опора для понимания в каком направлении при этом нужно двигаться.

В дополнение к (нейро)психо(физио)логическим результатам которые могут, как мне кажется, помочь в продвижении к заветной цели – построению ИР (с точки зрения применения структурных методов для распознавания образов), то можно сослаться на достаточно старую работу Фу К.С. Структурные методы в распознавании образов (1974, 1977).

Спасибо за комментарий) То, что вы пишете, безусловно, верно.

Но хочу дать два комментария:

"Также не стоит надеяться та то, что, и распознавание (опознание), как составная часть зрительного восприятия, происходит «одномоментно», одним проходом через сложный нейросетевой ансамбль, на который (на однопроходную процедуру) большие надежды, как я полагаю, возлагают нейросетевики, в том числе упомянутые в статье"

Это не так. Например, в той же работе Хинтона нейросеть обрабатывает каждое изображение не одним проходом, а настраивая в течение нескольких итераций латентные представления автоэнкодеров. В работе ЛеКуна одно и то же изображение может подаваться на вход разным обрабатывающим блокам, а также может обрабатываться одна и та же сцена в разные моменты времени. Можно еще почитать другие работы Хинтона (к примеру, про капсюльные нейросети), в которых он как раз идет глубже в механизм распознавания у людей и пытается построить архитектуру, повторяющую некоторые свойства человеческого восприятия.

В целом, опять же: я вообще не утверждаю, что понимаю, как полностью работает человеческое восприятие и что хочу построить AGI по образу и подобию. Я лишь выделяю в восприятии одно свойство, которое, на мой взгляд (и взгляд многих ученых), могло бы помочь AGI лучше обрабатывать и картинки, и другие виды информации. ИИ сейчас очень далек от того, как работает человек, об этом никто не спорит. Более того, AGI не обязан развиться именно по образу и подобию человека, т.е. в целом общество ученых AGI не стремится повторить механизм работы человека в AGI. Но с какого-то уровня абстракции смотреть, как мыслит человек, пытаться понять, что ему помогает и внедрять эти механизмы в ИИ — хорошая практика. Даже если этот уровень абстракции — не знания о достижениях нейробиологии, а просто мысли обычного человека о том, как работает мышление. Так, например, появились сверточные сети, механизм attention, другие удачные архитектуры. Да, ученые-нейросетевики не досконально понимают устройство мышления и восприятия человека, но пока что даже то понимание, которое есть у них, позволяет находить новые точки для улучшения ИИ. В будущем, скорее всего, нам действительно нужно будет идти вглубь, и изучать то, что вы написали.

Спасибо за статью, понятно и интересно даже не специалисту)

За «проблемы»:

>>> Например, нейросеть, которая отлично распознает лица европейцев, будет плохо работать на лицах людей из Африки… Для человека проблемы domain shift практически не стоит…

Серьезно? Вы считаете, что настолько же хорошо различаете чернокожих или, скажем, азиатов, как европейцев (при условии, что живете среди европецев)? Вы сильно заблуждаетесь, либо где-то уникальны. Среднестатистическому европейцу «китайцы все на одно лицо».

>>> Даже самое малое изменение картинки, малое добавление шума может сильно изменить ответ нейросети. Посмотрим, например, на две картинки ниже.

Шум подбирается специально через бекпроп под конкретную архитектуру. Не факт, что для сетки у вас в голове нельзя подобрать такой же. )) Впрочем, в основном такие атаки актуальны для чистых конволюционнок, с современными архитектурами вроде не очень актуально.

>>> При малом количестве обучающих данных нейросети переобучаются. Человек же может обучиться под новую задачу на основе ограниченного опыта.

Вы путаете обучение (изменение весов) и иференс! ) Человек на малом количестве опыта не обучается, а использует те репрезентации, которые есть. Современные нейросети тоже так умеют (зерошот). Обучение у человека организовано иначе, но его можно «эмулировать», если не дообучать на малом, а дополнять «датасет» и дообучать на полном… Предположительно. Там тоже не все просто — проблема дообучения актуальна, но… Блин, не правильно ее иллюстрировать сравнивая обучение сети на малом наборе данных и человека, который первый раз видит какую-то задачу и быстро ей «научается». Корректнее сравнение с GPT, которой в промте дается пример того, что нужно сделать. Но в этом примере человек и нейросеть практически идентичны.

За структуру…

В современных нейросетях все больше разговоров за всевозможные латентные пространства. Они многомерны. Знаменитый пример world2vec: «king-man+woman=queen»(в векторном виде), или тот же самый фокус для FaceNet с очками показывает, что в этом векторном представлении могут содержаться довольно разнообразные структурные компоненты… Главный вопрос — как сделать так, что бы эта структура в конечном итоге соответствовала нашей. Есть мнение, что только если датасетом будет сама жизнь. )

Про лица, может быть, действительно не лучший пример. Но других подходящих примеров много. Самые, наверное, красноречивые — в медицинских данных. Там, когда нейросеть, обученная на КТ снимках из одной больницы плохо работает на снимках из другой, потому что артефакты и распределения снимков разные. Нейросеть плохо генерализуется и обращает внимание на неважные отличия и нюансы фото.

Про adversarial: не все атаки подбираются с помощью backprop. Есть black-box атаки, которые не используют доступ к архитектуре нейросети. Иногда работает даже изменение одного единственного пикселя картинки: меняете его и нейросеть вместо поросенка начинает видеть самолет. Да, с увеличением обучающей выборки и изменением архитектуры моделей проблема становится менее выраженной, но она не исчезает.
И да, возможно, для человека тоже можно подобрать атаку. И даже есть примеры: все обманы зрения (картинки вида "какая палка длиннее" или движущиеся круги, которые на самом деле не движутся) — это примеры успешных adversarial attack на человеческое восприятие. Но разница в масштабе: нейросети намного сильнее подвержены атакам. Нейросети путаются на тех картинках, на которых человек никогда не запутался бы. И это и есть проблема.

Про инференс и zero-shot: нет, я не путаю обучение и инференс. Да, иногда обучение ни человеку, ни нейронке не нужно, можно обойтись zero-shot. Но иногда оно действительно нужно. Пример: когда вы умеете водить машину и хотите научиться водить мотоцикл. Согласитесь, вам нужно обучение для этого? То же и с нейронками. Кроме понятия zero-shot есть еще и понятие few-shot, когда нейросеть нужно обучить решать задачу на малом количестве данных (возможно, с предварительным предобучением). И нейросети все же плохо дообучаются на малом количестве данных там, где дообучение все-таки нужно.

Ну и два общих замечания:
1. Да, как вы верно заметили, люди тоже отчасти страдают от проблем, описанных мной для нейросети, и с увеличением количества параметров и обучающих данных нейросети эти проблемы становятся для нее менее выраженными. К тому же, как вы, опять же, верно заметили, в современных нейросетях есть структура (w2v — это очень хороший пример, стоит включить его в статью рядом с примером про CNN, спасибо). Но Поинт в том, что хоть проблемы становятся менее выраженными, они все еще очень заметны, сильно более выражены, чем у человека. И про структуру: она в нейронах есть, но ее все еще недостаточно. Я даже в статье пишу (пример про CNN) про то, что в нейросетях действительно прослеживается структура. Но этого, получается, все же недостаточно, чтобы сравнивать структурное восприятие нейросетей с человеческим.
2. Эти три проблемы взяты мной не с потолка и не из собственной головы, они довольно известные и общие для dl-community. Вряд ли ученые стали бы формулировать эти проблемы и писать о них статьи, если бы действительно не существовало.

Ну и про "Есть мнение, что только если датасетом будет сама жизнь.". Я целый раздел посвятила тому, что есть такое мнение, что AGI — это большая нейросеть, обученная на огромном количестве данных. И я пишу, что, возможно, так оно и есть, и будет в будущем. Но на данный момент у нас нет возможности обучить нейросеть на таком количестве данных. А того количества данных, что есть, явно не хватает, чтобы у нейросети появилось хорошее понимание структуры (см. пример с DALL-E 2). И поэтому другая идея, как улучшить структуру в нейросетях, пока мы не собрали датасет длиною в жизнь — строить хитрые архитектуры, о которых я далее и рассказываю в статье. То есть, мои мысли вашим здесь не противоречат)

Ну... Я вам оппонирую, не потому, что в области нейросетей нет проблем и все это надумано. Статья хорошая, много правильного, и проблемы поднятые имеют место быть. Я оппонирую потому, что в том виде, как проблемы сформулированы - они порождают у массы людей ощущение того, что ИНС - тупик и надо "копать в другую сторону". ;)

Факт: нейросети плохо "дообучаются". Это действительно так. Catastrophic forgetting. Но... Эту проблему, как минимум частично можно решить, если новыми данными дополнять один большой датасет и/или брать новые и старые данные в какой-то пропорции. При этом то, что человек, дескать хорошо обучается на малых данных - это не правда. Человек это сильно предобученная система, которая в основном использует именно зеро-шот в задачах, которые решает сразу (кто-бы что не говорил, но формирование новых нейронных связей - процесс очень небыстрый). Сети на примере GPT (а последнее время, стало модно называть примеры в промте - few-shot) тоже так могут.

Факт: Нейросети путаются на тех картинках, на которых человек никогда не запутался бы. Да, и что? Это значит, что сети у нас в голове и ИНС устроены, а главное обучаются сильно по-разному! Но и две разных сети, например какой-нить AlexNet и современный ViT точно так же отличаются друг от друга (будут подвержены разным adversarial-атакам). Важно не то, чем отличаемся, а чем похожи. А похожи тем, что и для нас существует свои adversarial. Полагаю, это значит, что можно подобрать такие архитектуры/методики обучения, которые сведут "путаницу" к допустимому минимуму.

Факт: Сети обученные на одном домене плохо переносятся на другой. Да. А если сеть обучена на многих доменах? ;) Что, как правило верно для человека... То расклад уже немного другой. Если вы возьмете снимки из 10 больниц, то 11 скорее всего зайдет без проблем. Человек тоже учится всему-чему-только-можно и именно этим определяется его высокая адаптивность.

>>> Но на данный момент у нас нет возможности обучить нейросеть на таком количестве данных. 

Ну почему же... И датасеты появляются все интереснее. И не столь важно количество данных (хотя все же важно), сколько их... Полнота, что ли. Что бы по возможности вообще убрать такое понятие, как "домен"... Но это отдельная и долгая история! ;)

Да, датасеты появляются, но пока я не видела статьи с заголовком "найден дотаяет с достаточной полнотой, чтобы нивелировать проблемы обобщения, adversarial и out-of-domain". И пока такого нет, можно пытаться не только такие строить, но и рассматривать другие идеи, как помочь нейросетям в условия недостаточно "полных" датасетов лучше выучивать структуры.
И я не хотела сделать ощущение "тупика" в ИНС. В тексте даже фраза есть: "может быть, ИИ действительно так и получится".
Вот какие идеи. То есть, вашим словам не противоречит, опять же.

> Человек это сильно предобученная система, которая в основном использует именно зеро-шот в задачах, которые решает сразу
Тут я спорить не решусь. Я недостаточно знаю о механизмах обучения/инференса человека на незнакомых задачах.

> Важно не то, чем отличаемся, а чем похожи. А похожи тем, что и для нас существует свои adversarial
Да, существуют, никто не спорит, только масштаб поменьше. И хочется те adversarial, что есть у сетей, убрать.

> Полагаю, это значит, что можно подобрать такие архитектуры/методики обучения, которые сведут "путаницу" к допустимому минимуму.
Так ровно о том же и речь! В подборе архитектуры, которая проблему сведет к минимуму. Подходов к этому может быть много разных, но один из вариантов — пробовать подобрать архитектуру так, чтобы нейросеть лучше оперировала структурой. Возможно, это поможет и в проблеме adversarial. Об этом я пишу)

Простите, но Вы все время передергиваете.

Во первых, когда Вы показываете примеры типа, вот фото хрюши, вот шум, вот хрюша с шумом и вот ошибка сети то совершенно неверно говорить о том, что єта ошибка произошла именно по вине сети.

Более того, в рамках примера с хрюшей, єта ошибка вообще не из за сети.

Подобные ошибки происходят по вине тех алгоритмов, которые подают данные на вход єтой сети. Глубоким заблуждением является тот факт, что им на вход подают ровно туже фотографию что мы - человеки наблюдаем. В громадном колличеств случаев туда подается вообще набор слабо связанных с визуальной составляющей,епривычной нам.

Головокружительные успехи в Го, не в последнюю очередь связаны с тем, что в случае Го, нет никаких проблем с тем, чтобы подать на вход ровно теже данные, что видим мы - люди. Фактически єто 0 1 и 2 или -1 0 1 если хотите. И все. Вся ситуация в Го для входящих данных описывается абсолютно точно такой простой структурой.

В отличии от обработки любого изображения котика.

Да неужто в ГО на вход подается именно то, что видят люди?)

И разделять сеть и способ подачи в нее данных — странно. Модель — это в том числе и то, как она обрабатывает поданные на вход данные. Ее архитектура во многом зависит от способа подачи на вход данных.

Ну и, в целом: как вы предлагаете подавать модели на вход "ровно то, что мы наблюдаем"? И что это вообще такое — то, что мы наблюдаем? Мы, человеки, тоже принимаем на вход не "истину", а некое представление реальности в виде световых лучей)

>>> Например, нейросеть, которая отлично распознает лица европейцев, будет плохо работать на лицах людей из Африки…

На каком датасете обучили, на таких данных нейросеть и работает. Если обучать на датасете изображений африканцев, то будет плохо работать на европейских лицах (разве что мигрантов нормально различать будет).

Извиняюсь за некоторый сумбур, за годы работы с графами и онтологиями сложилось следующее мнение:

В целом, данная yet another theory не учитывает один очень важный момент: человеческому мозгу иерархия вообще не важна. Важно другое - связи между объектами, в том числе неявные. Нам все равно, как выстроена иерархия, например, в примере с городами и улицами. Нам важно, что улица А проходит параллельно улице Б, а улица В пересекается с улицей Г. Нам важно, что от дома 5 по улице Б до дома 25 на улице Г идти 10 минут, и при этом мы пройдем по улицам А и В. Графовые структуры, конечно, близки к этому, но количество атрибутов ребер и количество ребер между вершинами стремится в бесконечность. Проще говоря, граф - аналог проекции мышления на пространство меньшей размерности. И пытаться по этой проекции восстановить исходную структуру - ни что иное, как освоение бюджетов и грантов. Жить можно на эти деньги долго, а результаты трактовать можно как угодно.

человеческому мозгу иерархия вообще не важна. Важно другое - связи между объектами, в том числе неявные

Если честно, не понимаю, почему не важна. Из того, что вы говорите, не следует, что не важна, а следует, что она может быть разной в зависимости от ситуации. Об этом я тоже пишу, кстати.

Иерархия это частный и очень узкий случай графа.

Думаю, не надо внедрять понимание структуры в нейросети. Нейросеть - это только маленькая часть ИИ, служащая только для тупого распознавания объектов. Для понимания мира нужны совсем другие алгоритмы.

Sign up to leave a comment.

Articles