IaaS, VPS, VDS, Частное и публичное облако, SSL
300,73
рейтинг
18 мая 2015 в 17:09

Разработка → AI, Big Data и дезинформация технологий перевод



/ фото KamiPhuc CC

Обычно в нашем блоге мы рассказываем об облачных сервисах, хостинге и соответствующих технологиях. Сегодня мы поговорим о сложностях развития технологий в целом, искусственном интеллекте, больших данных и Майкле Джордане (не баскетболисте).

Майкл Джордан, почетный профессор университета Калифорнии в Беркли и участник IEEE. Джордан – один из самых уважаемых и авторитетных людей, мировой эксперт по теме машинного обучения. Он уверен, что чрезмерное использование больших данных, не даст ожидаемый эффект и приведет к катастрофам вроде массового обрушения мостов.

Попробуем разобраться в этой теме получше. Посмотрим на определение термина «искусственный интеллект» за авторством создателя языка Лисп Джона Маккарти. В статье с одноименным названием («Что такое искусственный интеллект?») он подчеркнул, что ИИ связан с задачей использования компьютеров для понимания работы человеческого интеллекта, но не ограничивается использованием методов, наблюдаемых в биологии.

Конечно, такая трактовка явно далека от наших представлений о футуристичном образе ИИ. Журналист Гомез и Джордан в своей беседе подтверждают эту мысль и подчеркивают наличие своего рода дезинформации, которая выгодна различным медиа, работающим на волне роста популярности данной темы.

Майкл взывает к опыту исследования нейронных сетей, о которых говорили на каждом углу с 1980-х годов, повторая при этом то, что было известно еще в 1960е годы. Сегодня главной идеей является сверточная нейронная сеть, но речь идет совсем не о неврологии. Людей убеждают в необходимости понимания того, как человеческий мозг обрабатывает информацию, учится и принимает решения, но на самом деле наука развивается в несколько ином направлении.

Джордан говорит, что нейробиологии потребуются десятки и даже сотни лет, чтобы понять глубинные принципы работы мозга. Сегодня мы только приблизились к началу изучения принципов представления, хранения и обработки информации нейронами. У нас практически нет понимания того, как на самом деле происходит обучение в нашем мозгу. Хотя и для подобных аналогий свое место. Так, люди начали поиск метафор, связанных с параллельной работой мозга, что оказалось полезным для разработки алгоритмов, но практически не ушло дальше уровня поиска свежих решений и идей.

Если продолжить рассмотрение терминов, то мы увидим, что «нейроны», задействованные в глубинном обучении – это метафора (или, выражаясь языком Джордана, вообще «карикатура» на работу мозга), которая применяется только для краткости и удобства. В действительности же работа механизмов того же глубинного обучения гораздо ближе к процедуре построения статистической модели логистической регрессии, чем к работе настоящих нейронов.

Джон Маккарти, в свою очередь, подчеркивал: проблема не только в том, чтобы создать систему по образу и подобию человеческого интеллекта, а в том, что сами ученые не придерживаются единого мнения по поводу того, что он (интеллект) из себя представляет и за какие конкретно процессы отвечает. Говорить о том, что мы можем «в точности воссоздать» эту архитектуру и заставить ее работать, в ближайшем будущем крайне маловероятно.

Большие данные могут оказаться очередной уловкой медиа, на которую клюнули тысячи исследователей по всему миру. Современная одержимость большими данными может привести к неконтролируемому использованию выводов, сделанных на основе данных, обладающих спорной статистической прочностью.

Для любой отдельно взятой базы данных можно найти комбинацию столбцов, которая совершенно случайно, но точно ответит на любую гипотезу, которую нужно рассмотреть для решения той или иной задачи. С учетом наличия миллионов атрибутов для определенного объекта и практически бесконечного числа комбинаций этих атрибутов все это начинает напоминать шутку про Шекспира, печатную машинку и миллион обезьян.

Конечно, существует множество идей для контроля исследований, позволяющих узнать, с какой частотой возникали ошибки в подобных гипотезах. Но применение математических и технических средств занимает длительное время, а мы все еще учимся тому, как обращаться с большими данными.

В науке и новых областях знаний границы и рамки для исследования являются одним из необходимых для прогресса элементов. Это утверждение подкрепляет как история с первыми системами технического зрения (распознавания лиц), так и пример с речевыми технологиями ( распознавание отдельных слов).

P.S. Мы стараемся делиться не только собственным опытом работы над сервисом по предоставлению виртуальной инфраструктуры 1cloud, но и рассказывать о различных исследованиях и исследователях, которые занимаются смежными областями знаний.

Не забывайте подписываться на наш блог на Хабре, друзья!
Автор: @1cloud Lee Gomes
1cloud.ru
рейтинг 300,73
IaaS, VPS, VDS, Частное и публичное облако, SSL

Комментарии (12)

  • +4
    Самый мой любимый курс это Artificial intelligence от Беркли на Edx. Просто шедевр.
  • +2
    Алгоритм, признанный наиболее успешным в плане глубинного обучения, основан на технике, названной «обратная передача ошибки обучения». В системе с множеством процессорных элементов вы передаете сигнал в обратном направлении, через все уровни и изменяя все параметры. Довольно очевидно, что мозг не работает таким образом.

    Вот с чего ему это очевидно? Кто сказал, что обратный сигнал обязан быть электрическим а не химическим? Обратное распространение на замедленном сигнале прекрасно работает, сам проверял, ничего не мешает им быть химическими. Кто сказал, что химические обратные сигналы в мозгу отсутствуют? Там несколько тысяч нейромедиаторов и только несколько лет назад сумели расшифровать только самые простые химические реакции изменяющие вес синапса. Про взаимодействие с ними большинства остальных мы знаем чуть менее чем ничего. Например в ответ на что выделяются сигнальные вещества управляющие конусом роста нового синапса. Это только из того про что мы точно знаем, что мы не знаем, а ведь есть прорва того про что мы не знаем даже этого.

    В общем очень хорошая статья заслуживает внимательного и вдумчивого чтения.
    • 0
      Тут скорее другое хотел подчеркнуть: то что текущие реализации это даже не грубая модель, а просто «догадки» о содержимом чёрного ящика.
      Т.е. посмотрели что поведение сходно, а как и главное зачем особо размышлять не стали. И проблема тут не в том, что специалистов нету, а в том, что нету специалистов подобных Норберту Винеру, которые бы могли мыслить сразу в нескольких областях, на грани между биологией и информатикой. Все современные исследования наоборот либо утекают в область реализации на биологических компонентах, либо на чисто электронных и принципам более типичным в каждой области, так например более 70% решений идут чисто цифровые, используя классическую электронную базу. И очень часто подменивают понятия — т.е. «обычный» векторно-матричный процессор называют нейронным (походу маркетинг чистой воды). Таких примеров много.
      Я сам когда-то пытался понять всё это, но к сожалению не хватило ни знаний, ни опыта, ни времени.
      • +3
        Так я абсолютно согласен с его общей идеей, я придрался только к одному пункту и только к ультимативности слова «очевидно».

        А вообще это, почему-то вопрос какого-то лобби и больших денег. На «проволочный мозг» дают деньги и немалые, одни только американский и ЕС-овский проекты вывешивают на несколько миллиардов. Те же кто занимаются более реальным мозгом — сосут лапу на институтскую зарплату. грантов им почти не дают. На конференции Нейроинформатика 2015 Был на этот счёт доклад одного старого учёного он выписал на доске 4 нобелевские премии тем кто сводил мозг к формальному нейрону, я на против были записаны фамилии тех, кто опровергал их рассуждения и строго научно доказывал, что это не так. На второй половине доски ни одной нобелевской премии не было.

        Типичный пример с этой доски: Понятно что нейромедиатор выделившийся в синаптическую щель частично растекается по межклеточной жидкости. Первый учёный высказывает предположение, что растекается мало, до рецепторов она всё равно не дотекает и связаться с ними не успевает. Другой учёный показывает что растекается не так уж мало, особенно с учётом, что из межклеточной жидкости его не затягивают так активно обратно в клетку. Дотечь нейромедиатор успевает и даже показано, что он взаимодействует как минимум с рецепторами, расположенными вне синаптических щелей (да рецепторы есть и не только в щели). Более того несколько десятков процентов всего взаимодействия с некоторыми из медиаторов происходит именно по такой схеме. Угадайте, кто из них двоих нобелевский лауреат?

        Возможно весь этот бардак как-то связан с особенностями финансирования науки особенно при корпоративном при капитализме. Адепты «Проволочного мозга» делают многообещающие заявления, как когда-то Лысенко, даже показывают какие-то многообещающие результаты. Сторонники более правильной и несоизмеримо более сложной концепции химического мозга, как генетики во времена Вавилова ни смелых обещаний ни многообещающих результатов предъявить не могут. Итог: Ты можешь быть бесконечно прав, но кому какое дело, если им дали миллиард и твои аспиранты ушли туда где платят.
        • 0
          «Ты можешь быть бесконечно прав, но кому какое дело, если им дали миллиард и твои аспиранты ушли туда где платят.» убило просто )))
    • 0
      Если он про BackPropagation, то неградиентные методы вообще этот алгоритм обучения не используют )
      А если про отсутствие обратных связей, то он, видимо, плохо разбирается в предмете, ибо обратные связи — основа адаптивности нервной системы.
      Кстати, фраза «Мы не знаем, как нервные клетки обучаются. Действительно ли за это просто небольшое изменение синаптического веса, как это происходит в искусственных нейронных сетях. У нас есть практически нет понимания того, как на самом деле происходит обучение в нашем мозгу.» просто унижает нейробиологов, которые положили свои жизни, чтобы пролить свет на принципы работы нейронов. Хотя тут я с Джорданом согласен, что большинство пользователей нейропакетов действительно не обладают и 1% уже открытых знаний о работе нейросетей в биологическом мозге. Что не мешает им обучать сеточки в матлабе синусоидальной зависимости )))
  • 0
    Это гипотезы, которые мне нужно рассмотреть. Однако для любой отдельно взятой базы данных я могу найти комбинацию столбцов, которая совершенно случайно, но точно предскажет любой исход. Я просмотрю всех людей, у которых был сердечный приступ и сопоставлю с людьми, у которых его не было. Затем буду искать комбинации, которые предсказывают сердечные приступы, но вместе с ними я найду все ложные комбинации столбцов, потому что таких комбинаций очень большое количество.

    Ясен пень, можно найти что угодно, если хорошо поискать. Это называется «проклятие размерности». Каждый, кто только начинает изучать машинное обучение, об этом знает. И есть замечательные методы для того, чтобы с этим бороться — например, регуляризация.
    Это точно великий специалист в машинном обучении? Это точно корректный перевод?
    Мне вообще почему-то кажется, что профессор решил попиариться.
    • 0
      Замечательные методы бороться с проклятием размерности работают за полиномиальное время не всегда, а только тогда, когда не проклятое решение существует и сравнительно легко обнаружимо. Возьмите генетический код, и попробуйте побороть в нём проклятие размерности. Возьмите компьютерную программу, представьте каждое её слово как один входной параметр и попробуйте научить алгоритм отвечать на вопрос не зависнет ли она. А мозг, кстати, справляется, худо-бедно, для програм в несколько килобайт по крайней мере. Да что далеко ходить — научите свой алгоритм играть в го хотя бы нА 2-3 дана хуже людей. Любым способом по вашему выбору.Когда вы спрвитесь с проклятием размерности там, где мозг с ним успешно справляется, \профессор окажется целиком и полностью неправ.
    • 0
      Да-да, а ещё есть понятие информационной сложности модели, уровень поддержки гипотезы, и т.д. Но я думаю, целью этой статьи было предостеречь от бездумного перемалывания цифр и ожидания космических результатов ) Если так, то статья удалась — для популярного читателя.
  • +1
    Вообще сам Джордан не в восторге от того, как преподнесено его интервью, и особенно от «жареного» заголовка в английском варианте статьи.
    Собственно, вот его ответ amplab.cs.berkeley.edu/big-data-hype-the-media-and-other-provocative-words-to-put-in-a-title
    Хотя из русского перевода основной посыл о том, что my overall message that Big Data is Real but that It’s a Huge Engineering Challenge Requiring Lots of New Ideas and a Few Decades of Hard Work из русского перевода считывается.
    А по поводу мозга и искусственного интеллекта — проклятье размерности лишь часть проблемы, мы не знаем как работает разум, но скорее всего, точно не перебирая комбинации. Поэтому вполне возможно, что проблемы размерности перед разумом не стоит, а стоит перед нами, когда мы решаем проблемы машинного обучения. И решаем мы эти проблемы в принципе не так, как это делает разум.
  • 0
    Кстати, насчёт «Например: «Какой второй по величине город в Калифорнии, который находится вдали от рек?» Если я напечатаю это предложение напрямую в Google, то, вероятно, не получу полезный ответ.»

    www.wolframalpha.com/input/?i=second+biggest+city+in+california

    кто подскажет как проинтегрировать это с удалённостью от рек, чтобы Альфа это учла? )

    кстати, классно видеть какие предположения сделала система поиска:
    Assuming «california» is a US state | Use as an administrative division instead
    Assuming «biggest» refers to city population | Use metro area population or area instead

    в идеале было бы что-то типа Assuming «having no nearby rivers» means «shortest distance to any river»<=50 miles ещё. Но это потребовало бы от создателей Альфы добавления нескольких узлов в семантику, возможно, пока затраты процессорного времени не оправдывают такое добавление…
    • 0
      Хотя, теоретически, они могли бы использовать рекурсию в пространстве признаков. Таких как «дистанция», «отношение», «взаимная скорость». Пока они, судя по тому, что знаю, используют один признак — «абсолютный размер/величина», притом количество сущностей, обладающих этим признаком, в одном запросе сильно ограниченно.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разработка