IBM
Компания
176,98
рейтинг
11 января 2013 в 11:43

Разработка → Суперкомпьютер IBM Watson выучил уличный жаргон: пришлось чистить ему память



Разработчики суперкомпьютера IBM Watson сделали большую ошибку, когда закачали в его память словарь уличного жаргона с сайта Urban Dictionary. IBM Watson обучен распознавать смысл предложений/вопросов и отвечать на них, используя усвоенные массивы неструктурированных данных (data mining). Благодаря этому компьютер выиграл у чемпионов телевикторины «Своя игра» (Jeopardy) в 2011 году, после чего начал изучать медицинские справочники с целью диагностировать болезни по симптоматике, как доктор Хаус.

Разработчики думали, что информация о дополнительных смыслах слов улучшит искусственный интеллект, поможет ему лучше понимать людей. Они ошиблись. Уличный жаргон оказался исключительно вреден суперкомпьютеру. Однажды он даже ответил на вопрос неприличным словом “Bullshit”.

В результате, разработчики приняли решение очистить память IBM Watson от сленга и поставить фильтр на выдаваемые слова, чтобы не допустить случайно ненормативной лексики в прямом эфире.

Ответственность на себя взял один из сотрудников проекта Эрик Браун (Eric Brown). На фотографии он изображён внутри кластера IBM Watson. Кстати, команда разработчиков IBM Watson состоит из 35-ти человек.



В интервью CNNMoney Эрик Браун рассказывает, что проблема возникла с тем, что компьютер не мог определить, какой смысл слова является приличным, а какой — нет. Из-за этого он иногда использовал слова в неприличном смысле.

Эрик Браун говорит, что некоторые плохие привычки у IBM Watson появились также после чтения Википедии. Вот почему удаления Urban Dictionary оказалось недостаточно, а пришлось ставить дополнительный словарный фильтр. В будущей работе IBM Watson как врача-диагноста лексика вроде OMG или LOL вовсе неуместна.
Автор: @alizar
IBM
рейтинг 176,98

Комментарии (119)

  • +139
    Лишь бы на PHP писать не начал.
    • +49
      Сразу вспоминается
      история
      Здравствуйте. Меня зовут Вячеслав, мне 22 года и я пхп программист. Я сижу на пхп с 18 лет. Первый раз я попробовал пхп с другом. Мы сидели, обсуждали веб-технологии и тут он сказал, что недавно пробовал пхп. Он предложил попробовать мне. Поначалу я не согласился, ведь это пхп, я слышал много плохих слухов про него, слышал, что он вызывает зависимость. Но друг настаивал, говорил, что в жизни нужно попробовать все и я сдался. Он предложил бесплатный скрипт, выводящий «Hello world!». Он казался совсем безобидным, но как потом оказалось, я уже не мог остановиться. Уже очень скоро благодаря пхп я попробовал свою первую cms. Это сейчас я понимаю, насколько опасным был этот шаг, но тогда я ничего не понимал, и мне это нравилось. Я не заметил, как после первой испробованной cms, мне уже захотелось написать свою. Дальше было только хуже. Я уже рискнул попробовать кое что потяжелее. Я решил попробовать свой первый фреймворк. Это было прекрасно. Но это была дорога в никуда. На тот момент родственники уже отчаялись мне помочь, а моя девушка узнав, что я использую пхп бросила меня. Я все больше отдалялся от своих друзей и родных, мое окружение составляли такие же пхп-программисты как и я. Мы собирались у одного в квартире, подключались к серверу и совместно программировали, используя пхп и фреймворки. Я попал в этот капкан пхп и теперь не могу самостоятельно избавиться от этого, моя жизнь сломана. Если бы мог вернуться в то время, я бы все исправил, и никогда не купился на эту уловку.

      • +1
        Вот блин, сегодня я это уже читал и опять, ну надо же…
      • +8
        Этот текст гораздо лучше звучит в английском варианте, где use — не только использовать, но и употреблять, а также PHP легко путается с PCP.
        • +1
          Можно попросить линк на оригинал?
          • +9
            К сожалению я не знаю есть вообще это на английском, но был вот такой забавный случай (о нем даже на хабре писали)

            Topeka, KS – High school sophomore Brett Tyson was suspended today after teachers learned he may be using PHP.

            “A teacher overheard him say that he was using PHP, and as part of our Zero-Tolerance policy against drug use, he was immediately suspended. No questions asked,” said Principal Clyde Thurlow. “We’re not quite sure what PHP is, but we suspect it may be a derivative of PCP, or maybe a new designer drug like GHB.”

            Parents are frightened by the discovery of this new menace in their children’s school, and are demanding the school do something.

            Interviews with students suggested that PHP use is wide spread around the school, but is particularly concentrated in the geeky nerd population. When contacted by BBspot.com, Brett Tyson said, “I don’t know what the hell is going on dude, but this suspension gives me more time for fraggin’. Yee haw!”

            www.bbspot.com/News/2000/6/php_suspend.html
          • +1
            Оригинал — изначально русский habrahabr.ru/post/142504/
            • +2
              думаю, никто не огорчится, если я скажу что все приведённое выше — всего лишь производные. оригинал много старше: lib.ru/ANEKDOTY/shahid.txt в самом низу, #10
              • 0
                «Год назад я познакомился с девушкой, и она предложила мне писать
                программу на Паскале. У меня ничего не вышло: меня стошнило и потом долго
                болела голова.»

        • +3
          Странно, всегда думал, что PCP — это Pre-Charged Pneumatic, а оно вот как.
          • +3
            да, LSD — Legal Self Defense а MDMA — Meter Data Management Agent.
        • +1
          image
      • 0
        Со мной такое было в 15 лет, правда не на столько запущенно. Успел соскочить на С/С++, правда друг недавно подкинул немного С# и я даже не знаю, чем это может обернуться…
        • –1
          Пора переходить на LISP и Java…
        • 0
          С таких как С/С++ уже не соскочить, это приговор, братишь…
          • 0
            Точно…
    • 0
      По моему, главное чтобы он не научился воевать и защищаться от людей, в таком случае чистить память будет сложнее.
  • +126
    Если уж даже суперкомпьютеры подвержены влиянию ненормативной лексики, что уж говорить о людях.
    Представляю диагноз от Ватсона: «OMG у Вас рак, лол»
    • +11
      Интересно, что прототипом Вилсона в Хаусе являлся доктор Ватсон.
      • +7
        Не знаю, за что минусуют, ведь и правда интересное совпадение :)

        И если кто не в курсе, Хаус и Вильсон действительно немного срисованы с Холмса и Ватсона, авторы сериала это признают.
        • +6
          Минусуют за капитанство. Этого не знает только ленивый)
          • +3
            Интересен не сам факт, о котором я написал, а то, что в комментарии De11 компьютер Ватсон ставит диагноз, который обычно ставит Вилсон.
            • +1
              Действительно :)
              Подсознательно получилось. 8 сезонов Хауса, что вы со мной сделали!?
          • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      «Вы же не хотите сказать, что у меня рак желудка, LOL?» (из "Dasvidaniya")
  • +174
    Вообще странные люди. Хотят вырастить из железки доктора Хауса и при этом запрещают ей ругаться.
    • +15
      Чтобы вырастить из нее доктора Хауса, нужен еще нытик-друг таких же мощностей… Ну и отсек для викодина.
      • +2
        Так вот он же и есть Ватсон. Хауса осталось сделать :)
      • 0
        Отсек для викодина звучит мощно!
        Одной U2 или даже U4 такому монстру будет мало. Что до друга-нытика, то после деплоя «отсека для викодина» его можно вырастить в той же «коробке», где и сам Ватсон. Будет много забавнее и ближе к киберпанку.
      • 0
        Кроме легального отсека — нужны ещё несколько мест для нычек, распределённых по разным дата-центрам
    • 0
      Запрещают ей ругаться когда этого от неё не ждут. На более высокой стадии железка сама должна уметь разруливать ВП такого типа.
  • +21
    Интересно было бы почитать про алгоритмы используемые в Ватсоне.
    • +7
      Мне вспоминается книжка Hadoop Definitive Guide, там была замечательная фраза «In many real world scenarios, more data usually beats better algorithms»
    • +1
      Думаю, примерно те же, что и здесь
    • +1
  • +13
    А ведь они были на верном пути, знания — ненормативная лексика — наркотическая завимистость… жаль
    • +31
      Консерватория, аспирантура, мошенничество, афера, суд, Сибирь.
      Консерватория, частные уроки, еще одни частные уроки, зубные протезы, золото, мебель, суд, Сибирь.
      Консерватория, концертмейстерство, торговый техникум, зав. производством, икра, крабы, валюта, золото, суд, Сибирь.
      Может, что-то в консерватории подправить?
  • +5
    А потом они стали учить компьютер русскому.
    • +38
      … натравив его на лурку.
      • +3
        , например.
        • 0
          например
          Да, ЖЖ Сергея «Паука» Троицкого тоже можно.
          • –2
            У вас содомия, тащемта. Следующий.
      • +1
        И пипец резко постучится в двери :)
        Тем более, что создатели суперкомпа нерусскоязычные и не смогут нейтивно разрулить — какие запрещаюшие фильтры нужно будет ставить.
  • +21
    Бендер: Начало.
    • +2
      Теперь уже Марвин.
    • 0
      Хауз, сиквел,
  • +9
    Странный подход. Это что-то из серии «сделаем робота без рук, чтобы он людей не бил»… Вместо того, чтобы обучать, накладывают информационное ограничение.
    • 0
      Вполне вероятно, что положительный эффект от такого словаря не окупает разработку дообучалки.
    • +4
      У ребят, может, дедлайн по релизу, а вы предлагаете им целую новую фичу дописывать! Лучше пусть пока закостылят, а то мы до 2050 года доктора Ватсона не увидим.
    • 0
      Да, надо было добавить ногу грубости слова к сети…
  • +1
    Надо было помыть динамики с мылом, перестал бы материться.
    • +2
      При этом комп ныл, что он больше не будет.
      И правда — больше этот динамик не сказал ни слова!
  • +26
    Мне показалось противоречивым, что разработчики хотят наделить компьютер искусственным интеллектом, но в то же время ограничить его развитие. Вместо того, чтобы добавить механизм подбора выражений, они поставили фильтр. Значит технология еще не созрела.
    • +1
      Не забывайте о стоимости разработки. Проще выкинуть ненужную запчасть, чем писать модуль, эффект от которого будет состоять в основном в том, чтобы этой частью функциональности не пользоваться.
      • +6
        А мне кажется, что такой функционал очень полезен — рано или поздно всё равно узнает все «плохие слова» от людей. Так хоть слова для него подбирать не придется.
        А если кто-то из разработчиков случайно выругается при нём, что опять память чистить, как-то это негуманно. :-)
      • +11
        Проще выкинуть ненужную запчасть, чем писать модуль, эффект от которого будет состоять в основном в том, чтобы этой частью функциональности не пользоваться.

        Странно, что они «очистили» ему память, а не запретили произносить эти слова. Имхо, он должен знать матерный, должен его понимать. Другой вопрос в том, надо ли ему давать им говорить.
        • +3
          Ничего странного: скорее всего левая лексика мешает правильному понманию. К примеру, если правильно опечататься в первой букве фразы «Куй железо пока горячо», то модуль без матерной лексики не будет рассматривать заведомо неверные варианты и таким образом имеет больше шансов догадаться об опечатке.
          • 0
            правильно опечататься в первой букве фразы «Куй железо пока горячо»
            Какая там форма повелительного наклонения глагола «ховать»?
        • 0
          «должен его понимать»
          ух ты!
    • +3
      А разве наш мозг не так же работает? Неужели вам никогда не приходилось останавливать себя в последний момент от произнесения крепкого словца?
    • 0
      Вовсе не значит. Совсем не обязательно вершиной интеллекта представляется рафинированный интеллигент. Скорее даже, все совсем наоборот.
  • +16
    А вот и начало эры политкорректных компьтеров ))
    Даешь бонусы всем черным игрокам в ГТА!
    • +3
      Да-да, нужно ещё запретить комп произносить «чёрный» и получим афроквадрат и Афромырдина (здравствуйте, анекдоты)…
      • +1
        Эбониквадрат и Эбонимырдина…
        • +6
          Это по каким сайтам вы ходите )
          • –1
            Да и вы я смотрю не ангел :))
  • –4
    Крошка сын к Wats'у пришел, и спросила кроха: «Что такое OMG и что такое Bullshit?»
  • +4
    Роботам чужды дурацкие человеческие приличия.
  • +72
    Интересно на какой вопрос Watson ответил Bullshit. Может компьютер озвучил абсолютно верный ответ.
    • +2
      Watson, what do you think about obamacare?
  • +4
    Да уж. Модуля моральных принципов не хватает.
  • +11
    «omg» написано у Эрика Брауна прямо за спиной.
    • +4
      Говорить запретили, а писать нет)
    • +3
      Это компьютер просто подбирает форму для петли, которую ему сзади на шею удобнее накинуть. Перебирает известные формы, вот и вышло такое.
  • +2
    Наступает эпоха файрволов во всех сферах.
  • 0
    Боюсь что будет, если его натравить на голливудское кино
  • –7
    image
  • +53
    Watson: Okay. The answer to the ultimate question of life, the universe, and everything is…
    [wild cheers from audience, then silence]
    Watson: Bullshit.
    • –9
      <sarcasm>Я не думаю, что его ещё не обучили единственно верному ответу «forty-two» на этот вопрос</sarcasm>
      • +4
        А может, он нашёл своё решение этой задачи?
        • +2
          Может он встречал много выражений вида «Life is Bullshit» и сделал выводы? :)
        • 0
          В таком случае было бы очень интересно послушать его разговор с Deep Thought
    • 0
      Он подсмотрел в интернете!
  • +10
    Скоро Watson будет «сбегать из дома» и материться с другими своими друзьями-суперкомпьютерами, а «дома» говорить что-то вроде «urban dictionary? Dunno what r u talkin' about» :)
  • –4
    42
  • 0
    Почему Ватсон, а не Холмс?
    • 0
      рановато для холмса, пока
    • +4
      Потому что юмора он ещё не осознал.
    • 0
      Потому что в честь другого Ватсона. Там вообще очень много заморочек было с брендингом и названием, все хотели Blue в названии или QA (один из вариантов был euriQA). Потом подумали, все-ткаи игра будет с людьми, а нет ли человека, который мог бы ассоциироваться с их детищем. Вспомнили про своего Ватсона.
      А что не Холмс, решили — типа чловек на первом месте, а компьютер — преданный помощник.
      Книжка есть хорошая: Final Jeopardy.
      • 0
        В связи с этим вспоминается точка зрения, что Ватсон из Конан Дойля был женщиной на самом деле :)
  • +1
    Суперкомпьюторы! Они как дети.
  • 0
    проблема возникла с тем, что компьютер не мог определить, какой смысл слова является приличным, а какой — нет

    В словарях обычно ставят пометки типа vulgar slang как раз на «неприличные» значения.
    • 0
      У меня даже word подчеркивает подобную лексику. В чем проблема, интересно
    • 0
      А в текстах обычно не ставят.
      • 0
        Словари для этого есть.
  • 0
    Интересно, что за вопрос. Может быть ведь и правда bullshit…
  • –24
    цпс
    • –24
      Кто еще поставит минус — тот идиот.
      • –23
        всего два идиота на данный момент, но почему то мне кажется вас больше :)
        • +3
          Забавно.
          • –6
            Да было забавно, на самом деле надеялся на больше минусов. Видимо не очень популярный топик.
  • –2
    Главное не давать ватсону смотреть Хауса, а то каждое заболевание будет распознано как… волчанка!
  • +5
    Почему его на /b/ не натравить, было бы куда веселее.
    • 0
      Не хотят зарождение скайнета.
      99.99% who gets to /b/ becomes a btard. Thus people are btards, I will cleanse the planet LOL FAGGOTS
  • +1
    Ему до сих пор не задали вопрос «В чем смысл жизни»? наверное, боятся услышать ответ 42. А возможно, что «Bullshit» — как раз ответ на этот вопрос.
    • 0
      Почему-то при упоминании вопроса «В чем смысл жизни?» я вспоминаю роман «Левая рука тьмы»…
  • –1
    Когда уже сделают живой чатик с Ватсоном?
  • –2
    <useless comment, sorry/>
  • +10
    Определить, какой смысл слова является приличным, а какой — нет, оказалось более интеллектуальной задачей, чем выиграть в «Свою игру» и диагностировать заболевания…
  • +3
    Сволочи! Они убили Бендера!
  • +1
    Не понял, зачем было память сбрасывать, неужели недостаточно фильтра на вывод?
    И что плохого в том что комп будет понимать жаргоны и ругательства но не говорить ими?
  • 0
    «некоторые плохие привычки у IBM Watson появились также после чтения Википедии» — интересно, что было бы, если б ему дали почитать Хабр? :)
  • 0
    Так вот из-за чего начнется последняя война…
  • +1
    у меня такое в 2004 было
    я написал самообучаемого робота и выпустил его в жаббер
    его ТАКОМУ научили…
    • НЛО прилетело и опубликовало эту надпись здесь
  • 0
    OMG у вас рак! *меня обогнали* *я буду внимательно читать комменты*
  • 0
    Сейчас суперкомпьютеры матом ругаются и «приобретают привычки», потом займутся порабощением людей… =)

    Да, кстати:

    Разработчики суперкомпьютера IBM Watson сделали большую ошибку, когда закачали в его память словарь уличного жаргона с сайта Urban Dictionary.

    боюсь уже представить, что может произойти, если разработчики ошибутся покруче…

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разработка