Пользователь
0,0
рейтинг
18 ноября 2013 в 19:17

Разработка → Выявление виртуалов в Википедии

Википедия — свободная общедоступная мультиязычная универсальная интернет-энциклопедия, которая создаётся усилиями многих пользователей. На сегодня Википедия содержит 25 миллионов записей на 285 языках, почти полмиллиарда людей обращаются к ней каждый месяц. По полноте и глубине охвата материала Википедия сравнима со знаменитой Британской энциклопедией. Тысячи добровольных редакторов со всего мира постоянно пополняют её свежими статьями. Благодаря их бескорыстному труду создаётся и развивается это гигантское хранилище знаний.

Википедия стала самым популярным в мире источником общеобразовательных, исторических и научных знаний и входит в топ-10 самых посещаемых сайтов в Интернете. Она привлекает к себе не только тех, кто ищет знания, или хочет ими бескорыстно поделиться, но и маркетологов и PR-менеджеров, пытающихся использовать сайт в качестве рекламной площадки, размещать там заказные проплаченные статьи. Была создана компания Wiki-PR, специализирующаяся на написании и размещении в Википедии статей и правок рекламного характера. Цена размещения одной такой статьи варьировала от 500 до 1000 долларов. Отдельно выплачивался ежемесячный взнос порядка 50-70 долларов за то, чтобы статья или правка не была удалена, или же наоборот, чтобы был удалён и больше не появлялся на страницах Википедии нежелательный для заказчика материал. Этот момент заслуживает особого внимания.

Википедия – открытое сообщество, первая фраза, встречающая пользователей при входе на сайт, звучит так: «Добро пожаловать в Википедию, свободную энциклопедию, которую может редактировать каждый». Таким образом добавить в Википедию статью или внести правки может каждый. Но если они носят рекламный или предвзятый характер, то обязательно будут замечены и удалены в ходе редактирования. Для того, чтобы избежать их удаления, были созданы сотни дополнительных аккаунтов – сокпаппетов (англ. sock puppet — кукла из чулка или носка, надеваемая на руку, и вступающая в диалоги от своего имени даже с кукловодом), которые участвовали в обсуждении правок и создавали видимость их активной поддержки и одобрения.

Здесь необходимо сделать небольшое отступление. Дополнительные аккаунты, создаваемые одним пользователем, в Википедии не запрещены. Признаётся, что для создания таких аккаунтов могут быть вполне уважительные причины, например, для редактирования статей разной тематики, или для обсуждения спорных неоднозначных тем. Но участвовать в обсуждении определённой темы одновременно с нескольких аккаунтов, Википедия запрещает.

После того, как издание Daily Dot опубликовало статью о том, что размещение в Википедии заказных материалов носит не единичный характер, а перешло в разряд бизнес-услуг, на проекте были произведены массовые проверки. В результате этих проверок было заблокировано 250 дополнительных учётных записей пользователей, с которых на страницах ресурса размещались хвалебные статьи о продуктах или компаниях, а также осуществлялось активное лоббирование их интересов.



В своём блоге Сью Гарднер, генеральный директор Фонда Викимедиа, заявила, что действия редакторов, чьи учётные записи были заблокированы, нарушают основные принципы, благодаря которым Википедия высоко оценивается многими людьми. «Наши читатели знают, что Википедия не идеальна, но они также знают, что она служит исключительно их интересам и никогда не пытается продать им или порекомендовать какой-либо товар в том или ином виде», — пишет исполнительный директор Фонда Викимедиа.
Гарднер подчеркнула, что расследование использования виртуалов для редактирования статей пока не завершено и компания и в будущем намерена проверять незаинтересованность и независимость редакторов Википедии.

Одной из проблем выявления виртуалов является то, что использовать для этого технические методы, заключающиеся в сравнении IP пользователей, вправе только некоторые администраторы сайта, которые прибегают к этому лишь при наличии серьёзных оснований. Поэтому основным способом выявления двойников является поведенческий метод: сравнение правок и комментариев, которые позволяют предположить, что они принадлежат одному человеку. Для этого необходим соответствующий опыт, такая работа отнимает много времени, но даже в этом случае может закончиться неудачей.

Для помощи Википедии исследователи из Университета Алабамы в Бирмингеме Рагиб Хасан и Тамара Солорио создали программу, которая может помочь выявить sockpuppets – множественные аккаунты, принадлежащие одному человеку. Программа способна анализировать текстовые фрагменты, которые добавляются с разных аккаунтов, на основании чего определяет вероятность того, что они принадлежат одному человеку. Для сравнения используются грамматика, пунктуация, синтаксические и некоторые лексические особенности текста.
Эксперимент показал, что точность определения дополнительных аккаунтов одного человека при помощи данной программы составляет 70-75%, при этом предполагается, что дальнейшая работа над программой позволит увеличить её эффективность.

С самой программой, а также с инструментами, которые использовались при её создании и тестировании, можно познакомиться на странице проекта: docsig.cis.uab.edu/?page_id=68

По сравнению с другой схожей программой JStylo, которая была представлена на конференции 29C3 в Берлине, данный проект имеет преимущество в том, что может анализировать небольшие текстовые фрагменты, тогда как JStylo требует, чтобы на каждого «подозреваемого» был собран материал в 6,5 тысяч слов, а длина текста, авторство которого необходимо установить, составляла не менее 500 слов.

Программа, способная анализировать и определять авторство коротких текстов, может использоваться не только для помощи Википедии в выявлении клонов, но и для идентификации дополнительных аккаунтов пользователей на форумах, в обсуждении новостей, при размещении твитов, в других видах взаимодействия в интернете, где добавляются короткие комментарии и текст.
Ирина @IrinaInina
карма
70,2
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Спецпроект

Самое читаемое Разработка

Комментарии (19)

  • +5
    Для того, чтобы избежать их удаления, были созданы сотни дополнительных аккаунтов – sockpuppets (англ. sock puppet — кукла из чулка или носка, надеваемая на руку, и вступающая в диалоги от своего имени даже с кукловодом), которые участвовали в обсуждении правок и создавали видимость их активной поддержки и одобрения.
    По-русски это называется «виртуалы».
    • +2
      Не совсем по-русски, но еще: клоны, двойники, дубли, боты

      О чём речь, если буквально вчера читал объявления, вон, справа — Фрилансим. И одна из работ, как раз и предполагает «рекламу товара» в википедии. Пруф — freelansim.ru/tasks/43502
    • 0
      Не всё так просто в этом вашем интернете )
      Достаточно посмотреть на страницу обсуждения всё в той же Википедии, чтобы выяснить, насколько непросто определиться с точным однозначным термином для этого явления.
      • +1
        Давать ссылки на обсуждения 7-летней давности — просто нет слов. В русском разделе Википедии давно устоялись формы «сокпаппет» (он же «виртуал») и «митпаппет» (он же «псевдовиртуал»).
        • +3
          Исправила.
          «Виртуалы в Википедии» действительно звучит лучше.
          • 0
            Хоть обсудить явление было бы куда как интереснее, чем термины, используемые для его обозначения.
            • +1
              Кто хотел, уже всё обсудили, ибо новости про Wiki-PR полтора месяца.

              Ну, и в целом — в тексте много воды, и непонятно в чём суть. Wiki-PR, имхо, с большой вероятностью возродится. Мнение Сью, которая уже полгода уходит с поста CEO и скоро уйдёт, довольно радикальное, и его разделяет далеко не всё сообщество (хотя и большинство). Насколько радикален будет новый CEO — тоже ещё вопрос.

              Про анализ авторства текстов поговорить было бы интересно, но в статье подробного обзора нет, а самостоятельно вот так за пятнадцать минут не разобраться.
              • 0
                Было бы интересно определиться с возможностью определения двойников, потому что если не в Википедии, то на форумах с ними сталкивались многие. Ещё интереснее было бы, если бы программа работала не только с английскими текстами, но и с русскими тоже. И в идеале не в виде программы, а как онлайн-сервис.

                Некоторые предложенные способы определения виртуалов не зависят от языка, например, характерные стилистические особенности текста. Здесь исследователи демонстрируют комментарии трёх пользователей. Первые два принадлежат одному человеку, их отличает отсутствие пробела после точки.

                Скрин с комментариями


                • +1
                  Ну, такой пример совсем тривиальный. Подобные пользователи раскрываются быстро. Куда интереснее анализировать грамотные тексты, вот там действительно могут помочь только стилистические особенности.
                  • 0
                    Может и быстро. Только оставляя комментарии на другом сайте я ни заглавную букву, ни точку в конце предложения практически не использую; предложения разделяю абзацами, стараюсь выражать мысли коротко и конкретно. Очень сомневаюсь, что сравнивая мои комментарии здесь и там по этому признаку, удастся определить, что они принадлежат одному человеку.
                    Так это я не пытаюсь скрыться, просто подстраиваюсь под особенности ресурса. Что же тогда говорить о ситуации, когда доп акки создаются как различные виртуальные личности, там определиться и вовсе сложно будет. Хоть и не невозможно.
                    Интересно, кто лучше и точнее сможет различить несколько аккаунтов одного пользователя: программа, или человек?
                    • +1
                      Вы используете точку с запятой, не ставите точку после сокращений (доп). Я думаю, в большом тексте найдутся ещё характерные признаки.
    • 0
      Учитывая, что основная особенность этих виртуалов создавать видимость активного общения, то есть более точное определение с борд — «Семёны».
  • +2
    Мне не очень понятна постановка вопросов. Да, есть проблема Википедии — массовые правки рекламного характера. Но почему-то ставится задача выявление виртуалов, которая довольно опосредовано связана с исходной проблемой.

    Как мне кажется, само по себе наличие виртуалов не должно составлять проблему — пусть Википедию редактируют хоть роботы, хоть виртуалы, главное, чтобы их правки были «хорошими» (кстати, роботы там проделывают много полезной рутинной работы). Разве что хотелось бы запретить голосовать виртуалам. Бороться же с «плохими» правками можно разными способами, в крайнем случае — премодерацией. Но обычно бывает достаточно более мягких мер, и можно и нужно обсуждать, каких именно.

    И, кстати, что делать, если программа по выявлению авторства утверждает, что пользователи X и Y с достоверностью 98% управляются одним и тем же человеком, при этом X — старый уважаемый пользователь, внесший много полезных правок, а Y был зарегистрирован вчера и воткнул пару явно рекламных правок? Банить обоих?
    • 0
      Внести правку — полдела, эту правку нужно сохранить, для этого и нужны виртуалы, которые от имени своего хозяина будут создавать видимость активного одобрения и поддержки этой правки. Их необходимо выявлять, потому что когда человек выступает против толпы, которой управляет один кукловод — это неправильно.

      Википедия не запрещает дополнительные аккаунты до тех пор, пока они не используются для совместного голосования или обсуждения. Редактировать разные темы с разных аккаунтов можно.

      Правила Википедии по поводу виртуалов достаточно гуманны: виртуалы блокируются бессрочно, использующему их участнику выносится предупреждение источник
      • 0
        Приведите, пожалуйста, пример долговременной рекламной правки в Википедии, если можно в англоязычной — просто интересно посмотреть.
        • 0
          Пример. Статья из кэша Google. Я не могу утверждать, что это типичный пример, но он подпадает под заданные условия. В самой Википедии статья удалена, в обсуждении идёт речь о её рекламном характере («This article reads like an advertisement»), автор статьи — Morning277 заблокирован как sockpuppeteer (обсуждение причин его блокировки).
          Скрин статьи

          Материалы по sockpuppets собраны здесь. В RSS File вошли больше 10 тысяч сообщений 33 авторов.
          • 0
            Спасибо.
            На самом деле, немного запутался. В кэше и в Википедии статья одна и та же — если писать фамилию с одним «л». Удалена же статья с двумя «л».
            • 0
              Да, это я что-то не то нашла. Спасибо, что обратили внимание. К сожалению, я не знаю как увидеть удалённую в Википедии статью, если она не отображается в кэше поисковика и в веб-архиве интернета.
  • 0
    И правда, ведь можно при помощи проги травить уважаемых, но неугодных комментаторов, просто добавляя похожий текст. Не знаю. кому будет интересно такой пургой заниматься, но почему бы и нет

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.