natural language processing
0,0
рейтинг
22 октября 2012 в 12:19

Разработка → «Он видел их семью своими глазами»

Можешь выбрать подходящую к заголовку поста картинку?





Тогда научи робота! Он тоже хочет.


Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.



Корпус текстов — это лингвистическая база данных, включающая тексты, разные метаданные, относящиеся к этим текстам, а также грамматические разборы входящих в них слов и предложений. Метаданные и грамматические разборы — это разметка. Она бывает разных уровней: морфологическая, синтаксическая, семантическая, и т.д. Без размеченных корпусов текстов трудно (или даже невозможно) разрабатывать софт для анализа текста. Для программ, использующих машинное обучение, из размеченного корпуса берётся обучающая выборка. В остальных случаях корпус нужен для тестирования.

Размеченные корпуса существуют для многих языков мира. Чаще всего корпус текстов доступен через специализированные поисковые машины, позволяющие выбирать примеры употребления различных языковых конструкций. Эти сервисы предназначены для лингвистов. Скачивать корпуса целиком оттуда нельзя, т.к. входящие в них тексты чаще всего защищены копирайтом. Для разработки лингвистического софта нужны корпуса, которые можно скачивать целиком, вместе с разметкой. На Хабре уже писали об этом здесь (про POS-tagging) и здесь (про синтаксис).

Корпуса текстов в России и за рубежом


Здесь у русского языка всё не так хорошо, как, например, у английского, для которого есть несколько разных доступных и вручную размеченных корпусов текстов. Это не удивительно как минимум потому, что на английском говорит больше людей, чем на русском. Удивительно, что даже для венгерского языка, на котором говорят в 10 раз меньше людей, чем на русском, есть доступный и размеченный корпус размером больше 1 млн. слов.



А что у нас?

Национальный корпус русского языка (НКРЯ), создаваемый совместными усилиями многих организаций (включая Институт русского языка РАН), доступен только в режиме поиска по корпусу. Из 6 млн. слов, размеченных вручную, можно скачать только выборку размером 180 тысяч слов, в которой предложения идут с нарушенным порядком. Если вы хотите сделать морфологический анализатор со снятием неоднозначности, то вам придётся либо воспользоваться этими 180 тысячами, которых чаще всего будет недостаточно для машинного обучения, либо попробовать какой-нибудь другой язык, например, польский. Такое положение дел, очевидно, не способствует развитию компьютерной лингвистики в нашей стране.

Для того, чтобы русский язык не попадал в категорию «under-resourced languages», мы решили сделать новый Открытый корпус русского языка, учитывая опыт создания НКРЯ и других проектов. Поскольку Национальный корпус предоставляет хороший интерфейс поиска, и, таким образом, решает задачи связанные с поиском примеров употребления различных слов и конструкций, мы решили сфокусироваться на создании свободно доступного корпуса для разработчиков: его можно скачать и использовать для машинного обучения или для тестирования. Поиска по нему нет, но это не страшно, т.к. он есть в НКРЯ. Чтобы вопрос копирайта не мешал распространению в корпус включаются только тексты либо доступные на условиях лицензии Creative Commons, либо находящиеся в общественном достоянии. Разметка создаётся на условиях CC-BY-SA.

На предыдущем этапе нашей работы (в 2011 году) мы собрали корпус в 700 тыс. слов и расставили вручную границы слов и предложений. Эти данные уже можно скачивать. Сейчас нашей основной целью является снятие неоднозначности в морфологической разметке. Эту работу тоже нужно делать вручную, её много, и мы просим вас нам помочь.

Вспомним школу или что такое морфологическая разметка


Морфологическая разметка (tagging, part-of-speech tagging) — это сопоставление каждому слову в тексте его словарной формы («большого» — «БОЛЬШОЙ», «столу» — «СТОЛ», «читал» — «ЧИТАТЬ») и указание грамматических характеристик слова: род, число, падеж, время и др. Первичная морфологическая разметка делается по словарю автоматически. Мы используем словарь проекта АОТ, доработанный для наших целей. Для большинства слов разметка получается неоднозначной, т. е. для многих слов в тексте в словаре находится несколько гипотез. Чаще всего только одна из гипотез является правильной. Бывают и неоднозначные предложения, имеющие несколько вариантов разбора. Например:

«Эти типы стали есть в цехе»
СТАЛЬ (существительное) или СТАТЬ (глагол)?

«Он видел их семью своими глазами»
СЕМЬЯ (существительное) или СЕМЬ (числительное)?


Такие примеры встречаются редко. Морфологический разбор становится однозначным в контексте предложения: прочитав его целиком, мы можем определить, в какой именно форме стоит то или иное слово. Например, для предложения «Мама мыла раму» в конечном итоге должен быть построен вот такой разбор:



Проведя морфологический анализ при помощи словаря, только одно из слов мы сможем разобрать однозначно. Для слов «МЫЛА» и «РАМУ» мы получим четыре и две гипотезы соответственно:



Снять морфологическую неоднозначность — это значит выбрать одну правильную гипотезу для каждого слова. Для носителей языка это, чаще всего, не представляет трудности.

У нас есть план!


Чтобы упростить задачу снятия неоднозначности, мы разделили её на простые вопросы, которые вместе представляют собой дерево решений для каждого примера неоднозначности. В случае со словом «МЫЛА», первый вопрос будет «Существительное или глагол?». Для предложения «Мама мыла раму» снятие неоднозначности на этом закончится, т. к. это глагол, а глагольная гипотеза только одна. В других случаях нужно будет ответить ещё на один или, в худшем случае, ещё на два вопроса.



Однотипные вопросы мы объединили в группы. Участник может выбрать тип вопросов и отвечать только на вопросы этого типа про случайно выбранные слова в их контекстах, сфокусировавшись, таким образом, на одной задаче. Так размечать быстрее, т.к. не тратится время на переключение между разными типами вопросов.

Чтобы разметка была достаточно точной, каждый вопрос задаётся трём разным людям, и только если ответы полностью совпадают, и никто не написал комментариев, они используются без перепроверки. Если один ответ отличается от двух других, или если оставлен комментарий, то этот пример проверяет модератор.

Сколько у нас этого плана?


По грубым подсчётам, чтобы снять неоднозначность в собранной на настоящий момент коллекции текстов, с учётом того, что вопросы задаются трижды, нужно ответить на 4 миллиона 3.75 миллиона вопросов (на 250 тысяч вопросов ответы уже получены). Если в этом будут участвовать 100 человек, то получится по 40 тысяч вопросов на человека. 40 тысяч — это много, а человеческие жертвы нам не нужны. Если 1000 человек, то по 4 тысячи. Это несколько часов работы. Если 10000, то по 400 вопросов, что занимает 20-30 минут.

Для участия в проекте можно использовать приступы прокрастинации, время по дороге на работу (интерфейс разметки работает на смартфонах) и другие вынужденные паузы в полезной деятельности. В этом смысле разметка корпуса похожа на пасьянс, только полезнее. Поскольку никаких особенных лингвистических знаний не требуется, то каждый дочитавший до этого места может принять участие, и мы вместе создадим морфологический слой разметки корпуса. На этой странице находится пошаговая инструкция по разметке.

Недавно мы начали собирать и публиковать подмножество предложений, в которых вся неоднозначность уже снята. Этот подкорпус пока очень маленький — около 9500 слов. По мере того, как идёт разметка, он становится больше, и, в дальнейшем, эти данные можно будет использовать для создания свободно доступных морфологических анализаторов, умеющих снимать неоднозначность.

Открытый корпус. Не стесняйтесь снимать неоднозначность!

Ссылки на упомянутые корпуса


Русский

[НКРЯ] Национальный корпус русского языка: ruscorpora.ru (23 октября об этом проекте будет лекция в лектории Политехнического музея в Москве)
[OpenCorpora] Статьи и презентации об Открытом корпусе: opencorpora.org/?page=publications

Английский

[Brown] Брауновский корпус: en.wikipedia.org/wiki/Brown_Corpus
[MASC] Manually Annotated Sub-Corpus (часть Американского национального корпуса, размеченная вручную): www.anc.org/MASC/Home.html
[CRAFT] The Colorado Richly Annotated Full Text Corpus (67 статей по био-медицинской тематике с лингвистической и онтологической разметками): bionlp-corpora.sourceforge.net/CRAFT/index.shtml

Португальский, польский, венгерский

[MAC-Morpho] Тексты из газеты «Folha de São Paulo» на бразильском португальском: www.nilc.icmc.usp.br/lacioweb/english/plancamento.htm
[NKJP] Narodowy Korpus Języka Polskiego. Подкорпус NKJP, доступный на условиях лицензии GNU GPL v.3: nkjp.pl/index.php?page=14&lang=1
[Szeged] Szeged Corpus, корпус текстов на венгерском языке: www.inf.u-szeged.hu/projectdirs/hlt/index_en.html

Картинки в начале поста: «Family portrait» и «Totem moster».
Бочаров Виктор @bocharov
карма
39,0
рейтинг 0,0
natural language processing
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Спецпроект

Самое читаемое Разработка

Комментарии (116)

  • +38
    Респект таким парням, даже с недоступным корпусом русского языка они не забывают о лингвистике, у них есть цель в жизни, они не опустили руки, а вы сидите за компьютерами и бессмысленно проводите свою жизнь…
    • +24
      а вы сидите за компьютерами и бессмысленно проводите свою жизнь…

      Вы так говорите, как будто это что-то плохое.
      • +31
        Пацаны, дух старой школы живёт только в OpenCorpora, где пацаны живут морфологией, угорают по метатекстам. Только прикладная лингвистика, только хардкор!
      • 0
        Не так, вот так дословно: — «Ты так говоришь, как будто это плохо!»
  • +2
    Замечательный проект, обязательно буду участвовать и распространять информацию.
  • НЛО прилетело и опубликовало эту надпись здесь
  • +3
    Ребята, а вы вообще в курсе, что corpora — это множественное число от слова corpus? Может, вам проект переназвать, либо доменное имя поменять?
    • +2
      Как я понимаю, товарищи не собираются ограничиваться одним корпусом.
      Я в частности крайне жду параллельных многоязычных корпусов.
    • +3
      Да, имели ввиду именно множественное число.

      Сейчас мы сосредоточились на одной цели, т.к. морфологическая разметка — это трудоёмкая и очень нужная задача. Все силы идут в эту сторону.
  • +2
    С НКРЯ можно попробовать расправиться через краулинг ответов с высокочастотными словами.
    Правда после тысячного запроса, клиент банится по IP.
    До какого-то момента я с ними возился. Но потом это все надоело.

    + У них есть серьезная проблема с интерфейсом. Иногда оно зависает и пытается выдать много одинаковых ответов на одну и ту же страничку. Много — в смысле, очень очень много. При попытке воспоизвести это в браузере привело к его падению. Хорошо, что такое поведение не регулярно.
    • +3
      А нельзя им написать «вы не охренели там?» и попросить открыть данные для скачивания?
      • +3
        Ну там в принципе на почту не отвечают.
        Да ладно, писать краулер самому и парсить все это через html5lib было интересно.
        • +2
          Ну, парсер-то вы напишите, но техническая сторона тут не главный камень преткновения. Вы понимаете, что публиковать под открытой лицензией чужие закрытые данные полученные без согласия владельца — это совершенно другой вопрос, чем «насколько технологически сложно для этого написать парсер?»
          • +3
            В исследовательских целях — можно. Мне более и не надо было.
            Результатом стало вот это:
            www.slideshare.net/w-495/dsmts-diploma

            В конце концов, я же никого не хакнул, а просто автоматизировал получение доступной информации.
          • 0
            На тему лицензий, если уж совсем серьезно, то про них ничего вообще не сказано.
            А потом, какой закон, и какую конкретно статью нарушит некто, решивший таки такое опубликовать в каких-то своих никому неведомых целях?

            Думаю, тут скорее действует профессиональная этика что-ли.
            • +3
              При общении с некоторыми людьми из коллектива НКРЯ скорее просится выражение «профессиональная жадность».

              Это как человек (реально существующий), который уже лет 20, если не больше, делает какой-то семантический суперсловарь, рассказывает о нём на конференциях и всё надеется найти на него покупателя. А человеку уже за 60.
              • 0
                Хоть бы цену кто-то озвучил. Думаю, найдутся те, кто готов был бы это купить.
                Ну или какую-то часть словаря.
      • +3
        Там нельзя открыть по юридическим причинам: во-первых, исходные тексты под копирайтом (естественно), во-вторых, разметка, которую исправляло несколько сотен человек, тоже охраняется законом, а получить постфактум разрешение у каждого из этих сотен нереально.
        • 0
          Там большая проблема это права на сами тексты, а не на их разметку.
          В веб-выдаче они все равно с нарушенным порядком предложений, и сами произведения перемешаны. Автоматизировать разрешенные действия — сомневаюсь, что в этом есть что-то противозаконное. Блокировка по ip они делают все скорее для защиты от чрезмерных нагрузок.
  • 0
    Family portait?
  • +1
    Попробовал помочь. Не хватает кнопки увеличения количества слов в примере, когда неясен контекст. Такие примеры, конечно, можно пропускать, но есть шанс, что их так никто и не «возьмёт».
    • +1
      Спасибо, что попробовали!

      До границ предложения контекст можно расширить при помощи многоточий в начале и в конце примера. Попробуйте сейчас ;)

      Показать несколько предложений не можем. Бывают неоднозначные примеры (не очень часто) — нажимайте «Другое» и пишите в коммент «Неснимаемая неоднозначность» + почему Вы так думаете.

      Шанса, что пример никто не возьмёт нет, т.к. те примеры, которые никто не берёт, размечают самые опытные участники, модераторы, разработчики и т.д… Потом, если однотипных непонятных примеров много, про них пишутся разделы инструкции. Так что смело нажимайте «Пропустить», если пример непонятен.
      • +1
        Спасибо. В комменте ниже уже сказали про троеточие. Действительно, в IE есть. Похоже, адблокер в лисе развлекается :)
        • 0
          Странно, у меня Firefox 13 с последним Адблоком и всё видно.
          • +1
            У меня кастомные фильтры ещё есть. Один, написанный моими кривыми ручками, мешался :)
      • 0
        Вот у меня был такой странный пример только что. Нужно было определить число — единственное или множественное.
        «игры воображения, игры таланта, игры ума.» Если бы это была часть предложения (либо «и нет у него игры воображения, игры таланта, игры ума» либо «именно у таких людей чаще всего встречаются игры воображения, игры ума, игры таланта») было бы просто, но когда я понял, что это предложение целиком — я встал в ступор. Что хотел сказать этим предложением высказывающийся? Имху — самое правильное — это в данном случае смотреть контекст по соседним фразам, одним предложением не ограничиться.
        • 0
          Да. В рамках одного предложения это неснимаемая неоднозначность. Надо нажать «Другое» и написать в комментарий об этом. Модератор видит ссылки на полный контекст и решит ;)
          • 0
            Я комментарий сделал, но вместо «другое» выбрал «пропустить». Свой комментарий я не могу увидеть, но надеюсь, сохранилось при этом.
            • 0
              спасибо! Он сохранился.
    • +1
      У меня есть — нужно нажать на 3 точки в сером прямоугольнике слева или справа.
  • +2
    Группу «habrahabr» создал, пока до топ 11 дотянул — велкам.
    • 0
      Присоединился вторым, через полчаса нас уже восемь.
  • +7
    Не хватает ачивок.
    А в остальном, это по сути один из немногих способов сделать что-то действительно полезное в жизни для многих офисных работников.
  • 0
    Достаточно часто стало появляться javascript'овое окошко «Что-то пошло не так. Попробуйте перезагрузить страницу» — уже раз пять появлялось. Правда, после перезагрузки всё дальше работает.
    Win7, Firefox 16.0.1

    Куда вообще багрепорты писать?
    • +3
      • 0
        Лучше б сказали, где эта ссылка там в интерфейсе ;)
        • 0
          UPD: кажись, на странице FAQ есть
    • 0
      Ubuntu 12.04 LTS, Gnome 2, Chromium 20.0.1132.47 — аналогично.
      • 0
        Думаю, это просто таймауты. Хабраэффект.
  • 0
    Надеюсь, выдаваемые разным людям задания накладываются друг на друга? Для точности было бы хорошо, чтобы для каждого спорного случая было несколько вариантов разметки от разных людей, с очевидным выбором наиболее вероятного.
    • +1
      Да, каждый пример выдаётся трём разным людям.

      Правда, случается, что ошибаются все трое, и мы думаем, помимо людей, использовать обученного робота, который мог бы находить такие аномалии статистически.
  • +3
    Когда был в Питере, забыл попросить. Постер пришлите, распечатаю на А4-А3 в институте развешу.
    • 0
      Да. Хорошая идея. Спасибо.
      • 0
        Тогда можно и мне, я в Перми повешу.
  • +7
    Ежик птица гордая… Так что я полез сразу в самые сложные задания винительный\родительный) и подзавис… Но потом открыл правило и все стало просто: для того, чтобы отличить винительный падеж от родительного подставляем вместо одушевленного слова, которое в обоих падежах отвечает на вопрос «кого?», неодушевленное, отвечающее на «чего?» (родительный) и «что?» (винительный) и жить становится проще.

    Пример (не думать над смыслом, только над морфологией!):
    «Главная причина слепоты у лиц среднего и пожилого возраста»
    После замены:
    «Главная причина слепоты у столов среднего и пожилого возраста»
    столы:
    кого? — столов
    что? столы

    Значит имеет родительный падеж, которого, кстати, большинство.

    Успехов.
    • +1
      Да, так и есть, спасибо за коммент. У нас пока не дошли руки написать про это инструкцию, но со временем напишем про все виды заданий.
  • +1
    После логина через google и обновления страницы

    Ошибка 310 (net::ERR_TOO_MANY_REDIRECTS): Обнаружено слишком много переадресаций.
    • +2
      И добавьте ачивментов, пожалуйста :) Это же мотивация дополнительная.
      • +4
        Да, ачивменты в разработке. Одна из проблем — у нас некому нарисовать красивые бейджики :) Если в топике есть доктор дизайнер, мы бы с радостью приняли его помощь.
    • +1
      Ошибку 310 не могу воспроизвести. В какой момент нужно обновить страницу?
  • +1
    Про винительный\родительный.
    Странно, что не распознаются легко алгоритмизируемые моменты, например «среди » — X — родительный падеж.
    Если, известны к каким частям речи принадлежат остальные слова, то еще можно "<числительное> X", X — родительный падеж. Это из того, что первое пришло в голову по хожу разметки.
    • +1
      Они сравнительно легко алгоритмизуются, но если точность не 100% (а 100% она не будет), то потом всё равно нужно проверять руками.
      • +1
        Понятно, что проверять руками, но может быть сделать «предполагаемый вариант» в подобных случаях и выделять его каким-нибудь зелененьким?

        Как часто происходят проверки размеченного?
        • +3
          У нас есть в отдалённых планах провести на это эксперимент, но коллеги-психолингвисты, которые делали похожие вещи, говорят, что это увеличивает процент ошибок.

          Проверка происходит постоянно, но довольно медленно, к сожалению. Мы сейчас исследуем, какой процент ошибок получаем, если доверяем всем примерам, где все три человека согласились. Если окажется, что таких ошибок, условно, одна на миллион, мы сможем увеличить скорость проверки в несколько раз (зависит от типа заданий).
  • +1
    Капец какая занудная регистрация у вас… opencorpora.org/login.php?act=register

    Сделайте, блин, проверку ДО нажатия кнопки «зарегистрироваться»

    Ну и прямо на страничке подскажите какие у вас где допустимые символы…

    Я много где регистрировался и я в какой то степени чайник… У вас только с 5 раза…
    • +1
      Да, подсказку сделаем, спасибо.

      Если хочется иметь какие-то спецсимволы в имени пользователя, то можно поставить в настройках имя, которое будет показываться в статистике, оно не обязано совпадать с логином.
  • +2
    Вам нужно завербовать школьников, чтобы они делали это вместо домашки по русскому )
    • +3
      Если сделать это обязательным — результаты будут не очень. Уже был опыт со студентами :-)
      • 0
        Скажите, а были ли какие-нибудь попытки посмотреть, как будет меняться качество, если увеличить число студентов на каждый пример? Ведь увеличение числа аннотаторов, как кажется, должно бы повысить точность разметки, не будут же они совсем случайно отвечать.
        • +1
          Пока не было.

          Тут примерно такая дилемма: увеличивая число аннотаторов, мы получаем в среднем больше случаев, когда их ответы не совпадают и должны быть просмотрены модератором => растёт нагрузка на модератора. Выигрыш мы получаем только в том случае, если все (допустим) трое предыдущих отвечавших ответили неверно, а четвёртый ответил верно.
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      спасибо!
  • +1
    Без большого корпуса заниматься NLP грустно.
    А с какого объёма можно уже тренировать снятие морфологической неоднозначности?
    Ведь с какого-то момента можно было бы обучаться на том, что уже размечено, или по крайней мере ускорить процесс дальнейшей разметки хотя бы за счёт снятия частеречной омонимии (как понял из вашей диаграммы, она ещё не вполне снята)
    • +2
      Мы сейчас где-то сделали около 7% (280 тыс ответов из ожидаемых 4 млн), но сегодня процесс идёт раз в 20 быстрее, чем обычно. Что очень радует.

      Начинать можно даже с полностью неоднозначного корпуса по методу E.Brill ( citeseerx.ist.psu.edu/viewdoc/summary;jsessionid=4FAD01411F0CB33045D20880B2E63998?doi=10.1.1.128.9159 ). Это статья 1995 года, но можно найти и ещё по запросу «unsupervised part of speech tagging». В этом случае корпус со снятой вручную неоднозначностью нужен будет для оценки результата.

      Из известных мне статей про снятие морфологической неоднозначности в тексте на русском, три использовали НКРЯ:

      — Сокирко и Толодова (2004)
      — Зеленков, Сегалович, Титов (2005)
      — Шаров и Nivre (2011)

      Похоже, что речь шла о 5 млн слов, но это не везде очевидно. Точность получалась в диапазоне 94 — 97%.

      Есть ещё хабрапост, в котором использовалась доступная выборка из НКРЯ в 180 тыс. слов (её и сейчас можно скачать). Там получилась точность 92%, что ниже, чем обычно приводят в работах про POS-tagging.

      Вот тут ещё есть про POS tagging текста на болгарском. Говорят о 97% при использовании корпуса около 300К слов. Там, правда, не только машинное обучение, но и правила, составленные вручную лингвистами.

      Я думаю, что:

      1. 180 тыс. слов и только машинное обучение, вероятно, мало
      2. 300 тыс. слов для машинного обучения + правила от лингвистов, возможно, достаточно
      3. есть ли существенная разница между 1 млн и 5 млн — непонятно

      Мы хотим 1 млн со снятой неоднозначностью. Потом ещё раз подумаем ;)
      • +1
        Unsupervised POS-тэггер — интересно, надо попробовать. Для оценки-то и 180 тыс. из НКРЯ хватит :)
        Боюсь, правда, что английский POS очень сильно отличается от русского, и там придётся половину переделывать.
        Но всё равно спасибо за наводку!
        • 0
          Попробовать можно, Стэнфордский парсер отлично обучается, а уж в английском частеречная омонимия намного богаче, чем в русском.
          • 0
            Я скорее о том, что в английском достаточно жесткий порядок слов и слабая морфология, а в русском наоборот. Кроме того, в английском омонимия полная, а у нас часто бывает омонимия по форме, т.е. нужно выбрать не часть речи как таковую, а правильную комбинацию «слово+форма» (были = прошедшее от «быть» или множественное от «быль»? Сочи = город или повелительное наклонение от «сочить»?). В общем, на мой взгляд, задачи разные.
            • 0
              Согласен. К тому же, из-за флективности русского языка количество n-грамм растёт в разы (пытались обучать Moses, дообучали до пяти с чем-то гигабайт).

              Через пару неделю попробую Стэнфордский парсер обучить, самому интересно.
              • +1
                Расскажите потом о результатах!
    • +1
      Про ускорить за счёт подключения машины: думаем подключатать машину на этапе модерации, т.е. представлять её как ещё одного аннотатора. Но разработчика, который бы взялся за реализацию этой затеи, у нас пока нет. От человека потребуется большая самостоятельность.
  • +1
    Нужны какие-нибудь баллы, соревновательность, так было бы интереснее.

    Да даже банальный счётчик, сколько % сделал из задания — уже лучше, чем сейчас. Сейчас через некоторое время надоедает и скучно.
    • +1
      Да, как уже написано выше, геймификация в процессе, не хватает дизайнера. Банальный счётчик почти сделали, может быть, на днях будет.
  • +1
    хехе… Сделайте капчу на основе вашего сервиса — наподобие того, как google re-captcha оцифровывает книжки =) Шучу.

    Ну а так — да, какую-то игровую механику нужно внедрить, ибо просто так этим заниматься быстро надоест.
    • +1
      Почему шутишь? Капчу и надо. На «Грамоте» или на «Вики» была бы очень в тему именно такая.
  • +4
    off: С днём рождения!

    on: А как всё-таки обычному тупому лингвисту пользоваться открытым корпусом? Вы не предполагаете веб-мордочку для поиска, например? Вот мне хочется найти какую-нибудь статистическую информацию. И что? Срочно выходить замуж за программиста, который осилит разобраться? :-)
    • +1
      upd: понятно, что есть поиск по НКРЯ, но у вас же с ним очень разные тексты. И ещё хотелось бы какую-то инфу по составу корпуса, какие жанры в каком процентном соотношении представлены, и всё такое.
      • +1
        Какую, например, статистическую информацию?

        Про жанры есть на странице «Статистика» внизу. Или имеется в виду что-то другое?
        • 0
          Жанры — в принципе, да, но у вас странно как-то получилось: в одном ряду «ЧасКор» и «художественная литература». Может, объединить источники в жанровые группы?
    • +1
      Спасибо!

      Про поиск:

      1. для большинства лингвистических задач (т.е. для поиска примеров употребления чего-нибудь) НКРЯ лучше, т.к. он больше.

      2. если собрать корпус из Часкора и Википедии/Викиновостей/Викитеки, а потом разметить его автоматически, то это будет куда более осмысленно, т.к. это будет современный язык + не очень маленький объём.

      3. в Открытом корпусе поиск нужнее всего модераторам, т.к. им нужно искать по нашим граммемам.

      Итого, есть две задачи:

      — научиться генерировать корпус из MediaWiki dump и HTML Часкора
      — поднять <a href=«cwb.sourceforge.net/>CWB на этом корпусе

      Тут нужны добровольцы, которые хотят заниматься этим в свободное от работы время.
      • 0
        А кстати, насколько хороша получилась автоматическая разметка?
    • 0
      Напои меня чаем, напишу что-нибудь =)
  • +1
    Про первой ссылке (http://opencorpora.org/tasks.php?act=annot&pool_id=571) падежи прилагательных спрашиваются, что меня как-то с толку сбивает. Там нет возможности у вас в таких случаях падеж определяемого ими существительного использовать?
    • +1
      Это бы прекрасно работало, если бы определяемое существительное стояло сразу после определяемого им прилагательного или если бы у нас был синтаксический анализатор со 100% точностью (а если меньше 100%, то всё равно вручную проверять).
      • +1
        Я что-то пропустил — в разметке корпуса не предполагается связи прилагательных и существительных определять и хранить?
        • +1
          Предполагается, но пока этого нет, поскольку это уже синтаксис, а мы пока занимаемся морфологией.

          Теоретически — да, можно было бы вместо того, чтобы просить людей определять падеж прилагательного, просить их связывать прилагательное с существительным. Наверное, когда-нибудь сделаем и так.
          • 0
            Мож, стоит тогда перенаправить усилия людей на более полезные задания, скрыв такие вот, которые автоматом будут решены при других неизбежных работах? Чтоб не распылять… ведь автоопределению синтаксических связей эта работа не сильно поможет, вроде… то есть, всё равно же ту задачу решать, а после неё эта задача будет решена автоматом?
            • +3
              Тут есть, как мне кажется, два аргумента.

              1. Эти «неизбежные работы» могут занять неопределённое время. Мы больше двух лет потратили только на адаптацию словаря и выработку разных решений по морфологии.
              2. Большинству потенциальных потребителей наших данных даже корпус без связей, а только со снятой морфологической омонимией уже будет очень полезен.
              • 0
                Резонно
  • 0
    И «хочу ещё примеров» воспринимается так, как будто я подсказки прошу. «пример» и «задачка» всё же разные слова, «Пример» в смысле задания я только в младшей школе встречал, и то с трудом понимал, почему там задачи примерами называют.
    • 0
      А как лучше написать? «Хочу ещё заданий»?
      • 0
        Ага
      • 0
        А то и просто «Ещё»
        • +2
          Не можем обещать, но обсудим :-)
          • 0
            Мне вот тоже всё время хочется там увидеть «Ещё!» :-)
  • +1
    Было бы здорово опубликовать подборку самых крутых / зрелищных/ занятных неоднозначностей, типа этих семи глаз.

    Интересно, у каких слов вашего корпуса сейчас рекордное количество вариантов толкования?
    • +2
      Спасибо за идею ;)

      Кол-во вариантов толкования можно посчитать по дампу (см. пример ниже, ссылки на дамп в начале opencorpora.org/?page=downloads ). Варианты толкования — это теги v. В данном примере их три.

      <token id="3" text="злословия">
        <tfr t="злословия">
          <v>
            <l id="115766" t="злословие">
              <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="sing"/><g v="gent"/>
            </l>
          </v>
          <v>
            <l id="115766" t="злословие">
              <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="plur"/><g v="nomn"/>
            </l>
          </v>
          <v>
            <l id="115766" t="злословие">
              <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="plur"/><g v="accs"/>
            </l>
          </v>
        </tfr>
      </token>
      

  • +3
    Была бы интересна возможность посмотреть свои ошибки.
    Я вижу 5.9% ошибок в статистике. Любопытство теперь не даёт покоя, в чем был не прав.
    • +2
      Об этой возможности мы думаем и тоже её хотим. Однажды сделаем и напишем об этом.

      5.9%, в данном случае, это не ошибки, а процент расхождений с двумя другими участниками. Теоретически, у Вас вообще может не быть ошибок. По мере модерации появится и кол-во ошибок.
  • +2
    Виктор, Дмитрий, поздравляю!

    Кстати, вечером добавил отдельную статью OpenCorpora на NLPub. Если есть неточности — прошу вас, исправьте :)
    • 0
      Спасибо :-)
  • +1
    А в прокуратуру можно написать, чтобы в открытый доступ выложили то, что по идее нам и принадлежит — ведь куда ни плюнь — госконтора или госгрант: ruscorpora.ru/corpora-about.html

    Хотя… там яндекс есть — вот кто во всем виноват :)

    Я бы сосредоточился на выведении в общую собственность того, за что итак уже наши налоги были заплачены. Хотя это можно параллельно делать. Есть же на хабре юристы? Подскажите, как это организовать и насколько это реально?
    • 0
      Спасибо. Не надо в прокуратуру. Там всё сложнее, чем кажется на первый взгляд.
  • 0
    Про капчу уже писали. Я бы предложил шире — посылать нахер на сервис всех граммар-наци. Иной раз от умников аж в глазах рябит. А так, будь добр не в комментариях гадить, а пойти и доказать делом. Не хочешь делом, а хочешь исходить на говно и ссылаться на tsya.ru — только чтение или бан. Нужны плагины к форумным движкам :)
    • +2
      У нас в течение нескольких месяцев, предположительно, появится API, тогда все желающие смогут сделать плагин хоть для чего.
  • +1
    Делаете очень полезное/нужное дело, и отличная короталка времени во время ожидания.
    Еще б не плохо было закачать сколько то примеров, ответить на них офлайн, а потом синхронизироваться.
    • +2
      Вот это было бы просто замечательно. Какая страшная куча времени уходит на пасьянс в телефоне, когда интернета нет!.. :-)
  • +2
    А что по этому поводу думает компания ABBYY? Они же вроде именно этим и занимаются. У них разве нет никаких корпусов текста? Они делиться совсем не хотят, даже получив государственный грант в Сколково?
    • +2
      Хороший вопрос.
      Учитывая, что Abbyy (при рассказе о Сколково) уже вложила десятки человека-лет в проект.
  • +1
    Кончились задания на единственное/множественное число.
    Верните! Дайте возможность даже самым безграмотным причаститься тела филологии!
    • +1
      Первые два комплекта этих заданий кончились. Потом когда-нибудь будут ещё.
      • 0
        А может на вашем движке оставите раздел загадок? Для тех, кто хочет не столько помочь, сколько поразвлекаться таким образом, и желает не мешать в сложных серьёзных вопросах, где не уверен в себе?

        С учётом того, что отгадки известны — можно сразу и рейтинг игрока считать…
    • +1
      Вернули ещё немного простых заданий.
  • +2
    Она схватила ему за руку и неоднократно спросила: где ты девал деньги?
  • 0
    Ну дело в том, что понимание этих предложений зависит от контекста. С этого и надо начинать.

    А есть еще приколы типа: Бытие определяет сознание. И кто кого определяет?
  • 0
    А пофонемная разметка есть?

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.