Comments / Profile of dustalov / Habr

How to become an author

Димочка @dustalov

Уверенный пользователь ПК

Profile Publications 8Comments 171Bookmarks 3

Онтоинженер: от сотворения мира к порождению сущностей

dustalov Jan 23 2015 at 21:39

Да, результаты обработки документов кладутся в индекс, поиск по которому осуществляется довольно быстро. Даже если закрыть глаза на вопросы производительности, остаётся вопрос целесообразности: неясно, как такие данные можно применить для значительного повышения качества поиска.

На мой взгляд, гораздо важнее уловить профиль пользователя и угадать его сиюминутную потребность, чем тратить память и процессорное время на полный разбор документов. В качестве подтверждения можно посмотреть тематику пленарных докладов на ведущих конференциях последних лет по информационному поиску: ECIR 2014, ECIR 2015.

Не забывайте про грамотность и закон Парето на примере публики из социальных сетей. Увы, не каждый носитель русского языка способен уловить тонкий смысл комментариев на скриншотах по ссылке. Пожалейте компьютеры: рано или поздно они тоже научатся чувствовать и переживать.

Облака — всего лишь способ предоставления ресурсов. В соседнем комментарии я писал, что процесс такой обработки сложно распараллелить, а значит, горизонтальное масштабирование вряд ли поможет делу.

0

Онтоинженер: от сотворения мира к порождению сущностей

dustalov Jan 20 2015 at 19:59

Я видел демонстрацию машинного перевода при помощи Compreno в 2012 году и перевод новости из (около) семи абзацев длился несколько десятков секунд. Несколько месяцев назад мои коллеги рассматривали Compreno для анализа содержимого документов и по каким-то причинам отказались в сторону более простых решений.

При правильной реализации, время анализа предложения в значительной мере зависит от количества слов в нём, но такие решения всё равно не работают быстро: полный разбор документа тяжело распараллеливается из-за явления кореферентности. Бывают задачи, где время не так критично: системы общения, системы понимания текста, а есть задачи, где каждая миллисекунда на счету.

0

Онтоинженер: от сотворения мира к порождению сущностей

dustalov Jan 19 2015 at 20:12

Эта информация была бы слишком избыточной для поисковиков. Но главная проблема состоит в производительности: Compreno занимается полным разбором каждого предложения, что очень накладно с вычислительной точки зрения. Сегодня применять подобные решения в поисковиках общего назначения выйдет слишком дорого (или долго). У специализированных поисковых машин, при этом, нет нужды в огромной онтологии.

0

Делаем бэкапы: как перестать волноваться за свои данные

dustalov Jun 19 2014 at 23:48

Можно посмотреть на скрипт?

0

Делаем бэкапы: как перестать волноваться за свои данные

dustalov Jun 19 2014 at 20:51

Основное достоинство Amazon S3 и совместимых с ним сервисов заключается в том, что для них сделано очень много готовых и простых в использовании инструментов, в том числе и для создания резервных копий данных. Насколько сложно или неудобно заливать резервные копии напрямую на S3 по сравнению с предложенным решением?

+3

Создание сетей терминов на основе анализа текстов

dustalov Apr 14 2014 at 21:03

Утверждение в первом содержательном абзаце ничем не обосновано: нет ни обзора существующих работ, ни ссылок на обзорные работы. Автоматизация построения онтологий — чрезвычайно важное (и интересное) направление исследований, но нельзя начинать с нуля. Мне кажется, статью можно улучшить добавлением отдельного раздела про особенности и недостатки существующих решений. В англоязычных работах это называется Related Work.

Апробация тезауруса может выполняться двумя способами. Можно взять какую-нибудь дорожку РОМИП и сравнить результат работы вашего ресурса с известными результатами на этой дорожке. Можно сопоставить ваш ресурс с каким-либо золотым стандартом, но здесь всё сложнее, потому что нужно найти хорошо изученную онтологию по вашей тематике. Ну, есть ещё третий вариант — выполнить экспертную оценку, но это слишком долго и дорого. Обозначенная рубрика arXiv.org — всего лишь неразмеченный набор данных. Как вы собираетесь оценивать по нему свою онтологию?

+2

Что такое Томита-парсер, как Яндекс с его помощью понимает естественный язык, и как вы с его помощью сможете извлекать факты из текстов

dustalov Apr 14 2014 at 20:49

После слов «планируем отдать эту технологию в open source» пролистал вниз, поставил плюсик и лишь потом вернулся и дочитал. Спасибо!

Остаётся всего один неоднозначный момент.

Изменятся ли условия использования после открытия кода? Анализатор хорошо работает уже сейчас, однако последняя часть пункта 3.2 текущего лицензионного соглашения запрещает любое более-менее практическое применение «Томиты».

+7

Создание сетей терминов на основе анализа текстов

dustalov Apr 14 2014 at 20:34

Для статей подобного формата существуют специальные журналы, утверждённые ВАК. В том числе по компьютерной лингвистике и обработке естественного языка. Здесь принято писать менее формальным языком.

Можно предложить сколь угодно методов автоматического построения тезаурусов лексических онтологий, но почему в статье нет раздела про апробацию полученного ресурса? Какова актуальность работы? Чем указанный подход лучше ручной разметки или других известных решений?

+3

Petrovich просклоняет русские имена

dustalov Jan 4 2014 at 15:09

Спасибо за комментарий!

Эталонным поведением считается поведение Ruby-версии библиотеки, так сложилось исторически. Имеется централизованный репозиторий с правилами, которые должны использоваться всеми портами. Если этого не происходит, то нужно обратиться к автору порта. Если выявляются ошибки в правилах, то мы стараемся исправить их по мере информирования.

Сейчас PHP-версия поддерживается difiso. Надеюсь, он увидит этот вопрос.

0

Hello world в 1 строчку на чистом JavaScript

dustalov Nov 20 2013 at 11:36

Платиновый пост.

+1

KitKat Android 4.4 Unboxing (и даже краткий обзор)

dustalov Nov 16 2013 at 00:21

Наконец-то нормальный пост.

+2

Искусственный интеллект под Android с открытым API

dustalov Nov 15 2013 at 03:34

Немного упустил момент: технология распознавания речи используется собственная или же применяется решение от Google?

0

Платежный сервис Pays.io закрывается

dustalov Nov 2 2013 at 21:14

У ребят был очень модный сайт и складывалось ощущение, что дела идут замечательно. Их сервис выглядел так, что им хотелось пользоваться. Кто-нибудь знает реальные причины закрытия?

+2

Петер Арвай (Peter Arvai), Prezi: «Креативность перевешивает опыт»

dustalov Oct 24 2013 at 01:23

Пожалуйста, не злоупотребляйте Prezi. Проблема заключается в том, что люди пытаются напихать как можно больше плывучих эффектов на каждый слайд. На моей памяти была конференция, где три докладчика подряд решили продемонстрировать свою «креативность» и глубокую творческую натуру. В итоге аудиторию укачало ещё в середине второй презентации, так как каждый видимый пискель был анимирован.

Это такой же инструмент, как PowerPoint и подобные. Везде можно сделать омерзительное зрелище, но Prezi даёт больше возможностей для этого. Помните, что всё в итоге определяется умением человека взаимодействовать с аудиторией, а не выбирать функцию движения спрайтов.

+2

Petrovich просклоняет русские имена

dustalov Oct 23 2013 at 18:08

Пожалуйста, обратите внимание, что оригинальный репозиторий переехал на новый адрес — github.com/petrovich/petrovich-ruby.

Теперь мы поддерживаем несколько официальных портов, список которых представлен на странице организации github.com/petrovich/petrovich.

0

Базы знаний. Часть 1 — введение

dustalov Oct 16 2013 at 15:17

Проблема кривой обучения хорошо обозначена в самом начале статьи. Склад мышления наших людей таков, что они в большинстве своём не привыкли строить решения, основанные на данных. Тема с открытыми, например, государственными данными в России начинает подниматься только сейчас. Пройдёт несколько лет и станет легче (надеюсь).

Безусловно, нет никаких проблем отобразить CSV в RDF напрямую. Это не всегда правильно, так как наверняка найдётся словарь RDF, который уже описывает данную предметную область, и в нём придётся разбираться. В области XML существует аналогичная ситуация с XML Schema. Это вопрос интероперабельности.

0

Базы знаний. Часть 1 — введение

dustalov Oct 16 2013 at 14:36

Спасибо, за хорошую статью.

Да, концепция Linked Data прекрасна представлением объектов в виде SVO-троек и возможностью рисования запросов по коллекциям таких троек. Однако, на мой скромный взгляд, существует две системных проблемы технологий Linked Data и Semantic Web:

Достаточно резкая кривая обучения. Допустим, программисты хотят просто получить данные. Вместо этого им предоставляется «какой-то SPARQL» и аппарат дескрипционной логики. Если по работе приходится «писать контроллеры», то на столь высокие вещи у людей времени обычно нет.
Нетривиальный способ публикации данных. Хорошо, когда твоя информационная система общается сразу в RDF. А если нет? Обычно люди представляют данные в чём-то ещё: реляционные СУБД, файлы, модные NoSQL-решения. Выгрузка данных в форматах Linked Data вызывает дополнительные накладные расходы.

Когда информационная система изначально построена поверх Linked Data и эти форматы являются для неё родными, то всё чудесно. Практика оказывается, увы, несколько иной.

0

Petrovich просклоняет русские имена

dustalov Oct 9 2013 at 00:36

Упомянул этот порт на главной странице репозитория, спасибо за отличную работу. Мне кажется, вам стоит объединить усилия с MainNika.

0

Petrovich просклоняет русские имена

dustalov Oct 9 2013 at 00:36

Упомянул порт на главной странице репозитория, спасибо за отличную работу.

0

Petrovich просклоняет русские имена

dustalov Oct 8 2013 at 09:07

Да, можно добавить рядом.

0

2

3 4 ...