Action information
258,79
рейтинг
10 марта 2011 в 17:04

Разное → Ответы генерального директора ABBYY Сергея Андреева на вопросы читателей Хабра. Часть 1

image
Уважаемые читатели и писатели Хабра!

Хочу сказать спасибо всем участникам этого обсуждения за их искреннее желание сделать нашу страну лучше. Это видно во всех вопросах, заданных здесь, даже если они порой звучат жёстко и предубеждённо. Я посчитал важным ответить на вопросы, потому что ABBYY слишком давно не рассказывала о том, чем мы занимаемся, и как мы это делаем. А отсутствие информации порождает много нелепых догадок. Итак, время отвечать на вопросы.

В этих ответах я буду иногда отвлекаться к общим суждениям и общей информации, но не для того, чтобы что-то рекламировать, а чтобы лучше объяснить причины, лежащие в основе наших действий.

Начну с того, что компании ABBYY уже 21 год. Все это время мы делаем интересные продукты и технологии, известные во всём мире. Сейчас это продукты распознавания печатного и рукописного текста и словари. В будущем – это продукты, основанные на компьютерной лингвистике. Наши интересы не лежат в области потребления. Наши руководители и акционеры не ездят на роскошных автомобилях, не покупают яхт, вертолетов и дворцов, у нас нет дач на Рублевке. Нам интересно делать новые удивительные продукты, а не ходить по магазинам.

Более 70% наших доходов зарабатывается не в России. По разным оценкам, от 30% до 50% сканеров и МФУ всего мира комплектуется российским программным продуктом ABBYY FineReader. Мы довольно хорошо диверсифицированы по источникам доходов. У нас нет зависимости от российского рынка и, тем более, от его госсектора.

Мы занимаемся только тем, что нам интересно. Только тем, на что мы готовы тратить время своей жизни. Нам не интересны распилы, политика, коррупционные схемы и прочая мутная деятельность.

Мы живем в России, работаем в России, платим все налоги. Как-то даже получили грамоту от налоговой инспекции, как лучший налогоплательщик района :) (не знаю радоваться этому или тревожиться). Наши дети здесь учатся, и никто не собирается никуда уезжать. Всё, что у нас есть, находится здесь! Нам не всё равно, что будет с Россией. И мы готовы участвовать в полезных для страны делах. Мы тратим свое время и средства на развитие образования и на другие полезные инициативы, которые развивают отрасль ИТ в России.

Может все это и покажется кому-то слишком возвышенным, но у нас тут и правда заповедник хороших людей с хорошими и общими интересами.

Теперь давайте переключимся на вопросы по существу. Вопросов было много, много и ответов, поэтому сегодня здесь появятся пока только первый блок. В нём я отвечу на вопросы о технологии ABBYY Compreno, под которую ABBYY получила грант. Следующие блоки будут опубликованы в начале следующей недели.

"… Деньги выделяются для создания технологии автоматической обработки текстов Compreno… Технология Compreno предназначена для создания систем анализа, перевода и поиска текстов на различных языках. С помощью данной технологии можно будет, например, осуществлять автоматическое составление базы данных контекста для улучшенного анализа текстов, автореферирование текстов и др..."

Хотелось бы услышать больше конретики, с объяснениями на примерах. Я догадываюсь, что технология Compreno может использоваться при компьютерном переводе текстов, например для правильного определения структуры предложения на исходном языке – то есть для определения связей и отношений между словами в предложении на исходном языке. Таким образом, генерация предложения на конечный язык будет проводиться с учетом всей структуры исходного предложения. Насколько я вижу, в современных автопереводчиках такой анализ находится в зачаточном состоянии, примерно на уровне определения существительного (местоимения) и глагола к нему. Поэтому предложения современных переводчиков достаточно корявые.

Насколько повысится качество перевода? Не получится ли так, что предложения будут генерироваться лингвистически связанными, со словами с правильными окончаниями, то есть на уровне структуры – никаких претензий не будет. Но на уровне смысла автопереводчик как генерировал белиберду, так и будет продолжать генерировать псевдоосмысленный текст?


Отвечая на первые два вопроса, я хотел бы рассказать поподробнее про технологию ABBYY Compreno.

Хотя мы очень внимательно следим за разработками в этой области в мире, нам не известны аналоги созданной нами лингвистической технологии нового поколения ABBYY Compreno.

Центральным ядром создаваемой технологии служит универсальная иерархия понятий и модель отношений между этими понятиями (для специалистов: иерархия универсальных семантических значений и отношений между ними). Хотя все люди на земле говорят разными словами, но используют они очень похожую систему понятий. Люди в разных странах ходят на работу, сидят дома, работают на компьютерах, составляют договоры, летают на самолётах, ведут переговоры. Для них строятся похожие бизнес-центры. Они находятся в похожих помещениях и пользуются похожей мебелью. Все эти понятия и их взаимоотношения в разных развитых цивилизациях имеют гораздо больше общего, чем различного. В дальнейшем это семантическое дерево понятий я буду назвать английской аббревиатурой USH (Universal Sematic Hierarchy).

USH – это дерево понятий, универсальное для всех языков, толстые ветви которого являются более общими и универсальными понятиями (например, «путешествие»), а тонкие – более специфическими, но тоже универсальными понятиями (например, «командировка»). Древесная структура позволяет обеспечить наследование свойств от предков к потомкам, благодаря которому описание новых понятий происходит быстрее, так как, чтобы описать понятие «приказ», уже не надо перечислять все характеристики понятия «документ». Слова конкретного языка являются листочками на дереве USH. Мы получаем возможность снимать неоднозначности. Например, в русском языке разные значения слова «управление» соответствуют понятиям на разных ветвях этого дерева, поскольку есть значение «управление» как департамент, а есть значение «управление» как действие.

Семантическое описание какого-либо конкретного языка превращается в прикрепление «листочков» – слов этого языка – к веткам USH.

Второй, но не менее важной частью технологии является полный синтаксический разбор текста. Синтаксис – это способ «кодирования» смысла (для специалистов: семантических отношений) в конкретном языке. Сами семантические отношения универсальны, а способы их реализации в каждом языке – свои. В каких-то языках установлен линейный порядок, в других используются падежи, предлоги, специальные служебные слова, где-то используется всё сразу. Для каждого языка синтаксическое описание делается заново, но сами средства, которые разные языки используют для кодирования смысла, перечислимы. При описывании нового языка используется разные элементы конструктора (тот же линейный порядок, различные типы синтаксических преобразований, грамматические значения, предлоги, специальные конструкции).

Технология Compreno также успешно определяет и более сложные синтаксические связи, такие как замена слова «мальчик» на слово «он» в предложении (для специалистов: анафора): «Хоть мальчик и хотел поиграть, но он понимал, что у него мало времени». Или целые пропуски в сложносочиненных предложениях (для специалистов: эллипсис), например «он любит красное вино, а она – белое». Выделяемые системой связи между понятиями также выражаются в древесной структуре, фактически передают смысл написанного, и несут важную информацию для поиска или перевода. Таким образом, система стремится к определению смысла текста, написанного на обычном языке, позволяя машине «понять» этот текст и трансформировать его в универсальное представление, не зависящее от языка.

Используя USH, синтаксическое описание языка, а также статистику взаимоотношений между словами, технология Compreno производит полный анализ текста и при переводе его на другой язык использует слова, соответствующие правильным ветвям дерева USH и отношениям, выявленным при разборе исходного предложения.

Как вы понимаете, если для перевода нам удалось приблизить компьютер к пониманию смысла текста, то это понимание можно использовать не только для задач перевода, но и для многих других чрезвычайно востребованных приложений. Получение универсального представления (смысла) дает возможность подойти вплотную к более качественному распознаванию речи, умному поиску информации, когда в качестве запроса используется естественный язык, а в качестве ответа можно получить документ, совсем не обязательно содержащий слова запроса, но зато содержащий их аналоги и правильные отношения между понятиями. Можно определять авторство документа, можно сделать реферат (выжимку из большого документа). Можно ещё много чего сделать, когда у тебя есть универсальная базовая лингвистическая технология ABBYY Compreno.

Какие проблемы решает продукт, на который выделены деньги в Сколково? Каковы области его применения? Какие новые возможности он предоставит обычным людям?

Перечислите конкретно, в каких типах программ вы сейчас видите необходимым использовать Compreno, если бы вдруг сейчас она уже была бы полностью готова?


Опять отвечу разом на два вопроса.

Технология Compreno – это универсальная лингвистическая платформа для приложений, решающих множество прикладных задач по обработке текстов на естественном языке, таких как:
  1. Письменный и устный перевод с одного языка на другой;
  2. Интеллектуальный поиск, в частности:
    • Поиск по смыслу, а не по ключевым словам;
    • Извлечение фактов и связей между объектами поиска (в т.ч. для конкурентной разведки);
    • Мониторинг компаний и персоналий и построение аналитических отчетов на основе параметров разного типа. Например, при подготовке отчета на тему «Какой тариф сотовых операторов является самым популярным?» важно не только верно идентифицировать все тарифы, обсуждаемые в СМИ, но и сравнить частотность.
    • Возможность получить ответы на запросы, заданные обычным языком (например, «Чем владеет Иван Иванович Бобров?»).
  3. Многоязычный поиск, т.е. когда на вопрос на одном языке находятся ответы на всех языках, поддерживаемых системой;
  4. Классификация и фильтрация документов;
  5. Защита от несанкционированного использования информации;
  6. Автоматическое реферирование и аннотирование документов;
  7. Распознавание речи;

В мире сейчас не существует настолько универсальной технологии, позволяющей решить так много прикладных задач, требующих качественного лингвистического анализа текстов. И речь идет не только о традиционных задачах, таких как перевод, но и задачах, решение которых на качественно новом уровне было невозможно в прошлом (например, автоматический поиск фактов и связей в массивах информации).

Революционность ABBYY Compreno состоит в фундаментальности подхода. Над универсальной системой понятий и технологиями полного синтаксического и семантического анализа задумывались многие. В своей работе мы опираемся на труды ведущих российских учёных в этой области и классическое лингвистическое образование. Однако многие специалисты отступали перед колоссальной инженерной и лингвистической сложностью реализации этой идеи для реальных практических задач. Передовое российское лингвистическое образование и наука дали нам очень хороший фундамент для начала и развития этой большой работы.

На что пойдут деньги? Какие ожидаются результаты? Будет ли результат новым продуктом, или он разойдется по старым?

Проект разрабатывается уже около 10 лет. О каких-либо публичных результатах я не знаю. Не превратился ли он в долгострой с неясными перспективами? Каковы гарантии, что этот грант будет последним необходимым для выхода продукта?

На какое время рассчитан проект, который будет реализовываться в Сколково?


Отвечаю на три вопроса.

В психологии известно, что ребёнка от взрослого отличает неспособность контролировать свои импульсы – и это одна из причин, почему он никогда не сможет заменить взрослого во многих видах взрослой деятельности. Так же и зрелую компанию, построенную надолго, от фирмы-однодневки отличает способность вкладываться в проекты, которые принесут плоды через годы. Читайте подробнее здесь.

Добавлю, что мы уже давно решили, что заниматься нужно только тем, в чём ты уверен, что можешь добиться самых лучших результатов в мире. Если же у тебя нет разумных оснований полагать, что ты станешь в своем деле самым лучшим в мире, то это плохой бизнес, потому что он будет сведен в итоге к ценовой конкуренции. Уникальные вещи быстро не делаются, иначе их было бы легко повторить.

Ну а теперь по сути того, чем мы занимаемся.

Работа над созданием технологии Compreno ведется уже 15 лет (на людей, которые занимаются этим и другими нашими проектами вы можете посмотреть здесь). Дело в том, что этот проект требует серьезного научного фундамента, без которого невозможно создать работающую технологию действительно высокого качества. Фундаментальная наука, как известно, требует денег и времени. 15 лет назад началось продумывание основных концепций новой технологии. Примерно 10 лет назад – работы по построению архитектуры, около 6 лет назад – серьезные работы по программированию базовых модулей, а около 2 лет назад были пройдены самые серьезные технологические риски. Проект вошел в ту фазу, которая позволяет нам с высокой степенью уверенности говорить о достижимости поставленных целей.

Результат, к которому мы стремимся, я описал в одном из предыдущих ответов.

Мы ожидаем, что коммерческие продукты для широкого применения на базе платформы Compreno появятся в течение 2-3-х лет. Но уже сегодня мы демонстрируем технологию Compreno крупным заказчикам, Специалисты, которые видят, как работает технология уже сегодня, обсуждают с нами пилотные проекты. Кроме того, мы готовим еще один наш продукт – библиотеку функций, доступную для других разработчиков приложений. То есть любой разработчик сможет лицензировать ядро системы и встроить эти функции в свои программные продукты.

В конце, чтобы снять сомнения в перспективности «долгостроя», хочу добавить, что все эти годы акционеры компании (примерно совпадающие с ее менеджментом) вместо обогащения и покупок яхт, вилл и прочего хлама вкладывают прибыль компании в совершенно новое прорывное направление. Мы смогли построить качественный наукоемкий международный бизнес, и считаем себя компетентными в том, чем мы занимаемся. Кому как не нам лучше знать, куда вкладывать свои деньги? Разве кто-то кроме нас может более надежно оценить правильность этого вложения? Если кто-то считает, что мы ошибаемся, и знает, как можно применить наши деньги лучше, – то могу поздравить нас всех с появлением новых бизнесменов, которые прославят нашу родину своими делами. Дорогу молодым! Ждем постов о ваших успехах!

Хотелось бы больше узнать о системе распознавания, а именно. Будет ли она «языконезависимой» или будет в том числе опираться на морфологию каждого языка, как и нынешняя система в FineReader'е? Во втором случае, планируется ли использовать открытый формат или технологию позволяющую добавлять правила морфологии для новых языков самим пользователям? Скажем по примеру hunspell/aspell словарей в браузерах.

Я надеюсь, что предыдущие ответы прояснили эту тему. Если нет, уточните, пожалуйста.

Какой профит государству и гражданам от этой технологии? Мне интересно ее применение в чем-то кроме ваших продуктов.

Немногие знают, что продажа библиотек функций ABBYY FineReader для разработчиков приносит нам больше доходов, чем продажа коробок ABBYY FineReader. Мы также планируем сделать технологию ABBYY Compreno доступной для других разработчиков, чтоб ее можно было включать в другие продукты, требующие качественной обработки текста на естественном языке. Это подстегнёт развитие самых разных российских бизнесов, использующих Compreno для создания программ или оказания услуг. Мы полагаем, что часть этих высокотехнологичных продуктов или услуг будет продаваться за рубеж, что в текущей ситуации преимущественно нефтегазового российского экспорта не может не радовать.

Кроме того, не надо забывать, что создание такой технологии здесь, в России, повышает общий уровень квалификации в данной области в стране. Потому что люди, которые так хорошо понимают в прикладной лингвистике, живут, работают, платят налоги и тратят свои деньги в России, а не в Калифорнии, Мюнхене, Калькутте или Гуаньджоу. Конференции, лекции и семинары, которые проводит ABBYY на тему искусственного интеллекта и прикладной лингвистики, проводятся в России. ABBYY поддерживает образование в этой области в наших вузах, а не в MIT или Пекинском университете. И вообще, шанс получить мировое лидерство в этой локальной области знаний есть именно у России, а не у Америки, Израиля или Индии.

Немедленный ПРОФИТ со всего этого государству и гражданам посчитать сложновато, но вот ПОЛЬЗА очень большая, особенно если смотреть на долгий временной горизонт.

Какие технологии искусственного интеллекта используются в работе?

Для построения языконезависимой семантической структуры используются технологии синтаксического и семантического анализа. Для разрешения омонимии используются технологии классификации и машинного обучения.

Сколько будут стоить ваши новые технологии?

Постараемся сделать так, чтобы от их применения выиграли все. Чтобы переводчики могли больше зарабатывать, повысив производительность труда, чтобы заказчик мог перевести больше, а заплатить меньше. Иначе не получается делать бизнес в современном мире. Ты будешь успешен, только если все твои партнеры и клиенты будут успешны. Наверняка что-то будет доступно бесплатно в интернете.

Можно ли (и будете ли?) использовать технологию Compreno для улучшения качества распознавания текстов? Имеется в виду, поможет ли Compreno принимать решение в спорных случаях при дефектах на распознаваемой картинке? Может ли Compreno работать с неполным набором данных и помогать делать предположения о том, что должно находиться на плохо читаемом месте?

Видимо какие-то элементы технологии Compreno будут использованы в системе распознавания FineReader в будущем.

Как может ваша система помочь мне, простому строителю?

Отличный вопрос! Вы сможете сфотографировать на свой мобильный телефон мешок с сухим китайским клеем или банку с немецкой краской, нажать на кнопку «Перевод», программа распознает и переведёт китайскую и немецкую инструкции на русский язык, что поможет Вам правильно развести клей или смешать краски. Вы сделаете Вашу работу качественно, и она принесет радость тем людям, которые будeт жить в построенном Вами доме. Это мы и называем «помогать людям лучше понимать друг друга». Мы создаем технологии искусственного интеллекта, которые повышают качество жизни. В этом смысле мы с Вами коллеги. Вы также создаете то, что повышает качество жизни.

Продолжение — на следующей неделе.
Часть 2. Грант
Часть 3. Сколково, Linux и остальные вопросы
Автор: @Sergey_a
ABBYY
рейтинг 258,79
Action information

Комментарии (171)

  • +4
    >>программа распознает и переведет китайскую и немецкую инструкции на русский язык, что поможет Вам правильно развести клей или смешать краски.

    То есть система поймет что это именно банка с клеем?
    Просто в свое время я обучался электротехнике на английском языке и некоторые словосочетания в рабочей терминологии переводятся не совсем так как в повседневной
    • +1
      Используя USH, синтаксическое описание языка, а также статистику взаимоотношений между словами, технология Compreno производит полный анализ текста и при переводе его на другой язык использует слова, соответствующие правильным ветвям дерева USH и отношениям, выявленным при разборе исходного предложения.
      • 0
        Задекларированные компанией ABBY цели и результаты не могут быть достигнуты в рамках лингвистических технологий, даже сдобренной математически-статистическими приемами, как это задумано сделать при помощи «Compreno».

        Почему не могут? Потому что, компьютерная лингвистика (в её современном представлении) импотентна в плане реализации функций и процедур человеческого мышления. А без этого нельзя создать «машинное осмысление» естественно-язычных текстов, сгенерированных нашим сознанием.

        Почему надо повторять естество? Потому что языковое сообщение, хоть эпистолярное, хоть вербальное, является продуктом мышления в виде умственных алгоритмов. А это совершенно иная технология, использующая иную методологию и иной инструментарий, чем технологии компьютерной лингвистики.

        В чем отличие? Оно в том, что наше сознание использует во время создания языкового сообщения (ЯС) или восприятия уже готового, некую модель Мироздания (ММ), в рамках которой происходит анализ моделей поведения объектов (МПО), которыми мыслит человек. Именно эти две вещи и позволяют нам и закодировать наши мыслеформы и декодировать их другим индивидуума.

        И что же? Идти следует по пути разработок надлингвистических технологий, например, эвристико-смысловых или эвристико-ассоциативных.
        • 0
          Уважаемый cybershop,

          Никто не пытается превратить компьютер в полноценного человека. Мы хотим сообщить компьютеру часть человеческих методик, которые вполне могут быть формализованы. Все прекрасно понимают, что это весьма приблизительный подход. Однако даже он поможет компьютеру гораздо эффективнее отвечать на запросы людей. Сейчас компьютер действует весьма примитивно. С нашим подходом полезность компьютера для нас с вами возрастет.

          Вы полагаете, что есть другие идеи и способы сделать компьютер еще умнее. Мы не спорим с этим. Мы думаем, что сегодня мы с нашим подходом быстрее достигнем конкретной пользы для людей, чем если мы начнем длинное исследование в эвристико-смысловой или эвристико-ассоциативной области. Но если кто-то считает по-другому, то он волен идти своим путем. Мы только приветствуем любые исследования в этой очень интересной области.
          • 0
            Уважаемый Sergey_a,

            Благодарю Вас за столь информационно-емкий ответ, который теперь позволяет намного лучше понять ситуацию, сложившуюся вокруг технологии Compreno.

            Во-первых, уже не чувствуется прежней уверенности в «потенции» Compreno со стороны её разработчиков. Это о многом говорит. Значит, постепенно приходит верное понимание.

            Во-вторых, ощущается «путь отступления» на случай того, что проект провалится. А в этом не приходится сомневаться. Я даже забросил весь текст Вашего поста в он-лайн «тестер тональности» (http://x-file.su/tm/Default.aspx) и увидел весьма пессимистическую картину.

            В-третьих. Речь не шла о том, что нужно «превратить компьютер в полноценного человека». Говорилось о том, что следует отказаться от тупикового лингвистическо-математического пути решения проблемы машинного перевода и не тратить ресурсы попусту, а направить их в более перспективном направлении развития. Разве могут 1% или даже целых 2% улучшения от ремейка старой и доброй «семантический сети» при её 50% ошибок перевода «дать людям пользу»?

            В-четвертых. Ваша фраза «Мы не спорим с этим» заставляет задуматься о том, а почему, собственно, Вы перестали «спорить». Ведь раньше-то спорили и доказывали…
            • 0
              Ваша точка зрения понятна. Ваши интерпретации моих слов не верны. Ваши оценки лингвистическо-математического подхода к переводу не подкреплены значимой аргументацией. Если у Вас есть средства, которые Вы готовы направить на другие подходы – направляйте. Свои средства мы направляем на то, что мы считаем правильным.
              • 0
                Понятно, благодарю за реплику. Не хотел Вашего раздражения, извините.
                • 0
                  Ну уж и Вы тогда тоже извините. То, что при личной встрече могло бы просто раствориться в улыбке, в публичных письменных коммуникациях иногда приводит к издержкам.
  • 0
    Интереснейшим делом занимаетесь и спасибо за интервью!
  • 0
    Интересная технология, будем ждать ее развития и выхода библиотек.

    Появился вопрос про это дерево — USH. Что, если какое-то слово, листочек, на одном языке имеет несколько аналогов в другом. Скажем, приятель-дружбан-чувак-… и dude-man-buddy-… — по сути один лист. Как система выберет, какое слово по смыслу подходит больше? Будет ли она в разных (каких?) случаях использовать разные слова?
    • +2
      Попробую предположить.

      Словарный состав языка можно членить по-разному. Например, по частотности употребления слова, по слою лексики, к которому оно относится (разговорный, поэтический, etc.). Слово может быть устаревшим, иметь разные коннотативные значения (дополнительные значения; если просто, то это разница между песик — собака — псина) и так далее. Думаю, что установить подобные соответствия будет не так сложно, вся теоретическая база для этого есть. Объем работы, конечно, колоссальный.

      Вот в Вашем примере, скажем, «приятель», «дружбан» и «чувак» не попадут в одну и ту же группу слов. «Приятель» — общеупотребительное, стилистически и коннотативно нейтральное слово, являющееся, кроме того, литературной нормой. Оно будет соответствовать «buddy» и, отчасти, «man». «Дружбан» и «чувак» будут примерно соответствовать «dude». И в переводе, если обобщить и упростить, выбор конечного эквивалента в данном случае не будет играть большой роли.
      • 0
        Согласен, но тем не менее, у Вас и дружбан, и чувак попали в одну группу. По факту, конечно, не существенно, будет ли dude переведено как первое или второе слово, тут просто мое любопытство: какое слово выберет система и почему? Ведь какими-то правилами она должна руководствоваться.
        • 0
          Хороший вопрос. Я бы и сам рад узнать побольше о тонкостях процесса :)
          • –2
            думаю это будет зависеть еще и от контекста предложения и текста, например приятель — в литературном контексте более употребителен, дружбан, чувак — в рахговорном и т.п.
    • 0
      Думаю, у них это разные листья, имеющие связи и с разными другими семантическими ветками.
  • +6
    На мой взгляд, довольно взвешенные дипломатические ответы.

    Интересно, зможет ли такая система сама генерировать тексты?
    • +51
      Это она и генерировала :)
      • +14
        Отвечая сразу на два, три вопроса. В будущем мы планируем научить систему Compreno отвечать сразу на четыре, а то и пять вопросов!
    • +3
      В переводчике есть две основные части: синтаксический и семантический анализатор на входе и генератор на выходе. Задача генератора состоит в том, чтобы из понятий и связей между ними создать текст на выходном языке. Понятно, что сама генерировать тексты система не сможет, но если вы ей предоставите связанную систему понятий в терминах USH, она вам нагенерит все в виде понятного человеку текста на выходном языке.
      • 0
        кроме системы понятий понадобится ещё план изложения
        • 0
          Да, безусловно, понятия и связи должны быть расположены в определенной последовательности.
    • –1
      Ну а что ожидать у человека, выигравшего грант на миллиард)
  • +3
    Ух, это прям технология для разработки умных чат-ботов. Ну а в будущем, технология распознавания и синтеза речи для андроидов. Ну а в совсем далеком будущем, это, как в фантастических книжках пишут, будет коробочка, которая переводит речь на любые инопланетные языки и обратно :)
    • +1
      И спам будет про курсы марсианского английского
  • НЛО прилетело и опубликовало эту надпись здесь
    • –3
      Да какое там… Президент что-то заикался про СПО, но бизнес это пока не коснулось.
    • НЛО прилетело и опубликовало эту надпись здесь
      • +1
        И как же можно поднять «отечественную IT-отрасль» за 45 миллионов рублей?
        Уж если вы об этом заговорили.
        • НЛО прилетело и опубликовало эту надпись здесь
  • +4
    Большое спасибо за ответы на вопросы!
    (даже ответ на свой вопрос получил, хотя и хотелось бы чуть больше подробностей).
    Но всё равно большое спасибо! Здорово, что в России есть такие высокотехнологичные компании, как ваша!
  • +3
    Вдохновляет, черт возьми! ABBYY молодцы!
  • +2
    Ух прям изложили, то что я для своего проекта год назад в т.з. писал, про дерево — USH. Но самое интересное как происходит взаимодействие ветвей — оставили в стороне. А ведь от этого зависит конечная логика работы программы и на сколько она будет понимать текст и отвечать на вопросы типа: «кто сильнее кит или слон». Жду с нетерпением продолжение.
  • +16
    Всё правильно делаете.
    Я рад, что хоть какая-то часть бабла, распиленного в Сколково, пойдет на научно-технические исследования.
  • +2
    Кажется затроллить человека не вышло.
    Спасибо за ответы!
  • –10
    Думаете, у гугла такого нет?
    • +1
      Гугл идет другим путем
    • +2
      насколько я знаю гугл вместо семантического разбора идет путем статистического анализа текстов — т.е. чем больше у него в базе правильно переведенных текстов, тем чтонее будет перевод нового неизвестного текста
      • 0
        Статистическая составляющая есть и в представленной статье. А недавно гугл стал фильтровать страницы «похожие по смыслу», что и наводит меня на мысль, что *как минимум* подходы гугла сближаются с описанным в статье.
        • +4
          Гугл борется со спамом и неуником, а значит с синонимизацией. Грубо говоря, для этого похоже они сделали базу международных и внутриязыковых синонимов типа ключ=слово1(яз1)-слово2(яз1)-слово1(яз2)-слово2(яз2)-слово3(яз2)-… и.т. д. Это позволяет выполнять поиск страниц якобы «похожих по смыслу», а на самом деле просто с максимальной частотностью искомых ключей в контенте и анкорах. Но это вряд ли можно назвать семантическим деревом или смысловым анализом. Гугл находит нечто наиболее похожее на запрос, оставляя окончательный выбор за человеком, т.е. гугл не «не понимает», о чем его спрашивают. Тут же как видимо речь именно о «понимании» запросов. Построение дерева ключей такой базы сулит гораздо более интересные выгоды, т.к. запрос сможет выполнять анализ не только по частотности, но и по смысловой подчиненности.

          Поэтому, пока что, подходы гугла и статьи не сильно-то и сближаются. Это возможно лишь внешнее сходство. Вопрос есть ли у ABBYY такая база ключей, если нет, то гугл потенциально немножко ближе к «смысловому анализатору». С другой стороны такую базу довольно просто напарсить… Так что ждем-с ;-)
          • 0
            Думается, все чуть сложнее.
            Абсолютных синонимов практически не существует. Почти все синонимы контекстуальны. Например, «стадион»-«лужа» (если в Лужниках).
            Тут еще и омонимия (многозначность) слов примешиваются, так что граница между «пониманием» запросов и «похожим по смыслу» очень нечеткая.
            • +2
              Конечно сложнее. И видимо даже не «чуть». Пример утрирован, это же лишь комментарий, а не статья. В расчет релевантности входят и соседние контекстные слова, и возраст домена, ключи и заголовки, PR ссылающихся, объем сайта, траст, данные с тулбаров, статсы AD и аналитикса, социальная компонента, история банов, статистика запросов ищущего, еще тьма данных (где то видел, что всего более 200 параметров).

              Основное различие именно в способе обработке информации. У гугла это частотность, статистика, знаменитая формула PR с которой все начиналось, и т.п. вещи. Т.е. математическое представление знаний. Ведь сейчас невозможно сделать запрос и получить страницы подходящие по смыслу, но на которых нет искомых ключевиков или их синонимов.

              Как я понимаю, семантическое дерево позволит отыскать такие страницы, т.е. выбор будет богаче, но не факт, что точнее. Семантический или «смысловой» анализатор — это просто направление, с интересными, но неясными перспективами. В отличие от математического подхода гугла это скорее база знаний.

              Возможно семантический поиск — это путь в будущее, а возможно — лишь небольшой полезный довесок со своим весовым коэффициентом к существующим способам расчета релевантности. Неизвестно. Нужно исследовать. И первым шагом для таких исследований является семантическое дерево. Лишь тогда можно будет пощупать и измерить степень этой «нечеткости» границы между математическим и DBшным анализом индекса.

              До тех пор любая мысль — это лишь мысль.
              • 0
                Мы же сейчас не о релевантности говорили, формула у Яндекса в Матрикснете аж мегабайтами измеряется, так что 200 параметров — пустяки.
                Теперь по сути.
                Языково-независимое представление понятий, типа USH, построить, конечно, заманчиво. Но до сих пор были серьезные проблемы с полнотой.
                Так что нечто подобное на серьезном уровне пока получалось только для узких предметных областей, например, фармакологии. Там проблем, типа омонимии, существенно меньше, чем в естественном языке.
                В свою очередь, статистический подход, во всяком случае, дает результат (Гугл раньше применял подход en.wikipedia.org/wiki/Translation_memory).
                Кстати, Андреев написал, что статистику они тоже используют.
  • +4
    а про портирование на LInux будут ответы?
    • +7
      будут на следующей неделе
    • 0
      тем более что для Mac уже что-то выпустили
    • +3
      Несправедливо, что уже сколько лет люди не замечают например тот же FineReader Engine for Linux
  • 0
    Не забудьте про задачу «распознавания рерайтов», в дополнение к объявленому Яндексом «распознаванию копива» :)
  • +2
    Всё равно не понятно существует ли Сколково! :)
  • +35
    > Мы живем в России, работаем в России, платим все налоги.

    полюбопытствовал насчет структуры abbyy, но так просто не получилось установить, что к чему (в отличие от Яндекса).

    в любом случае, существование ABBYY Solutions Ltd. (Cyprus) наводит на мысли. вряд ли эта дочерняя (?) компания создана для ведения бизнеса на территории крошечного Кипра. скорее всего, ABBYY Solutions Ltd. (Cyprus) владеет акциями ABBYY Russia. вроде бы обычная практика: оптимизация кое-каких налогов, защита от захвата предприятия.

    написал это и решил продолжить небольшое расследование. если компания верит в Россию, то наверное и патенты у нее зарегены на российскую контору, логично?

    я поискал на uspto.gov и нашел вот это:
    www.uspto.gov/web/patents/patog/week41/OG/html/1359-2/US07813011-20101012.html

    «Assigned to ABBYY Software Ltd, Nicosia (Cyprus)»

    хм. та самая компания, зарегенная на Кипре.

    почему? да потому что только дурак будет держать интеллектуальную собственность в России. а ABBYY — не дураки. но и не патриоты.

    так, хорошо. а кто владеет правами на торговую марку «Compreno»?

    смотрим:
    tess2.uspto.gov/bin/showfield?f=doc&state=4010:dh5nc3.2.1

    (ссылка немного криво вставляется, не смог побороть)

    «Owner (REGISTRANT) ABBYY SOFTWARE Ltd. Liability Limited Company RUSSIAN FED. Stasicratus 29, Office 202; CY-1065 NIKOSIA CYPRUS»

    кипр тоже есть, но есть и упоминание РФ. честно, так и не понял, кто владелец. но кипрская контора — как минимум, совладелец.

    так может быть отбросить пафос первых абзацев и честно сказать: это просто бизнес?

    PS ссылки могут «прогореть». если что — искал на uspto.gov, там формы для поиска как торговых марок, так и патентов.

    PPS компании желаю успехов и не особенно осуждаю. может быть однажды можно будет не бояться регить собственность на российскую контору. вы в бизнесе уже почти четверть века, а страх остается. плохо.
    • +9
      вот. и удивляться тут нечему. к примеру, вексельберг, который у нас заведующий по сколково — налоговый резидент швейцарии. интересно, он тоже говорит, что работает в россии? ведь формально так и есть, а на деле налоги идут в швейцарскую казну.

      по сути дела, все надо менять. почему вечно надо извращаться со стуктурой собственности, почему надо вечно бояться, что ее отнимут в россии? почему корпоративное право до сих пор не развито? почему решают ужесточить валютный контроль, когда и так штрафы за его нарушения огромны и можно лишиться всей выручки?

      abbby, этот монстр софтверной индустрии, где он? это он должен прорубить лед, пролоббировать такие законы, чтобы можно было спокойно и цивилизованно вести бизнес на нашей родине.

      им следовало, если он настоящие патриоты, выйти и сказать: никакое сколково не будет работать, пока собственность не защищена, пока валютный контроль тормозит ведение международного бизнеса.

      но увы.
      • +1
        Про это как раз чётко написано во введении: «Мы занимаемся тем, что нам интересно». Скорей всего, лоббирование законов не входит в их интересы )
        • 0
          мои вопросы и были скорее риторическими :)
      • 0
        > abbby, этот монстр софтверной индустрии, где он? это он должен прорубить лед, пролоббировать такие законы

        Софтверная индустрия — она относительно маленькая. Вот музыко-кино-бизнес, американский в лице RIAA и российский в лице усатого соотечественника с мигалкой, могут продавливать под себя законы. Нефтегазодобывающая область в лице Газпрома может. Автоваз может. Блин, даже чиновники, обеспокоенные съемками получения взяток, продавили закон про запрет скрытых камер. А вот софтиндустрии такого не позволяется. Максимум, что можно — майкрософту и 1с трясти денег с «пиратов». Это в духе всего вышесказанного, это не меняет общество к лучшему и не тревожит власть.
    • 0
      Комментарий на эту тему будет в посте на следующей недле.
      • 0
        спасибо, будет очень интересно!
  • +1
    >>Хотелось бы больше узнать о системе распознавания, а именно. Будет ли она «языконезависимой» или будет в том числе опираться на морфологию каждого языка, как и нынешняя система в FineReader'е? Во втором случае, планируется ли использовать открытый формат или технологию позволяющую добавлять правила морфологии для новых языков самим пользователям? Скажем по примеру hunspell/aspell словарей в браузерах.

    >Я надеюсь, что предыдущие ответы прояснили эту тему. Если нет, уточните, пожалуйста.

    Да, спасибо за ответы, многое стало понятнее. Значит наращивать «листки» для новых языков надо будет.
    Я работаю с малораспространенным, архаичным, чертовски запутанным языком, у которого всего только несколько больших словарей и пара десятков книг в сети. Ни ABBYY, ни кто-либо другой добавлять его поддержку в продукты не будет, поэтому хотел узнать смогу ли я, на добровольной основе, как-то реализовать его поддержку где-либо, пользуясь какими-либо открытыми стандартами (на манер стандарта для словарей Lingvo), и вообще что эта технология может дать для таких языков.
    • 0
      >>Я работаю с малораспространенным, архаичным, чертовски запутанным языком, у которого всего только несколько больших словарей и пара десятков книг в сети.

      MagaSoft, о каком языке речь, если не секрет?
      • 0
        В моем случае речь идет о чеченском, если не вдаваться в детали. Но в аналогичной ситуации еще много языков, поэтому думаю вопрос будет интересен не только мне.
  • +3
    > Древесная структура

    Скорее все-таки древовидная, древесная это когда из дерева сколочена :)
    • 0
      Сколоченная из дерева — это деревянная :)
      • +2
        Деревянное — это сделанное из древесины, а древесная — сделанное из деревьев. Парадокс.
        • 0
          скорее не парадокс, а тонкости языка
  • +2
    Ребята из ABBYY это не вы должны оправдыватся, это Медведев должен оправдыватся, объяснять причины и плюсы, и взять на себя ответственность за риски, ведь он деньги вкладывает, а не вы в кредит берёте, вы никому ничего не должны
    • +2
      Оправдываться опредленно нет, а вот прояснить ситуацию — почему бы нет. Появился пост на Хабре — стало гораздо понятнее. Не думаю чтобы Медведев мог объяснить конкретно по проект Abbyy…
  • +1
    Из лицензионного соглашения на ABBYY FineReader 10 Home Edition:
    2.4 Срок предоставляемой Вам Лицензии может быть ограничен.
    Ограничения срока Лицензии указываются при заказе ПО. Срок
    окончания действия Лицензии записан в лицензионном ключе.
    Лицензионный ключ технически ограничивает использование ПО
    после окончания срока действия Лицензии.
    И сколько составляет срок, кто в курсе?
  • +10
    Немедленный ПРОФИТ со всего этого государству и гражданам посчитать сложновато, но вот ПОЛЬЗА очень большая, особенно если смотреть на долгий временной горизонт.

    Я правильно понял, что на наши народные деньги фирма разрабатывает офигенную технологию, которую нам же потом и будет продавать? Вам ПРОФИТ, а нам долгий временной горизонт?
  • –6
    Браво вашему пиарщику. Ответили чисто кратко и красиво, но… но все равно оправдаться невозможно.

    Во первых, тут любому понятно, что условия для бизнеса гораздо лучше в Калифорнии или там Мюнхене, хотя бы просто по тому, что там к вам просто так завтра не приедет макси-шоу и попросит долю.

    Во-вторых, если Ваша продукция такая вот прорывная до не возможности, то почему инвестором в ваш проект внезапно выступила РФ (которая вообще ни сном, ни духом не должна участвовать в бизнесе. Это не ее область ответственности описанная чуть ли не на уровне конституции), а не зарубежные инвесторы, которые хотели бы заработать денег и поэтому вложились бы? Смею предположить, что инвесторы понимают, что денег там нет и что «инновационная» и «прорывная» технология, которая строится уже больше 10 лет это полное, извиняюсь за выражение, фуфло.

    В-третьих, вы должны понять, что Вы по факту взяли деньги из кармана каждого гражданина РФ, когда сам гражданин не давал Вам этого права. Будь вы хоть трижды Биллами Гейтсами, права вам этого не давали. Вот если бы люди собрались и дали вам их, то тут никто и спорить не стал, а так… так вы сами знаете, как это называется — воровство.
    • +5
      По поводу «во-вторых» — мое мнение:

      У ABBYY — успешной и еще не «убитой» хай-тек фирмы в России — есть некоторый светлый имидж в глазах определенной группы населения.
      Власть хочет в предверии выборов к этому имиджу примазаться. Денег у них много (мы по числу долларовых миллиардеров уже на 1м месте в мире!), так что 15млн$ для этого — бросовая сумма.
      Т.е. сделка ясная: «вы нам свой имидж и возможность рассказывать, как мы поднимаем инновации, мы вам деньги». Видимо стороны решили, что сделка равноценная (а, может, ABBYY еще и «намекнули»)

      По-поводу «в третьих» — имхо, Вы совсем не правы. Никакого воровства со стороны ABBYY здесь нет. Зачем кидаться такими обвинениями?
      Помощь в выборах едру, поддержка их имиджем — да. А воровства я здесь никакого не вижу (со стороны ABBYY, конечно).
      • –4
        Если воровства нет, то почему на Кипре-то зарегистрировались? :) Вот когда они отчитаются за каждый потраченный доллар из этой суммы я смогу заявить, что воровства нет, а так х*ва туча денег улетело в неведомом для нас направлении в сторону Кипра под улюлюкания что-то там про «Compreno», про которое ничего не было слышно не до и, видимо, не будет слышно и после.

        P.S. т.е. вы считаете что ЕР должна поднимать свой рейтинг за счет Ваших налогов (из вашего кармана. Пусть ваш ребенок типа ходит в заср*ный садик по разбитым дорогам, за то все в ЕР будут «на белом коне и в белом пальто»?), а не за счет своей политики и взвешенных решений?
        • +9
          Я не могу понять, Вы действительно не понимаете, почему они зарегистрировались на Кипре??! А Вы в курсе, вообще-то, что 90% российской промышленности принадлежит оффшорным компаниям? И что это единственная схема владения, которая хоть как-то защищает от постоянного ежедневного произвола, рейдерства, и «интереса» со стороны самых разнообразных крокодильих структур, населяющих нашу лагуну?

          И Вы действительно смогли понять из моего сообщения, что я каким-то образом поддерживаю ЕР?!!!
          • 0
            Я вот сплю и вижу как Abbyy оправдывается:
            «Мы национальный проект. Мы резиденты Сколково. Нам покровительствует сам Премьер и его подданный Президент. Но да — мы зарегистрировались на Кипре т.к. нас могут ограбить рейдеры из деревни Кукуево.»
            и, оглянувшись на толпу вокруг, так совсем тихо потом:
            «У нас честные глаза — поверьте нам пожалуйста.»
            • +5
              Ну, если на Кипре и других оффшорах зарегистрированы права собственности почти на все ЗАВОДЫ и ФАБРИКИ в России, то, наверное, критиковать ABBYY по этому поводу не стоит.

              Это было интересно (я, например, не знал все-таки где они зарегистрированны раньше), познавательно, еще один повод вспомнить в чью экономику вливает деньги ЕдРо, но как повод для критики я бы его не стал рассматривать.

              Обычный здравый смысл, основанный на безопасности.
              • –3
                Послушайте, если национальный проект специально вывозят на Кипр, чтобы «некто» из правительства(мвд, фсб, итд) его у самого правительства не украл, то не кажется вам, что это комично? Прямо рассказ из Кафки.

                Если они боятся, что национальный проект украдут, то смысла делать вообще какой-либо бизнес нет — т.к. его все-равно украдут. Тут надо разбираться в своей стезе: управлении, законодательстве, коррупциях и т.д., но работать конечно же там никто не намерен и поэтому надо срочно «инвестировать миллиарды в инновации».
              • +5
                Если у ИТ-компании, у которой штаб квартира, все управление и вся разработка находятся в России, возникнут проблемы в своей стране, то никакие юрлица в других странах ее не спасут.
                • +5
                  Ну, Домодедово, к примеру, уже несколько раз пытались отбирать — пока безуспешно. Конечно, зависит от силы «наезда». Понятно, что ЮКОС, к примеру, ничего не спасло.
                  В любом случае, часть капиталов можно держать в офшорах — их трудно выцарапывать будет. Тем более, что сейчас строят цепочки до 10 оффшоров, только так (A владеет Б владеет В владеет Г...)

                  Для ИТ-компании вообще просто переехать. «Разработка» — понятие растяжимое.

                  Впрочем, может я чего-то и не понимаю. Но тогда расскажите, зачем Кипр?
                  • 0
                    В следующем посте (на следующей неделе) будет ответ.
          • –1
            про ЕР прошу прощения, если дал понять, что я считаю что вы поддерживаете ЕР. Я просто так обставил ситуацию, а о ваших политических взглядах я не осведомлен.
          • –2
            беда в том, что нету смысла делать сколково, если нету фундамента в виду защиты собственности. это как строить небоскреб на ненадежном фундаменте — будет простой перевод средств.

            очевидно, abbyy это понимает, но от денег не отказывается. их можно понять: кто ж откажется от денег, это бизнес. вот только коробит от «патриотизма».
        • НЛО прилетело и опубликовало эту надпись здесь
        • 0
          Будут ответы и на эти вопросы — подождите еще немного. А то Вы и вопросы задаете, и сами на них отвечаете.
          • 0
            Да нет, я указал, что это «мое мнение».
            Конечно, ждем ваших ответов!
      • НЛО прилетело и опубликовало эту надпись здесь
        • +1
          ну вопить начнут в любом случае, как я заметил обычно процентов 10-20 людей пытаются разобраться, а что же все-таки происходит на самом деле, остальные пополам либо говорят что все хорошо, и мы почти в раю, либо что все плохо, все украли, и смысла что-то делать нет
          • НЛО прилетело и опубликовало эту надпись здесь
      • +2
        Если не сложно. Кто-нибудь из тех, кто минусует это сообщение — не могли бы вы, пожалуйста, вкратце объяснить в чем причина? Можно в личку.
        Я совершенно не против, пожалуйста минусуйте.

        Просто не могу подобрать ни одной причины, если честно, а мне любопытно.
        • –1
          это свойство Хабра такое — минусовать все подряд :) Если бы вы знали на сколько моя карма просела за эти 5-6 комментариев, то вы бы так сильно не переживали :)
    • +8
      > Браво вашему пиарщику

      Автор поста молод и занимает крупный пост в IT-фирме, думаете у него ума не хватит написать такую статью самостоятельно?

      > «инновационная» и «прорывная» технология, которая строится уже больше 10 лет это полное, извиняюсь за выражение, фуфло

      Вы в курсе сколько уже времени над ИИ работают? По вашей логике — это фуфло еще то. В посте очень подробно описано над чем идет работа и думаю многие согласятся что тут без фундаментальной научной базы ловить просто нечего. Иначе даже до прототипа можно не дойти и за 30 лет. Вам просто тяжело поверить что кто-то у нас вкладывает средства и время в научную работу, мне кстати тоже, но этот пост вселяет надежду

      > вы должны понять, что Вы по факту взяли деньги из кармана каждого гражданина РФ

      Медвепут ежегодно по примерным оценкам берет $350 млрд, что выходит по 50 тыс. рублей с каждого гражданина в год. Вас это не волнует? Причем берутся они на яхты и виллы и никто не планирует их вкладывать хоть куда-либо кроме своего кармана.

      Мне пост понравился и приятно видеть что директор открыто отвечает на вопросы, а не прикрывается пресс-секретарями. Названые сроки незначительны, через три года будет ясно: распил или не распил
      • –2
        > фундаментальной научной базы ловить просто нечего

        Я тут видимо, что-то пропустил, если в России вдруг возникла непререкаемая научная база обогнавшая всю планету, что заставляет, вселяющих надежду, инвесторов и бизнесменов-визионеров со всего света со скоростью света лететь в Сколково и просить его Премьерское Величество рыцарского звания «резидента Сколково»? Are you seriously?

        P.S. Раньше такая база была, согласен. Образование в СССР было очень хорошим, но где СССР и где РФ? Сколько лет нас разделяет?

        >Медвепут ежегодно по примерным оценкам берет $350 млрд, что выходит по 50 тыс. рублей с каждого гражданина в год. Вас это не волнует?

        Волнует — вот я тут и пишу сижу.

        • 0
          > в России вдруг возникла непререкаемая научная база обогнавшая всю планету
          Вы передёргиваете. arkady говорил, что нужная какая-то база, а вовсе не то, что Россия прям уже в лидерах.
        • +2
          Спасибо kirilloid за уточнение, все верно я не утверждал что Россия впереди планеты всей, я говорил о конкретном проекте и что для него требуется. И я рад что кто-то вкладывает в такие проекты усилия, ведь они могут никогда и не окупится. Сумма инвестиций по сравнению с той, которая оседает в карманах чиновников — смешная. В том посте, где обсуждалось что Аби через дочернюю фирму берет в Сколково деньги — я занимал вашу точку зрения, которую я изменил после этого поста. Потому что увидел открытость компании и довольно конкретные сроки, а не «это прототип из пластмассы». Не вижу пока причин не верить. Нельзя же во всем видеть коррупцию. И какой смысл для Аби открывать блог тут и давать беспочвенные обещания? Если цель распил — то логичнее как можно отмалчиваться, чтоб быстрее забылось
          • НЛО прилетело и опубликовало эту надпись здесь
            • +8
              Проект очень сложный, никто ничего подобного не делал. Мы действительно еще в 2000 году рассчитывали его закончить в скором времени. Мы основывались на тогдашнем понимании объема работ. Но дальнейшие исследования привели к пониманию, что такие сроки выдержаны быть не могут, и были назначены новые примерные сроки, исходя уже из нового понимания объема. Какие-то сроки нужно было держать в голове, да и вообще — трудно работать, понимая, что впереди еще 15 лет кропотливого труда без конечного результата. Мы же все люди. Очень многие из тех, кто сейчас работают над проектом, начинали еще тогда. С тех пор добавилось много новых людей, но первые практически все остались.

              Сейчас, в отличие от того времени, уже есть работающая бета-версия технологии. Оно есть и оно переводит. И уже работает очень хорошо. Мы уже активно используем ее внутри для собственных целей. Правда, есть еще что делать, но этот объем работ уже намного легче предсказать. Поэтому Сергей и написал, что технологические риски наконец пройдены. Поэтому называя текущие сроки, мы уже достаточно хорошо понимаем их реальность. Более того, мы в любой момент готовы что-то выпустить. Просто не в правилах нашей компании выпускать «что-то», да и не хочется, результат 15 лет труда выглядел куцым из-за мелких недоделок, на которые требуется потратить еще немного времени. К тому же надо развивать саму технологию, чтобы покрыть другие интересные области, кроме собственно перевода. Их Сергей тоже перечислил.
              • +1
                А вот бету надо бы показать, а то у многих спецов есть сомнения.
                Поясню.
                Вы и Сергей говорите, что акционеры видят продвижение и вкладывают свои деньги.
                Но теперь ситуация полностью изменилась. Акционерами стали все наши налогоплательщики, и, следовательно, все общество.
                По этой причине Вы обязаны публично:
                1. Продемонстрировать вашу бету. Или дать подробный отчет о тестах.
                2. Выкатить разумный план-график со сроками, майл-стоунами и т.д.
                3. Выпускать отчеты о потраченных средствах.
                Вот тогда и пыл критиков поубавится.
                • +3
                  Кто сказал, что налогоплательщики стали акционерами? Никто никем не стал, просто фирма получила подарок от государства в преддверии выборов.
                  По вашей логике общество владеет уже всеми заводами, нефтяными скважинами, банками и т.п. (т.к. государство периодически вбухивает туда деньги). Пойдите, потребуйте лучше у них «разумный план-график со сроками, майл-стоунами и т.д.» А мы посмотрим.

                  Нельзя же уж так совсем огульно набрасываться на фирму, которая очевидно делает шаги навстречу. Зачем?
                  Это похоже на посетителя, который срывает свое раздражение на официантке (которая на работе и поэтому не может возразить).

                  Да и деятельность ABBYY в данной ситуации почти благотворительная. Кто будет вам же давать работу, если последние IT фирмы уйдут из России? Думаете, им так легко тут работается?

                  Есть действительно вопросы вокруг этой сделки, мы их задали, ждем ответов. Но давайте, все-таки, соблюдать пропорции. Вот этот «требовательный» тон, каким Вы пишете, меня, например, коробит.
                  • 0
                    Ну что Вы говорите…
                    Вы, возможно, с системой грантов не сталкивались.
                    Любой грант требует отчетности, и именно такой, какую я назвал.
                    И любая фирма, получившая грант должна по нему отчитываться. Другое дело, что эти отчеты часто недоступны общественности.
                    Но раз Аби такая открытая, то естественно получить доступ к этим документам.
                    • 0
                      Если вы так много знаете, то наверное в курсе, почему такие данные не становятся публичными.
                    • 0
                      Информация по отчетности будет в посте на следующей неделе.
                      Не уверена, что сама отчетность публична — но это уж к Сколково.
                      • 0
                        Судя по замашкам Сколковского менеджмента — они вполне могут на своем сайте опубликовтаь. Стас Наумов очень верит в открытость и интернет :-)
              • 0
                > мелких недоделок, на которые требуется потратить еще немного времени

                Теперь хоть понятно, на что нужны эти сотни миллионов.
                • +3
                  Слово «недоделки» не совсем точно отражает объем работы. Просто на фоне 15 лет труда эти работы выглядят «недоделками».

                  Кроме того, надо развивать технологию дальше. Ведь совершенно понятно, что по нашим следам сделать то же самое будет уже значительно проще. В отличие от нас у наших конкурентов будет полная уверенность, что результата достигнуть можно, поэтому и инвестиции для них будут значительно менее рисковыми, чем они были для наших акционеров. Много вы знаете людей, которые будут вкладывать свои деньги 15 лет, веря, что в результате что-то получится? А вот людей, которые вложаться в то, чтобы сделать то же самое, что уже сделали другие, будет уже значительно больше. Поэтому, если мы замедлим темп развития, в какой-то момент у нас уже не будет никакой уникальной технологии. Запас прочности у нас есть, но недооценивать возможности конкурентов мы не можем.
                  • НЛО прилетело и опубликовало эту надпись здесь
                    • 0
                      1. Спасибо. Я быстро печатаю, иногда ошибаюсь. Обычно об опечатках пишут в личку.

                      2. Про условия предоставления гранда и особенности нашей дальнейшей жизни Сергей напишет. Подождите немного.
                      • НЛО прилетело и опубликовало эту надпись здесь
                        • 0
                          1. Спасибо. Я быстро печатаю, иногда ошибаюсь. Обычно об опечатках пишут в личку.
                          • НЛО прилетело и опубликовало эту надпись здесь
                            • –2
                              Мое уважение к читателям состоит в том, что я печатаю содержательно то, что им, как мне кажется, интересно читать, и не повторяю по сто раз одно и то же. Подтверждением является хотя бы то, что за мной не числится ни одного заминусованного комментария. Кроме того, я пытаюсь иногда писать содержательные статьи, в которых рассказываю интересные вещи, а не обвиняю без разбора людей в том, чего они не делали.

                              Чего и Вам желаю.
                              • НЛО прилетело и опубликовало эту надпись здесь
                  • 0
                    > Слово «недоделки» не совсем точно отражает объем работы. Просто на фоне 15 лет труда эти работы выглядят «недоделками».

                    Перефразирую. Я даже боюсь представить, сколько же денег вы вложили за эти 15 лет, если «недоделки» стоят сотни миллионов. Жалко не удается найти на сайте компании финансовых отчетов, чтобы восхититься.

                    > Кроме того, надо развивать технологию дальше.

                    Я слышал бывают такие случаи, когда компании вкладывают в развитие полученную прибыль.

                    > Много вы знаете людей, которые будут вкладывать свои деньги 15 лет, веря, что в результате что-то получится?

                    99% коммерческих компаний вкладывают свои или заемные средства и мне кажется, что делают они это с верой, «что в результате что-то получится». А вот компаний, которые этим занимаются 15 лет без видимых результатов я на самом деле не знаю. Сколько не пытаюсь всмотреться в ретроспективу ИТ-индустрии — ничего похожего не нахожу. Даже на ее заре инновационные проекты укладывались в 7-11 лет экономических циклов Жюгляра (в инновационном менеджменте их иногда называют торгово-промышленными циклами).

                    > Поэтому, если мы замедлим темп развития, в какой-то момент у нас уже не будет никакой уникальной технологии.

                    Т.е. чтобы побеждать в конкурентной борьбе вам даже недостаточно стартового преимущества, нужен еще леверидж за чужой счет?
                    • НЛО прилетело и опубликовало эту надпись здесь
    • НЛО прилетело и опубликовало эту надпись здесь
  • –8
    Звучит очень похоже на Google Translate — они ведь тоже подбирают переводы по схожести использования из разных источников…

    А аргументы, что эта технология вкладывается в будущее народа, хотя это будущее является частной собственностью определенных людей звучит как-то странно…

    Ответы составлены хорошо и граммотно, вот только не для той аудитории — хабра-айтишники маркетинг плохо кушают…

    Просто я вот внимательно прочитал все, и так и не понял, почему тот же гугл Google инвестирует свои деньги в open-source проекты (см. Google Summer of Code), доступные всем людям, а государство инвестирует общие деньги в частную собственность определенных владельцев, результаты работы которых будут доступны только определенному кругу людей, заплативших определенную сумму…

    … может в этом таки есть какая-то высокая цель.
  • 0
    Универсальная онтология всего.

    Осознание потенциальных возможностей и применений вызывает эмоции и ощущения, что-то среднее между предвкушением, эйфорией и оргазмом, с трудом ложащиеся на общепринятую систему понятий (да-да, и на ту онтологию тоже), и, следовательно, на общепринятые нормы языка. Именно такие ощущения в русском языке обычно выражаются каким-нибудь коротким нецензурным выражением — не несущим смысла, но адекватно отражающим экстремальность эмоции (будь она положительной или отрицательной). Но я сдержусь. Хорошо-то как, Маша...

    Если у этой штуки будет версия с полным спектром функционала, но каким-то ещё образом урезанная по отношению к платной (или, например, с возможностью переложения оплаты за использование на конечного пользователя), и при этом доступная для опенсорсщиков (или, для начала, хотя бы как веб-сервис) — это будет такой нехилой заявкой на начало технологической сингулярности.
    • –2
      Вы этот текст с помощью корчевателя сгенерировали? Тоже вполне себе успешная лингвистическая технология, кстати.
      • +2
        Не думал, что для среднестатистического посетителя хабрахабра понятия онтология и технологическая сингулярность (а других причин считать этот текст машинно сгенерированным вроде бы и нет) могут быть непонятными. Да, хабр уже не торт.

        Ладно, попробую второй раз, на простом русском:

        Универсальный язык для описания всех возможных понятий.

        Эмоции зашкаливают, так что хочется выругаться, но неприлично.

        Если вы дадите возможность опенсорсщикам это поюзать — будет прорыв похлеще появления Интернета.
        • 0
          Ну и зачем было писать почти 1000 символов текста, смысл которого без каких-бы то ни было потерь можно сформулировать в 200 символах? Ладно бы от этих букв какая-то польза была, так ведь просто поток эмоций и словоблудие без какой-то идеи. Тут может быть только одна разгадка — это испытание конкурирующей лингвистической технологии, которая весь этот поток букв и сгенерировала.
          • 0
            Какой длинный тяжело читаемый коммент! Можно же было написать просто:

            Много букав!

            </irony>
  • –7
    Наши руководители и акционеры не ездят на роскошных автомобилях, не покупают яхт, вертолетов и дворцов, у нас нет дач на Рублевке. Нам интересно делать новые удивительные продукты, а не ходить по магазинам.

    Бла бла бла, и соответственно не верю ни единому слову в этой простыне.
    • 0
      Но новые продукты делать действительно интересно… Даже если обитатели Китая в это не верят ;)
      • 0
        а еще интереснее делать то, что никто еще не делал, и понимаь что этим ты меняеь мир)
  • +1
    спасибо за статью,
    на сколько я разбираюсь в этой теме, основные идеи этой технологии были сформулированны лет так 20-30 назад (где-то в начале 80х). Еще в студенческой аудитории я был увлечен идеями ИИ, но жизнь перевела на иную колею. Конечно понятно, что с БЭСМ-6 и ЕС-1033 их реализовать было невозможно, но все же интересует: теоретические сдвиги есть?
    • 0
      Есть сдвиги. Вообще прикладная лингвистика — одна из наиболее динамично развивающихся областей науки. Если тема действительно интересует, советую Вам посмотреть материалы конференций Диалог: www.dialog-21.ru. Сотрудники ABBYY там регулярно делают доклады.
      • 0
        Так принципиальных сдвигов на конференции Диалог Аби не демонстрировала ни разу.
        Может, я ошибаюсь, приведите, пожалуйста, более конкретные ссылки на доклады, а то объем публикаций на Диалоге слишком велик, обнаружить не получилось.
        • 0
          А я и не говорил, что мы на конференции делали какие-то оглушительные доклады. Спросили — есть ли свдиги в этой области. Я сказал — есть. Одно из свидетельств тому — активно живущая конференция, множество докладов и т.д. Вы же сами подтвердили, что объем докладов очень большой. Сдвиги мы демонстрируем тем, кому это интересно с точки зрения применения таких технологий. Как Сергей уже упомянул, сейчас уже ведется несколько проектов.
          • 0
            Т.е. даже на этой специализированной конференции вы ничего серьезного не демонстрировали. Есть ли надежда, что в этом году что-то здесь сдвинется?
            • +1
              Для того, чтобы продемонстрировать широкой публике, продукт должен дозреть до определенного уровня. Иначе эта демонстрация превратится в фарс. Только специалисту понятно, как оценивать те или иные недостатки работы системы. Иди потом объясняй, что причиной какого-нибудь смешного перевода, который облетит весь интернет, является простая бага, которая лечится за 5 минут.
              • 0
                Сомневаюсь, что вы так уж боитесь публичной беты, к которой, как уже повелось, претензий никто не предъявляет.
                Ну ладно, допустим, по каким-то соображениям продукт выкатывать рано (скорее всего, даже альфы нет).
                Тогда опубликуйте технологические тесты, подробно, с пояснениями.
                Поймите, абсолютное большинство специалистов хочет, чтобы у вас получилось, ведь это — настоящий прорыв.
                Но никто не хочет быть ослом с привязанной перед носом морковкой.
                • +4
                  Слушайте, ну допустим я вам вру откровенно. Но подумайте — в штаб-квартире нашей компании работает более 600 человек. Многие из них на Хабре. Вы что, думаете, все они трусливые идиоты и будут молча смотреть на то, как я вам лапшу на уши вешаю? Нельзя же настолько не доверять людям! Система находится в состоянии внутреннего бета-тестирования и доступна всем сотрудникам компании.
                  • +1
                    Давайте опустим эмоции.
                    То, что вы пошли навстречу сообществу, и сняли часть покровов с суперсекретного проекта, просто здорово.
                    Так подумайте, может стоит пойти дальше и разрешить публикацию реальных результатов тестов или допуска к бете.
                    Иначе сомнения в реальности планов и даже достижимости целей при неизменности принципов проекта останутся.
                    • +2
                      Я вижу как минимум одну проблему с тестами — каждый сомневающийся (и вы тоже :) ) сразу заявит — «вы специально тесты подобрали, чтобы выглядели лучше других, я не верю вам».

                      Как вы предлагаете от этого защищаться?
                      Снова ввязываться в долгие дискуссии из серии:

                      1 — Я знаю, вы врете и пилите деньги налогоплательщиков и мои тоже!
                      2 — Нет мы не пилим и не врем, но доступ дать не можем
                      1 — Почему не можете? Наверное все же врете и пилите.
                      2 — …

                      Что это даст кроме бесполезной растраты букв?
                      • 0
                        И про распил давайте не будем, несерьезно.
                        Да, тесты можно подобрать.
                        Но это лучше, чем ничего, будет что обсуждать, хотя бы принципиальные моменты.
                        А так «старушки на скамейке» всегда будут готовы грязью обливать чужие успехи, ну и пусть их. Неужто Аби таких боится?
                        • 0
                          Как частное лицо, я считаю что показать несколько примеров перевода — можно. Но я также убежден, что небольшой объем примеров не даст ровным счетом ничего — слишком маленькая выборка чтобы можно было бы качественно сравнивать с другими подходами. Зато легко ввести в заблуждение используя «подтасовки» фактов…

                          В любом случае этот «вопрос» скорей всего прочитают люди, принимающие решения, и только от их мнения будет зависеть — опубликуют примеры перевода или нет.

                          От «рефлексирования» в комментариях ничего зависеть не будет, это факт.

                          Хотите пощупать сами — job (a) abbyy.com вам в помощь ;)

                          PS: про распил — вы сами начали, почитайте ваши комментарии ;)
                          • 0
                            Естественно, вам решать, кому же еще.
                            Р.S. ссылку про распил в моем комментарии, пожалуйста. По-моему, Вы меня с кем-то спутали.
                            • НЛО прилетело и опубликовало эту надпись здесь
                              • 0
                                Это понятно, погорячился человек при защите мундира, бывает.
                  • –1
                    Арам, люди просто не верят. Так бывает. Правда думающие люди не верят тем, кто их уже обманывал, но часто встречаются те, кто не верит уже никому.
                    У Сета Година буквально вчера была заметка на похожую тему — Assuming goodwill, вот слон.ру кстати перевел ее.

                    Вот если говорить в похожих понятиях — критики сейчас представляют себя PayPal (налогоплательщики), а компания в их глазах — бандиты пытающиеся их ограбить.

                    PS: Кстати, забавный факт — если поделить всю сумму на примерное население России (~120 млн. чел.), то от каждого человека взяли ~4 рубля.

                    Но зато каждый «я-налогоплательщик» старается выступать от лица всего населения России и переживать за налоги сразу всех людей. Никто не сказал — «я вам не верю — верните мои личные 4 рубля обратно в казну РФ, пусть их потратят на другую деятельность».
                    Но никто из них не спрашивает себя — а хотят ли те, другие, чтобы их налоги вернули и направили на финансирование «более полезного» дело…
                    • НЛО прилетело и опубликовало эту надпись здесь
                      • –1
                        Вы даже не представляете как мне, как частному лицу, индиффирентно ваше персональное мнение о моем комментарии.
                        Плохой комментарий или хороший — у нас в России свобода слова, и я не являюсь официальным лицом компании и высказываю исключительно свое частное мнение в меру своего понимания ситуации.

                        Как и вы — высказываете исключительно свое мнение (хотя и пытаетесь претендовать на лавры защитника обездоленных россиян, живя в Чехии, просто истинный патриот России)

                        Если мой комментарий посчитают неприемлемым для компании — мне об этом сообщат. Но это будете уж точно не вы.

                        Так что извините, но «поучайте лучше своих паучат», я же в бесполезную полемику с вами вступать не намерен.

                        Спасибо за внимание.
                        • НЛО прилетело и опубликовало эту надпись здесь
                          • +2
                            Докажите, что вы их платите в полном объеме? Я вот считаю что вы в деревеньке под Прагой укрываетесь от налогов и скрываете наворованные в Москве деньги. Убедите меня в обратном…
                            • НЛО прилетело и опубликовало эту надпись здесь
                              • –2
                                Ну на личности перешли вы, когда начали поучать всех, чьи комментарии хорошие, а чьи плохие. Так что тут вы правы — автослив. Даже я бы сказал — самослив. Думаю у вас он уже не первый, но он такой по-детски наивный, поставьте его в рамочку, пожалуйста, хотя бы из уважения ко мне ;).

                                В полемику я действительно не вступаю, предыдущий комментарий был провокационным экспериментом — хотел посмотреть, увидите ли вы свой собственный способ аргументации в чужих комментариях. Совсем не увидели, среагировали и даже ответили очередной личной иллюзией об окружающем мире — полемика, голоса в голове, записывание во враги (честь записываться в чьи-то враги надо бы еще заслужить). Откуда вы берете такие делириумные фантазии?

                                И вот теперь не знаю, плакать или смеяться, потому как с голосами в голове тут разговариваете похоже только вы. С одной стороны — смешно все же, с другой — жалко вас. Хотя в общем стоит пожелать вам «приятных диалогов в одиночестве» ;).
                                • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        спасибо за ссылку — посмотрю обязательно
  • 0
    Вспомнилось интервью Андреева e-xecutive: «Вместе с тем, существует целый ряд грандиозных и красивых государственных задач, которые было бы интересно решить именно силами IT. Но их надо правильно подать, создать вокруг этого антураж.»
    • НЛО прилетело и опубликовало эту надпись здесь
      • –2
        1) tsya.ru/

        2) Вашу бы энергию, да в конструктивное русло.
        • +1
          Извините, про tsya.ru — это я погорячился :)
        • НЛО прилетело и опубликовало эту надпись здесь
          • +2
            Вашу точку зрения я понял. Спасибо. «Совсем не так» — это не конструктивная позиция. Пока я вижу с Вашей стороны исключительно критику, довольно огульную и без конкретного разбирательства. Наша задача — создать уникальную технологию, равной которой нет в мире. У нас нет и не было задачи получить от кого-то какие-то деньги. Давайте Вы будете сравнивать свои задачи с этой задачей, а не с вымышленной Вами задачей, которую Вы перед нами упорно ставите и в попытках решать которую Вы нас обвиняете.
            • НЛО прилетело и опубликовало эту надпись здесь
              • 0
                Вы пропустили не раздражение, а смысл.

                Мы ни во что не вляпались. Эти деньги пойдут в дело. От них будет много пользы. Если Вы этого не понимаете, то я вам искренне сочувстствую. Судя по количеству плюсов на статью, множество людей думают иначе, чем Вы. И это очень хорошо.

                Возможно, Вам все же следует дождаться следующей части ответов.
                • НЛО прилетело и опубликовало эту надпись здесь
                • НЛО прилетело и опубликовало эту надпись здесь
                  • 0
                    Ну почему же, это вполне реальный человек, один из сотрудников нашей компании, разработчик. У него довольно широкий круг общения, насколько я знаю, его в профессиональной тусовке многие знают. Парень замечательный.

                    Ну Вы поймите — со своей довольно агрессивной позицией по отношению к ABBYY Вы не очень у нас популярны.
                    • НЛО прилетело и опубликовало эту надпись здесь
                      • 0
                        Без кавычек. Просто замечательный парень. Да, это очень хорошо.
                        • НЛО прилетело и опубликовало эту надпись здесь
                          • 0
                            Поставьте, даже мне любопытно как вы подберете «соответствия»
                      • 0
                        Ух ты, я — анонимный цепной хомячок. Какая честь.

                        Я вам даже фамилию подскажу — Щербак. Алексей Щербак. Обращайтесь
  • 0
    Интересно сколько недель потребуется для прояснения всех вопросов?
  • НЛО прилетело и опубликовало эту надпись здесь
  • +4
    Хорошо излагают… Только одного, боюсь, никогда не узнаю. Почему нужен именно грант. Под такой проект, да такая компания могла бы спокойно получить кредит. А гранты лучше использовать для перспективных стартапов, которым сложно опереться на чье-то финансовое плечо, особенно учитывая наше недоразвитое венчурное финансирование.
  • 0
    Кто-то только делает, а кто-то уже сделал и ждал этого гранта для наработки базы, которую без него составлять ещё лет двадцать своими силами. А уж такая компания могла бы и сама проектом заниматься со своими ресурсами не отнимая их у тех кому они реально нужны.

    У меня отчасти близкий проект, правда часть ваших проблем уже решена ) Подход на основе единого языка сущностей это отлично, но лет через 5 когда будет большая база до вас дойдет что в нем кое-чего не хватает, на что я напоролся в свое время.
    • 0
      А можно подробнее, большая база чего у нас будет лет через пять?
      • 0
        Я про дерево сущностей в системе, для простейших тестов и экспериментов оно катит, а вот для практического использования с большими объемами информации и сложным контекстом не дотягивает. Хотя у меня несколько иная задача, может вам и не потребуется такой функционал, так что не факт что наши решения будут идентичны.

        Жаль ваш проект ещё не завершен и тем более не был завершен лет 5 назад, не пришлось бы делать тоже самое, а занялся бы основной задачей, потому что разбор текста у меня это только обработка входной информации (
        • 0
          То, что Вы пишете, интересно. Напишите мне в личку, я думаю, нам в любом случае имеет смысл встретиться и познакомиться.
  • 0
    А ведь база смысла слов (т.е. понятий) и их отношений, по большому счёту, для того чтобы применяться повсеместно, вынуждена будет содержать знания людей о мире. Все вербализуемые знания! Ибо чтобы употребить какое либо слово в контексте другого слова — нужно помнить, что это можно в рамках какого-либо понятийного контекста.

    Получается ли ужать знания в вашей сети понятий USH до чего-либо более компактного?
    • 0
      Занятно, писал возникший вопрос, не дочитав коменты, а потом вижу — тут как-раз и FenixDeveloper Вам грозит тем же переполнением дерева, о котором спрашиваю…
  • 0
    Немногие знают, что продажа библиотек функций ABBYY FineReader для разработчиков приносит нам больше доходов, чем продажа коробок ABBYY FineReader.

    Интересно и довольно-таки неожиданно.
    Имеется в виду именно Fine Reader Engine? Или же в эту категорию попадают и OEM-версии FineReader, поставляемые вместе, скажем, с устройствами Xerox?
    • 0
      имеется в виду именно инструментарий разработчика (SDK) во всех своих воплощениях. OEM версии, поставляемые со сканерами — это отдельный вид бизнеса, не имеющий отношения к SDK.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное