Comments / Profile of boris

Борис Тихомиров @boris_tikhomirov

Управление продуктом

Profile Publications 1Comments 7Bookmarks

Диалектика нейронного машинного перевода

boris_tikhomirov Sep 5 2017 at 18:05

Приведенные Вами переводы еще раз демонстрируют одно из основных положений моей статьи: есть большая разница между «бытовым» переводом для повседневных задач и переводом для целей бизнеса. И во втором случае дело не только в технологии, но и в возможности настройки, потому что ни одна система не дает приемлемого перевода данной фразы без настройки. И это видно из примеров.

Настройка, кстати, тоже сильно зависит от технологии. Нейронный перевод безусловно настраивается, но это пока и его слабое место, так как требуются большие вычислительные мощности и время на эксперименты. Наше преимущество все-таки в том, что все технологии, которые мы давно развиваем и решаем с их помощью конкретные бизнес-задачи, имеют мощные средства для настройки в достаточно сжатые сроки, и выросло это все в работе с конкретными заказчиками.

Look

Диалектика нейронного машинного перевода

boris_tikhomirov Aug 8 2017 at 10:48

Статья о том, что нейронный перевод сам по себе никак не решает конкретные задачи бизнеса, и мы привели примеры, где сравнили наши ненейронные движки и нейронный перевод от Google. Не очень понятно, откуда Вы делаете выводы, что PROMT отказывается от использования NMT. И в статье, и отдельно в комментариях я говорил, что мы ведем разработки в том числе и в направлении NMT, и выбор того, какой движок использовать, зависит от конкретной задачи клиента.

Что касается бенчмарков по ссылке, то нам ничего не известно ни про компанию, проводившую измерение, ни про точную методику данного измерения, ни про корпуса, на которых измерение проводили. Так что комментировать там что-то сложно. В презентации упоминается метрика – normalized hLEPOR score. Кажется, это одна из метрик, представленная на семинаре по машинному переводу ACL-WMT, где ежегодно проводятся сравнение технологий перевода от разных провайдеров и технологий оценки качества перевода. Метрика не является отраслевым стандартом, и у нас нет опыта ее использования, мы не знаем, насколько она точна для морфологически богатых языков, например, русского. В своей работе мы используем давно зарекомендовавшие себя, несмотря на ограничения, метрики METEOR, BLEU.

Мы также регулярно участвуем как провайдер МП в семинарах ACL-WMT и в проводимых ими сравнениях систем перевода. Вот, например, ссылка на результаты 2016 года: http://statmt.org/wmt16/pdf/W16-2301.pdf (страница 141). Как видно, самый точный результат для англо-русского перевода у PROMT. В данном случае была использована как автоматическая оценка, так и экспертная, где носители языка ранжируют переводы в зависимости от их качества. Так что твердо уверен, что у нас точно не самый слабый результат по accuracy.

Look

Диалектика нейронного машинного перевода

boris_tikhomirov Jun 14 2017 at 23:00

Мы приняли решение не использовать NMT без разбору везде, где только ни появится задача перевода. Наш подход в том, что каждой задаче — своя технология. Мы сейчас используем активно rule based перевод, статистический перевод или технологию Deep Hybrid — в зависимости от задач клиента. И на тех задачах, где нейронные сети будут давать выигрыш в качестве, будем использовать их. Исследования в эту сторону тоже идут.

Look

Диалектика нейронного машинного перевода

boris_tikhomirov Jun 14 2017 at 10:55

Не очень понятно, что именно Вы подразумеваете под «проще». Мне сложно что-то ответить. Тот факт, что в нейронной сети тренируется одна модель, а в статистическом движке и rule based может быть настройка нескольких компонентов, не делает нейронный переводчик более простым.

Тренировка нейронного переводчика требует больше ресурсов, чем статистический, и не только вычислительных, но и человеческих, иначе сложно сделать что-то приличное. Именно поэтому качественного результата тут по сути достиг пока только Google, у которых много корпусов, много ресурсов, и даже при этом они потратили несколько лет прежде, чем перейти со статистики на нейронку.

Look

Диалектика нейронного машинного перевода

boris_tikhomirov Jun 12 2017 at 11:49

На Translate.Ru Вы не найдете перевода, о котором написано в статье, потому, что речь о решении, которое специально настраивалось на клиента. Перевод в Google Translate тоже будет другим, если взять в учет регистр «ROUND TRIP INSTANT PURCHASE FARES», как обычно и пишут в правилах применения тарифов.

Look

Диалектика нейронного машинного перевода

boris_tikhomirov Jun 12 2017 at 11:45

Никто никого не очерняет. Мы пишем, что нейронный переводчик Google лучше как универсальный переводчик. Тема секции на РИФе, где был этот доклад, была про нейронные сети в бизнесе, и обсуждался вопрос стоит ли бросаться и применять нейронки везде без разбору. Наш подход в том, что каждой задаче — своя технология.

Look

Диалектика нейронного машинного перевода

boris_tikhomirov Jun 12 2017 at 11:30

NMP — это опечатка, конечно. Спасибо, что заметили. Исправил.

Что касается нейронного перевода от PROMT, то он будет использоваться для наших клиентов на тех задачах, где качество сможет быть лучше, чем любой другой подход. Пока мы находимся на таком этапе, что наш подход позволяет более качественно решать конкретные задачи наших клиентов без применения нейронных сетей. Статья как раз об этом.

Но это не значит, что мы не занимаемся исследованиями и разработками в этом направлении.

Look