Pull to refresh
48
0
Павел Доронин @scalywhale

Продукты, локализация, то да сё

Send message
Мне пока 37, пока проблем из-за возраста не испытывал. Отвечу вам на ваш комментарий через 3 года, если не забуду.

Вы считаете, что профессиональный/личностный рост и счёт в банке не коррелируют?
Спасибо за подробное исследование и выбор Smartcat. Нам приятно, что наш продукт подошёл для ваших задач! Пара уточнений:
  • Smartcat бесплатен вообще для всех без ограничений, не только для фрилансеров;
  • Ну и пишемся мы теперь Smartcat, а не SmartCAT, но это мелочи

Интересный результат прислали из GetLoc: спустя более 10 дней подсчёта Хабра получилось 41 920 106 слов (237 379 782 символа). И это уже с учетом повторяемости, т.е. весь объем сравнился друг с другом. Все сегменты уникальные.
Похоже, что это единственный кроулер, который не сошёл с дистанции и посчитал весь объём Хабра с комментариями.
Сначала мы попробовали использовать Easyling (обзор этого сервиса был на Хабре), но он при подсчёте Хабра зависает и перестаёт считать.
Менее 9 миллионов слов мы насчитали с помощью http://www.sitewordcount.com/#/ (который работает на движке Langprism).

Наши коллеги из компании GetLoc после выхода этого поста решили проверить наш подсчёт с помощью своего движка, подсчёт идёт уже пятый день, цифра уже превысила нашу — почти 13 миллионов слов. Посмотрим, когда досчитается.
Это очень интересный вопрос. Самый, наверное, популярный способ — сделать выборку текстов (скажем, 1% от объёма), перевести её с помощью человека, а потом результат сравнить с постредактированным машинным переводом. Если допустить, что человеческий перевод является эталонным, то можно сравнить отличие эталонного текста от постредактированного МТ и сделать вывод о качестве.
Ежу не было известно, насколько быстрее и насколько дешевле обойдётся машинный перевод. Мы же привели конкретные цифры, которые могут быть приблизительным ориентиром для бизнеса.
комментарии, пожалуй, потребуют препроцессинга, чтобы движок МТ их понял. Всё-таки, когда люди пишут комментарии, они не так себя дисциплинируют как при написании статей. Конечно, на Хабре качество текста в комментариях повыше, чем, скажем, в сообществе MDK, но, думаю, препроцессинг понадобится.
Такой подход использует отдел машинного перевода eBay. Им приходится переводить большое количество контента, созданного пользователями (описания товаров), который совсем не заточен на перевод. Ребята из eBay создали (и ежедневно дополняют) набор правил, который изменяет исходный текст перед отправкой в движок машинного перевода так, чтобы на выходе был более качественный перевод: исправление опечаток, расшифровка аббревиатур, исправление сленговых оборотов и т.д.
Google Toolbar?
Но ведь тут у вас вообще нет контроля за качеством того, что там потенциальные покупатели напереводили.
Это, кстати, довольно распространённый способ проверить качество, а также выявить различные узкие места в исходном тексте и переводе.
Есть :) Но не такие классные.
Попробую ответить сразу всем комментаторам выше.
Стоит, конечно, оговориться, что на самом деле Хабр мы переводить не собирались, а использовали его для расчётов. Скажем так, чтобы местные жители понимали масштаб контента, о котором мы говорим. Нашей целью было показать прикладное применение машинного перевода в промышленных масштабах.
Представьте, что у вас интернет-магазин и вы решили выйти на другой рынок. Переводить описания товаров вручную традиционным способом долго и дорого. Полагаться только на машинный перевод — опасно (помните все эти смешные описания с AliExpress? их, кстати, всё меньше). Сценарий машинный перевод+постредактирование в этом случае — хорошее соотношение по срокам/стоимости.
E-commerce — самый очевидный пример. Есть ещё различные отзывы на сервисах бронирования, например.

Пример другого рода — трейдерские сводки. В международных компаниях, где те или иные действия обусловлены событиями в разных точках мира, очень важно получать новостные сводки как можно быстрее (но при этом не «сырой» результат машинного движка). Тут машинный перевод + постредактирование позволяют перевести новость быстро и понятно, успев до того, как она протухнет.

Мой любимый пример — пачки юридических документов, которые обязательно нужно переводить на другие языки при международных процессах. Задержки в таких случаях могут стоить больших денег.

Иными словами, Хабр мы переводить не будем, мы лишь на примере Хабра демонстрируем экономическую целесообразность работы с машинным переводом на больших объёмах.
Борис, а можете прокомментировать этот бенчмарк-тест компании intent.to? Похоже, отказ от использования NMT делает Promt самым выгодным по цене и самым слабым по accuracy.
С одной стороны, это неудобство, да. С другой стороны, если бот будет в тихом режиме и перестанет сообщать об ошибках проверки, то непроверенные ссылки будут выглядеть для пользователя как безопасные, а не очень хорошо.
сегодня выкатили эту фишку, проверьте, пожалуйста. Будем рады фидбеку.
Интересно, как выстроен процесс локализации в 360.
Насколько я понимаю, исходный контент пишется на китайском языке (или английском?). На первый взгляд русская локализация сделана довольно небрежно: очень много неоправдных сокращений:
«Подр. информ.» вместо «Подробная информация»
«Модель неподдерж. роутера»
«Оптимизир.»
«1.4 ГБ» читается как «1.4 ГЕ» (потому что Б вышла за пределы поля), причём, число должно быть 1,4, в русском языке дробный разделитель — запятая.
проблемы с множественным числом:
«Найдено 22 пунктов для оптимизации»
«Строгий-режим» почему-то написано через дефис (наверное, по аналогии со «Смарт-режимом»)
странные пробелы между словами и нелокализованный бейдж New.
В общем, было бы интересно почитать, как вы занимаетесь локализацией продуктов.
По поводу переписки: Privacy mode (когда бот может получать только команды или реплики, адресованные ему) нам по понятным причинам не подходит, а других вариантов Bot API пока не предлагает. Если появится возможность получать из групповых чатов только сообщения со ссылками, файлами и медиаобъектами (иначе троянец можно замаскировать, например, под гифку), то мы сами будем рады уменьшить нагрузку и не обрабатывать лишнюю информацию.
Если нет желания звать бота в групповой чат, всегда можно форварднуть боту сообщения на проверку.
По поводу VirusTotal: поизучаем этот вопрос, но, похоже, есть юридические заморочки.
Да, спасибо, мысль хорошая!
Можно этого и не делать: подозрительные файлы и ссылки при необходимости можно форварднуть боту из любого чата.
Стоит ли пользоваться ботами в групповых чатах — ваш личный выбор.

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Registered
Activity