Action information
230,33
рейтинг
14 января 2014 в 12:32

Разное → ABBYY SmartCAT: облачные технологии для переводчиков

Работа переводчиков интересна: через них постоянно проходит много информации на разных языках. Часто случается, что перевод очередной 100-страничной инструкции нужен был ещё вчера. И если похожие тексты уже переводились ранее (предыдущие версии инструкции или другая техническая документация), то задача может быть немного проще, но при этом заниматься копипастом и следить, чтобы все изменения были учтены, то еще занятие. Для того чтобы использовать уже существующий перевод и обеспечить при этом его последовательность существует специальный класс программ, называемых CAT-инструментами.

CAT расшифровывается как Computer-Aided (Assisted) Translation – «перевод с помощью компьютера» или «автоматизированный перевод». Но не стоит отождествлять данные технологии с машинным переводом, когда вы вводите текст на одном языке, нажимаете кнопку и получаете его перевод: автоматизированный перевод — более широкое понятие, и в случае CAT-систем используется уже имеющийся перевод, сделанный человеком.

На днях ABBYY Language Services начала закрытое тестирование SmartCAT — собственной платформы для автоматизации процесса перевода. И в этом посте мы постараемся немного рассказать, что умеют делать CAT-системы.

Во-первых, CAT-инструменты включают в себя различные лингвистические ресурсы, которые облегчают труд переводчиков с однотипными текстами, содержащими стандартные фразы и предложения — технические, юридические и медицинские термины, описания товаров и многое другое. Одними из самых распространенных ресурсов являются базы Translation Memory — базы памяти переводов, которые содержат ранее переведенные сегменты текста (словосочетания и предложения). Они создаются и пополняются на основе пар параллельных текстов. Другой важный ресурс — глоссарии, которые содержат термины и понятия, принятые в той или иной компании (либо утвержденные для определенной группы проектов). Кроме того, SmartCAT позволяет работать с технологией машинного перевода. Зарубежные переводчики уже давно используют этот ресурс, поскольку он помогает ускорить переводческие процессы и повысить производительность труда. В России пока не все понимают, чего можно ожидать от машинного перевода, однако интерес к этой технологии растёт: в этом году участники многих отраслевых конференций (например, Loc Kit, Translation Forum Russia) обсуждали особенности внедрения и использования машинного перевода гораздо активнее, чем на мероприятиях прошлых лет.

Все вышеперечисленные лингвистические ресурсы упрощают работу переводчику, который пользуется CAT-инструментом. В процессе перевода текста SmartCAT будет предлагать варианты перевода отдельных сегментов, используя при этом подстановки из действующих баз памяти переводов и подключенных глоссариев с корпоративной терминологией. Переводчик может:

  • воспользоваться такими подстановками и принять их
  • отредактировать предложенные варианты перевода (если необходимо поменять грамматическую форму)
  • перевести сегмент по-своему.

При этом измененный вариант также можно добавить в существующие базы памяти переводов, тогда платформа в следующий раз предложит и его. Кроме того, в отдельной панели в правой части интерфейса SmartCAT будут показаны результаты машинного перевода выбранного сегмента. В большинстве случаев гораздо проще отредактировать такой «сырой» материал, чем переводить «с нуля» — это обычно называется постредактированием: переводчик или редактор проверяет готовый текст, сравнивает его с оригиналом, и доводит до нужной языковой нормы или требуемого уровня качества. Это не пройдет с художественными произведениями, творческими текстами (слоганами, рекламными материалами и пр.), личной перепиской и другими подобными текстами.

CAT-инструменты сохраняют форматирование документов. Допустим, переводчик работает над документом со сложной структурой, который содержит разноуровневые списки, стили, ссылки и другие элементы оформления. SmartCAT хранит информацию о вёрстке исходного текста в специальных тегах, которые при работе над переводом можно оставить на месте, и тогда переведенный текст будет выглядеть так же, как и оригинал.

Большинство CAT-инструментов являются десктопными программами — они устанавливаются на один компьютер, и воспользоваться программой можно только на нём. Если вы захотите переводить на другом компьютере — нужна плавающая лицензия или еще какие-нибудь ухищрения. У SmartCAT простой интерфейс и облачная архитектура, которая даёт определенные преимущества:

  • над одним проектом могут одновременно работать несколько переводчиков, даже если они находятся в разных уголках мира;
  • все необходимые материалы (базы памяти переводов, глоссарии и пр.) одновременно доступны всем переводчикам конкретного проекта.


У нашей платформы есть специальный модуль TranslationConnector, который позволяет подключиться к внешним ресурсам — системам разработки и создания контента, электронному документообороту и многим другим. Благодаря этому получить перевод, скажем, сайта или e-commerce-портала можно буквально за один клик: задача во внутреннем ресурсе передается переводчику, ответственному за её решение, и он непосредственно в системе вносит необходимые изменения и возвращает готовый текст. Таким образом, пользователи SmartCAT могут работать с переводом в интерфейсах привычных для них систем, а компании — выстраивать и вести переводческие процессы наиболее удобным способом, создавая на основе платформы решения для конкретных проектов. Переводом может заниматься как внутренняя команда (например, отдел переводов), так и внешняя (переводческие компании).

Иногда переводчикам приходится работать с PDF-документами и изображениями, что приносит значительные неудобства. Текст в таких файлах просто так не изменишь, поэтому перед переводом их нужно распознать — извлечь текстовые данные. Конечно, всегда можно распечатать сканы, повесить их рядом с монитором и перепечатать их содержимое в текстовом редакторе, если не жалко времени и сил. SmartCAT значительно упрощает работу с такими форматами файлов благодаря интеграции с OCR технологиями ABBYY: достаточно загрузить нужный документ в систему, и она автоматически извлечёт текст для перевода. То есть переводчикам даже не придётся выходить из программы.

Кроме того, наш CAT-инструмент умеет измерять производительность переводчиков в конкретных проектах. В марте наши коллеги побывали на конференции TAUS, посвященной вопросам автоматизации перевода. По мнению большинства участников мероприятия, в проектах по постредактированию машинного перевода нужно отслеживать время и объём редактирования на уровне отдельного сегмента. Мы решили, что имеет смысл контролировать не только работу с машинным переводом, но и весь переводческий процесс, и добавили в SmartCAT систему онлайн-мониторинга проектов. Платформа в режиме реального времени анализирует различные метрики и показатели производительности, что позволяет получить информацию для оптимизации работы переводчиков, редакторов и корректоров с лингвистическими материалами. Кроме того, такие данные помогают оценить, насколько оправданы затраты на использование технологий автоматизации в конкретном проекте.

А теперь немного расскажем о том, что сделали наши разработчики, чтобы SmartCAT увидел свет. В частности они написали небольшой, но мощный сервер приложений на 1200 строк кода, который представляет собой загрузчик .Net сборок в win-service. Он может безопасно выключаться или вновь перезагрузиться, если вдруг возникнут ошибки в коде, сторонних компонентах или другая неприятная неожиданность. В этом случае он тщательно залогирует свое падение, чтобы снова встать в строй. При этом подключаемая сборка содержит NInject модуль с обработчиком той части бизнес-процесса, которую не удается уместить в рамки web-запроса. Эта часть представляется в виде задания, которое и ставится в очередь. А для быстрой и масштабируемой работы с очередями заданий в MongoDB и SQL мы разработали обобщенные паттерны.

Кроме того, наши специалисты внедрили красивый и удобный роутинг на атрибутах в WebAPI 5.0. Чтобы не ограничивать обработчики заданий по оперативной памяти или жесткому диску, мы добавили потоковую передачу данных от внешних поставщиков файлов (например, OCR-сервера) в TranslationConnector, а в нем, в свою очередь, такую же переброску в MongoDB GridFS.

Также мы придумали способ организации config-файлов для более простой настройки приложений во время разработки, тестирования и эксплуатации. Например, в развертывании этих файлов не содержится учетной информации для боевых сервисов и баз данных — они динамически подключаются из другой директории. Там же лежат настройки, зависящие от конкретной роли сервера и его сетевых подключений. Всё это позволяет содержать множество обработчиков на разных серверах.

В ближайшее время мы постараемся рассказать вам больше о технических деталях от наших разработчиков и о том, какие преимущества эти технологии дают пользователям SmartCAT. Сама облачная платформа пока находится в стадии закрытого тестирования, но все заинтересованные могут подать заявку на участие в нём на официальном сайте.

Денис Фролов
ABBYY Language Services
Автор: @denisfrolov
ABBYY
рейтинг 230,33
Action information

Комментарии (18)

  • 0
    Какая форма предоставления планируется? Продажа как «cms»? Какие языки поддерживаются?
    • 0
      Добрый день!
      Во время тестирования доступна форма SaaS, а после тестового периода платформу можно будет приобрести и как SaaS-решение, и как отделяемое серверное.
      Поддерживаются следующие языки: армянский, башкирский, болгарский, китайский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, индонезийский, итальянский, японский, казахский, корейский, Латинский, латвийский, литовский, норвежский, польский, португальский, румынский, русский, сербский, словацкий, словенский, испанский, шведский, татарский, турецкий, украинский.
      • 0
        Ок, спасибо большое за ответ:) Тогда вот ещё пучок вопросов:

        Это список языков текстов для перевода, я правильно понимаю? И тексты на всех этих языках корректно извлекаются из документов и разбиваются на отдельные единицы? На какие именно единицы разбиваются, по предложениям? Есть ли возможность самостоятельно указывать параметры деления? Как решаете проблему внесения перевода в «статичные» форматы, типа pdf и djvu? И решаете ли вообще?… А, вижу pdf и djvu только в проекте. Как тогда планируется решать? И какие сейчас доступны форматы файлов для импорта?
        • 0
          Всегда рады :)

          Ответ на новый «пучок» скоро будет — ожидаем информации от наших технических специалистов :)
        • 0
          Это список языков текстов для перевода, я правильно понимаю?

          Это список языков, поддерживаемых технологиями ТМ с морфологическим поиском. Эти языки можно использовать в качестве исходного языка и в качестве языка перевода.

          И тексты на всех этих языках корректно извлекаются из документов и разбиваются на отдельные единицы?

          Да. Если найдете ошибки, сообщайте нам — исправим и продлим вам период триала.

          На какие именно единицы разбиваются, по предложениям? Есть ли возможность самостоятельно указывать параметры деления?

          Есть определенные правила сегментации, которые могут зависеть от формата файла, но чаще всего по предложениями. Самостоятельной настройки сегментации сейчас нет, но будем делать, в том числе для кастомных форматов файлов.

          Как решаете проблему внесения перевода в «статичные» форматы, типа pdf и djvu? И решаете ли вообще?… А, вижу pdf и djvu только в проекте. Как тогда планируется решать?

          У нас есть встроенная интеграция с OCR технологиями, т.е. эти документы распознаются в docx, дальше обрабатываются обычным способом. pdf и djvu поддерживаются уже сейчас.

          И какие сейчас доступны форматы файлов для импорта?

          .docx, .sdlxliff, .srt, .ttx, .txt, .xlf, .xliff, .pdf, .djvu и различные форматы для изображений (через OCR).
          • 0
            Ок, спасибо! Только один вопрос вы не так поняли:

            Как решаете проблему внесения перевода в «статичные» форматы, типа pdf и djvu? И решаете ли вообще?… А, вижу pdf и djvu только в проекте. Как тогда планируется решать?

            _внесения в_.
            SmartCAT хранит информацию о вёрстке исходного текста в специальных тегах, которые при работе над переводом можно оставить на месте, и тогда переведенный текст будет выглядеть так же, как и оригинал.
            • 0
              Для pdf мы не вносим в исходный текст, мы распознаем в отдельный документ и уже с ним работаем. В текстовые pdf пока ничего не планируется вставлять, пока есть большие другие задачи. Для отсканированных pdf вариант с распознаванием и конвертацией в другой формат — единственный возможный. Но в планах есть специальный интерфейс для редактирования распознанного текста до того, как он попадет на перевод.
  • +1
    smartcat.pro/ru/try

    > После регистрации вы сможете работать с ней совершенно бесплатно до марта 2013 года.
    • 0
      У вас ошибочка:
      > до марта 2014 года
      • +2
        Нет, просто уже поправили:) Именно на ошибку я и указывал)
    • +1
      Да, спасибо, с годом ошибочка вышла :)
      Бесплатно поработать со SmartCAT можно до марта 2014 года, конечно.
  • 0
    В ожидании данных доступа задам несколько вопросов, ответы на которые могут быть интересны и другим читателям.
    — реализован ли в SmartCAT контроль качества перевода? Если предусмотрена проверка орфографии, то на каком движке она реализована? Есть ли в тестируемой версии интеграция с тестируемой Lingvo.pro? (в частности интересует автоматическая проверка терминологии, если она учитывает морфологию, то для каких языков?)
    — будет ли реализовано моноязычное редактирование? Случай для примера: перевод презентации на польский отдали маркетологам в польский офис, они внесли правки, не ориентируясь на исходный текст. Эти правки необходимо отразить в памяти переводов. Вручную это сделать можно, если объём правок небольшой, но если правок много, языков перевода тоже много, эти правки носят регулярный характер, то решение подобной задачи вручную может стать серьёзной проблемой.
    — Есть ли возможность гибкой фильтрации импортируемого контента, например, импорт отдельных столбцов из таблицы Excel.
    • 0
      Спасибо большое за вопросы :)

      Ушли за ответами к специалистам.
    • +2
      реализован ли в SmartCAT контроль качества перевода? Если предусмотрена проверка орфографии, то на каком движке она реализована? Есть ли в тестируемой версии интеграция с тестируемой Lingvo.pro? (в частности интересует автоматическая проверка терминологии, если она учитывает морфологию, то для каких языков?)

      Да, реализован, проверка осуществляется сразу на уровне сегмента после его подтверждения.
      Проверка орфографии реализована при помощи собственного движка, для вариантов исправления подключается еще и Яндекс.
      Интеграция с Lingvo.Pro есть, фактически все ресурсы доступны в одном интерфейсе. Проверка терминологии с учетом морфологии есть для всех поддерживаемых языков.
      Кроме того, проверяется ряд стандартных ошибок — пунктуация, капитализация и т.д.
      будет ли реализовано моноязычное редактирование? Случай для примера: перевод презентации на польский отдали маркетологам в польский офис, они внесли правки, не ориентируясь на исходный текст. Эти правки необходимо отразить в памяти переводов. Вручную это сделать можно, если объём правок небольшой, но если правок много, языков перевода тоже много, эти правки носят регулярный характер, то решение подобной задачи вручную может стать серьёзной проблемой.

      У нас предусмотрена поддержка нескольких этапов рабочего процесса (workflow) — перевод, редактура, корректура (собственно это и есть моноязычное редактирование). Пока на уровне интерфейса реализованы первые два этапа, третий будет в ближайшем будущем.
      есть ли возможность гибкой фильтрации импортируемого контента, например, импорт отдельных столбцов из таблицы Excel

      Пока нет, но будем делать, в частности, настройку того, какие теги в xml переводить и т.д.
      • 0
        большое спасибо за ответы, очень интересно.
  • 0
    Кстати, какой приблизительный диапазон цен предполагается? Будет ли цена привязана к количеству пользователей, используемых языков перевода, количеству переведённых слов или другим параметрам?
    • 0
      Пока рано говорить о ценовом диапазоне, поскольку только начался тестовый период. Однако на данный момент наиболее приоритетным нам представляется способ тарификации, основанный на количестве переведённых слов.
  • 0
    SaaS модель, диапазон цен — дешевле аналогов :), есть мысли по дополнительным платным сервисам.
    Отделяемое решение — зависит от конфигурации.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное