IBS
Крупный разработчик сложных ИТ-решений
34,97
рейтинг
3 декабря 2015 в 11:58

Разработка → Тонкости перевода: как волонтёры, ABBYY LS и IBS переводят на русский курсеровскую специализацию Data Science



Владимир Подольский vpodolskiy, аналитик в департаменте по работе с образованием IBS, стал редактором перевода на русский язык специализации Data Science на Coursera (в рамках совместного проекта IBS и ABBYY LS). Мы публикуем его подробный пост о трудностях перевода профессиональных текстов по тематике данных, практике работы с крауд-платформой и опыте длительной он-лайн учёбы. Напомним, что Владимир сам закончил обучение по специализации Data Science на Coursera. Мы публиковали его подробный разбор всех 9 курсеровских курсов от Университета Джонса Хопкинса (часть 1 и часть 2).

И снова здравствуй, хабр!

Coursera и прочие MOOC’и – очень занятная и затягивающая штука. Благодаря им можно многому научиться, многое узнать. Важно иметь лишь доступ к сети и не лениться. Во всей MOOC’овской истории действует то же правило, что и при написании кандидатской диссертации: «Если не готов делать каждый день по чуть-чуть, лучше вообще не принимайся». Следуя ему, можно справиться и с наукой о данных, и с введением в искусственный интеллект, и даже с квантовой физикой…
Сегодня хотелось бы рассказать об одной трудности, с которой сталкиваются при изучении открытых курсов почти по всему миру. Разумеется, эта глобальная трудность – язык. И проблема, как правило, даже не в том, что уровень знаний человека не позволяет понять, о чём говорит лектор… Дело в том, что понять отдельные англоязычные термины, не имеющие внятного аналога в русском языке, бывает очень и очень непросто. А уж про скорость речи можно и не вспоминать – как правило, преподаватели-иностранцы не делают скидку для тех, кому английский язык не родной.

Когда имеешь дело с иностранными MOOC’ами, нужно приготовиться, что большинство преподавателей будут рассказывать материал с ошеломительной скоростью реактивного самолёта. Можно, конечно, и передвинуть ползунок назад – но, поверьте, эта затея надоест минуты с третьей, и вы будете благодарить судьбу, если к видеолекциям прилагаются написанные лаконичным и доступным языком слайды, пусть и на другом языке. Особенно это актуально для тех, кто в нашей стране по каким-то причинам не смог или не стал изучать иностранный язык.

Если вы знаете иностранный и читая этот текст удивлённо пожимаете плечами… Зря. В России действительно много тех, кто не стал изучать иностранный язык, тех, кому показалось достаточно для жизни языка Пушкина и Толстого. В общем-то, и среди них немало как профессионалов, так и людей, стремящихся развиваться в каком-то выбранном направлении. И если образовательный рынок страны не предоставляет нужных материалов (благо, сейчас ситуация всё же выправляется), у человека должна быть возможность приобщиться к знаниям, произведённым за рубежом. Именно с этой целью и процветает такое направление общественной инициативы как перевод иностранных онлайн-курсов на русский язык.

Когда речь идёт о какой-то общественной инициативе, можно представить что-то кустарное, сделанное на коленке и по принципу «я же не получаю за это денег – пусть и за это скажут спасибо!». Возможно, так и было. Но сегмент общественных инициатив в России, я уверен, прошёл этот этап. И подтверждением тому служит краудсорсинговая инициатива IBS и ABBYY LS по организации перевода Data Science Specialization, которую мне и довелось не так давно освоить (посты об этом: часть 1, часть 2)

При этом роль компаний в процессе перевода, конечно, велика, но и не стоит её преувеличивать – ABBYY LS стала провайдером сервиса краудсорсингового перевода субтитров к видеолекциям, тогда как IBS поддержали это благое начинание работой своих экспертов, успешно прошедших специализацию и применяющих полученные знания в работе. Собственно, так я и оказался в числе экспертной группы, члены которой тщательно просматривают переводы краудсорсингового сообщества и склеивают их воедино, устраняя разные терминологические огрехи.

В сегодняшней статье я расскажу о том, как происходит экспертиза перевода, а также о том, как в этом процессе мне помогает платформа SmartCAT, созданная ABBYY LS. Итак, поехали!

Использование корректной терминологии


Пожалуй, самой большой проблемой при экспертизе перевода была и остаётся проблема использования корректных терминов. В принципе, проблема не такая уж серьёзная, если для переводимой области уже есть устоявшаяся терминология на русском языке. Если же такой терминологии нет, то приходится подбирать русскоязычный вариант, руководствуясь двумя критериями:
А) он не должен дублировать термины с другим определением;
Б) он должен быть максимально адекватным для интуитивного понимания другим человеком.

Пожалуй, проблема поиска корректных терминов – самая главная проблема при экспертизе перевода других участников проекта. Конечно, встречаются проблемы выстраивания корректных фраз и предложений, но они в общем-то тривиальны и скорее больше относятся к искусству написания грамотных и понятных текстов, о чём написано уже немало. Поэтому чуть подробнее остановлюсь на том, как стоит подбирать термины при переводе и экспертизе.

Первый и самый главный совет в этом деле – постараться найти и хотя бы бегло изучить соответствующую курсу литературу на русском языке. Причём не обязательно, чтобы это были солидные научные фолианты – вполне подойдут даже статьи, заметки и интервью по узкоспециальной тематике, написанные русскоязычными экспертами в этой области. Конечно, в случае журналистских работ всегда есть риск нарваться на горбатых и одноглазых «дэйтасаентистов» вместо гламурных и модных «исследователей данных». Впрочем, подобные англицизмы и жаргонизмы легко отслеживаются благодаря тому, что они стоят особняком посреди остального русскоязычного текста.

На случай, если точный термин не удалось найти в существующей литературе, можно предположить перевод термина на русский язык, после чего проверить его на адекватность при помощи поиска по профессиональным форумам и сайтам. После просмотров нескольких тематических страниц, скорее всего, удастся найти наиболее распространённый в профессиональном сообществе перевод термина. Конечно, много времени на подобные поиски не стоит тратить – если находящиеся варианты очень редки, то вряд ли их можно использовать как авторитетный источник информации.

Третий вариант состоит в том, чтобы поискать сходные термины в смежных областях знания. К примеру, для науки о данных можно смело рассчитывать на учебники по матстатистике, теории вероятностей, основам искусственного интеллекта… Главное во всех этих поисках – не закопаться. Для отдельных терминов встречается много одинаково хороших (или одинаково плохих) вариантов перевода. В этом случае я обычно выбираю один из них (как правило, наиболее точный и благозвучный) и в дальнейшем придерживаюсь его.

Если в итоге ни один из этих вариантов не сработал, то придётся рассчитывать на собственные познания и бэкграунд в соответствующей области. В конце-концов, как любят это делать аспиранты, почему бы иногда и не ввести новый термин :)?

«Умный кот» – верный помощник переводчика и эксперта


Каким бы сильным не было желание сообщества перевести курсы Coursera, вряд ли бы это удалось без качественного инструментария, предоставленного ABBYY LS. Инструмент, предоставленный ими, называется SmartCAT. Smart – умный. CAT – Кот. Я серьёзно – смотрите картинку.



Хотя нет, шучу, CAT – это аббревиатура от Computer Assisted Translation (системы помощи переводчикам). В основу CAT-систем положен принцип разбиения переводимого текста на небольшие части, по одному-двум предложениям. Каждая такая часть называется сегментом. CAT-система обрабатывает каждый сегмент двумя способами:
  • машинный перевод сегмента (Machine Translation – MT) – то есть автоматический перевод сегмента согласно заданным программно алгоритмам;
  • перевод с использованием памяти переводов (Translation Memory – TM) – то есть анализ сегмента на полное или частичное совпадение с уже переведёнными сегментами, содержащимися в базе.

Основной недостаток и основное же преимущество CAT-систем – участие человека в переводе. Пусть первоначальный вариант перевода подбирается автоматически, он в любом случае должен быть подтверждён человеком (переводчиком, экспертом в предметной области). Недостаток такого подхода очевиден – приходится привлекать людей к переводу и экспертной оценке переводов. Конечно, участие человека растягивает процесс перевода, что, безусловно, является негативным фактором для тех, кто хочет идти в ногу со временем и оперативно получать информацию на своём национальном языке. С другой стороны, вовлечение людей в процесс перевода имеет и явную позитивную черту – системы автоматического перевода по-прежнему уступают человеку в способности строить аккуратные и верные с семантической (смысловой) точки зрения предложения. Плюс человек способен улавливать настроения текста или речи, что позволяет ему лучше формировать перевод, так, чтобы люди могли понять фразеологизмы или даже шутки лектора.

SmartCAT от ABBYY LS – это разновидность CAT-инструментов, эдакая облачная среда, которая позволяет по максимуму автоматизировать процесс перевода. Но без фанатизма – как уже было сказано, человеку отводится ключевая роль при переводе. Хотя эта среда, конечно, продаётся фирмам и фрилансерам, я использую её исключительно в рамках краудсорсингового проекта «Переведём Coursera».

Краудсорсинговость проекта «Переведём Coursera» заключается в том, что принять участие в переводе может каждый. Вы просто регистрируетесь на сайте, выбираете интересный или близкий вам курс и начинаете его переводить при поддержке SmartCAT. Поддержка у SmartCAT широкая: тут вам и варианты машинного перевода, и переводы сходных сегментов, и встроенные словари и справочники терминов, а также всевозможные виды поиска слов, возможность прослушать аудиозапись оригинала. Разве что кофе не предлагают по утрам, но, думаю, исправят эту оплошность с новым релизом ;-)

Работа эксперта


Ну, пожалуй, это всё, что мне известно про переводческую сторону проекта. Теперь расскажу о том, что видит и делает эксперт при помощи SmartCAT. Итак, godmode ON!

При входе в систему прямо под моим именем появляется надпись «Workspace» (выделил жёлтым). Чтобы перейти к экспертизе назначенных мне переводов, я должен нажать на неё, после чего выбрать опцию Crowd Review.



После этого я попадаю на страницу со списком всех курсов, в переводе которых участвую как эксперт (см. скрин ниже). Напротив названия курса указан прогресс перевода (голубой цвет) и прогресс экспертизы (синяя полоска, догоняющая голубую). При нажатии на название курса раскрывается список видеофрагментов лекций курса, перевод субтитров к которым я экспертирую. Наверху раскрывшегося списка видеофрагментов можно заметить кнопку «Скачать» — она отвечает за скачивание исходных и переведённых файлов субтитров. Чтобы перейти непосредственно к экспертизе перевода какого-либо видеофрагмента лекции, нужно нажать на его название.



После нажатия на название видеофрагмента лекции я оказываюсь на новой странице, где и представлен весь ключевой инструментарий, предлагаемый мне SmartCAT для экспертизы перевода субтитров (см. рисунок ниже). Рассмотрим эту страницу чуть подробнее…



Изобилие элементов на странице экспертизы перевода видеофрагмента впечатляет – по моему субъективному впечатлению, наиболее удобными в процессе проведения экспертизы оказываются широкоформатные экраны. Как показала практика, каждый блок управления оказывается задействован в процессе редактуры перевода. Тут, видимо, стоит сказать спасибо разработчикам, которые убрали всё лишнее и оставили только самые необходимые элементы.

Как видим, большую часть страницы занимает окно с сегментами на английском и их переводами на русский. Нажав на кнопку с треугольником слева от английской версии сегмента, можно перейти к соответствующей части видео, чтобы послушать, что говорит лектор, и посмотреть, какие он выполняет действия – это часто помогает понять, что в действительности имеет в виду лектор, поскольку распознаватель речи, генерирующий субтитры, увы, иногда, но ошибается. Само видео отображается на вкладке в правом нижнем углу страницы.

Хотя на скриншоте уже заполнены все поля для перевода на русский, изначально они пусты. Чтобы их заполнить, нужно выбрать один из вариантов перевода, предложенный сообществом, либо взять машинный перевод, а в самом крайнем случае можно и самостоятельно перевести текст. Как правило, среди переводов сообщества оказывается какой-либо подходящий вариант. Чтобы отобразить все доступные варианты перевода сообщества для конкретного сегмента, нужно выделить его нажатием мыши. Предложенные сообществом варианты перевода отобразятся в окне внизу страницы. Вариант машинного перевода и перевода, полученного из памяти переводов, отобразится на окне CAT справа.

Если среди предложенных сообществом вариантов удалось обнаружить наиболее адекватный, то нужно нажать на соответствующую красную кнопку со стрелкой справа от варианта перевода. Выбранный таким образом вариант попадёт в окошко перевода, после чего можно поставить курсор на этот вариант в окне сегментов и начать его редактировать как обычный текст. Когда редактирование перевода окончено, требуется нажать на иконку с галочкой на панели инструментов вверху, либо комбинацию Ctrl + Enter. После этого SmartCAT считает перевод сегмента выполненным и проэкспертированным и обновляет зелёный статус-бар на самом верху страницы. При необходимости к переводу финализированного таким образом сегмента можно вернуться.

К переводу каждого сегмента предъявляется одно требование, которое не может быть нарушено (в противном случае перевод сегмента просто не удастся подтвердить). Каждый перевод должен содержать ровно столько же символов переноса строки (стрелка на голубом фоне, как на клавише Enter), сколько их содержится в оригинальном фрагменте на английском языке. Дело, по-видимому, в тайминге субтитров… Хотя это, на самом деле, не очень удобно. Очень распространены ситуации, когда английский текст оказывается длиннее его перевода за счёт всевозможных пауз и оговорок, от которых я стараюсь избавлять субтитры. В этом случае приходится как-то исхитряться, чтобы не потерять ясность изложения и уместить в небольшой перевод сегмента многочисленные переносы строки.

Помимо всего прочего, SmartCAT предоставляет эксперту возможность поместить перевод какого-либо термина в словарь курса, чтобы впоследствии переводчики могли пользоваться единым вариантом перевода. К сожалению, пока не довелось экспертировать переводы других, более поздних курсов, поэтому однозначно не могу сказать, пригодились ли кому-либо внесённые мною в словарь переводы терминов или нет…

Ещё одной очень полезной штукой в платформе SmartCAT являются словари. Они хороши тем, что дают несколько вариантов перевода и даже пояснения. Думаю, если бы я учился на переводчика, эта среда оказалась бы для меня очень полезной точки зрения изучения новых слов.



Конечно, я не стал раскрывать весь функционал SmartCAT в этой статье, но описал лишь тот, которым лично пользовался при экспертизе перевода курса Exploratory Data Analysis.

Временные затраты


Что касается затрачиваемого времени на экспертизу переводов… На самом деле всё по-разному. Затрачиваемое время в основном зависит от трёх факторов:
  • длина переведённого видеофрагмента;
  • сложность языка, используемого в видеофрагменте (лексика, термины и так далее);
  • квалификация переводчиков.

Как правило, экспертиза фрагментов длительностью по 6-7 минут занимает от 45 минут до полутора часов, тогда как более долгие разновидности (10 минут и более) могут отнимать и по 2 часа времени. Столь большая длительность связана со многими факторами:
  • наличие нескольких вариантов перевода фрагмента субтитров, из которых нужно выбрать наиболее подходящий, сравнивая с англоязычным оригиналом;
  • необходимость расставить переносы в русскоязычных субтитрах;
  • внесение исправлений (редактура);
  • поиск адекватных вариантов терминов.

В итоге получается, что за неделю на экспертизу тратится порядка 4 часов времени, при этом «проэкспертированными» оказываются от 3 до 5 видеофрагментов длительностью в среднем по 7 минут. В курсе, экспертизу перевода которого я провожу, содержится 39 видеофрагментов разной длительности (вплоть до гиганта длиной 40 минут!). С учётом совокупной занятости, надеюсь, что с ним удастся расправиться под Новый год.

С учётом написанного, можно сделать вывод, что эксперт – это «узкое место» осуществления переводов. И это действительно так. Тем не менее, без эксперта никуда – как я уже много раз убеждался, терминологическая проблема стоит очень остро для краудсорсинговой инициативы по переводу.

Границы формализации


Почему я не стал рассказывать о том, как понять, какой перевод термина корректный, а какой – нет? Всё просто – это неформализуемая область. Я, как правило, ориентируюсь на то, что мне в тексте перевода что-то не нравится. Текст банально «не звучит». Это понимание основано на изучении соответствующей русскоязычной тематической литературы, 6 годах учёбы в МГТУ имени Баумана на инженера компьютерных систем и сетей, а также на 2 годах работы в IBS по аналитическому направлению. Конечно, при переводе узкоспециализированного текста людьми, не являющимися экспертами в этой предметной области, всегда есть риск получить некорректный перевод специальных терминов. Очень часто этот риск реализуется. Но необходимость корректуры компенсируется тем, что большая часть текста, как правило, не содержит сложных терминов, посему перевод таких фрагментов получается более чем сносным.

Вместо заключения – для чего это всё нужно?


Вопрос, озвученный выше, важен, без мотивации жить сложно :) Понятно, что экспертиза перевода даёт тем, кто изучает курсы на Coursera с русскими субтитрами – качественный перевод и внятные термины. Вопрос в том, что может дать экспертиза самому эксперту помимо чувства моральной удовлетворённости и выполненного общественного долга.

Скажу прямо, мне опыт экспертизы позволил в очередной раз окунуться в специальность «Наука о данных» – что-то всплыло в памяти, что-то лучше структурировалось в голове. Стало легче переносить на бумагу и объяснять основные процессы анализа данных. Поскольку всю специализацию я одолел на английском языке, то о русскоязычных вариантах понятий и описаний процессов анализа данных я просто не задумывался. К сожалению, погружение в англоязычные курсы даёт о себе знать – иногда в разговоре банально не получается сходу найти достойного аналога термина на русском языке. Именно получение знаний на английском языке и нежелание или неспособность их представить на русском способствуют появлению англицизмов и иных заимствованных слов в русской речи, причём с их использованием оказывается проблематичным донести информацию как до русскоязычных экспертов в этой области, так и до более широкой аудитории неспециалистов.

Можно не ходить далеко в лес – не так давно знание русскоязычной терминологии курса, которую я почерпнул в ходе экспертирования переводов, удалось применить на практике, прочитав вводную лекцию по анализу данных в МГИМО в рамках курса «Управление инновациями». Задача была осложнена тем, что МГИМО не относится к разряду инженерных вузов, поэтому материалы пришлось адаптировать и выстраивать так, чтобы даже у неподкованного в аналитике данных и математике человека сформировалось целостное представление о том, что такое анализ данных, как он в целом выполняется и для чего нужен. В этом очень помог опыт экспертизы переводов – понятийный аппарат и основные идеи для обзорно-вводной лекции удалось легко сформировать на русском. Надеюсь, что у меня получилось показать новому поколению госуправленцев, как анализ данных может быть использован для выстраивания умной и позитивной государственной политики…
Автор: @IBS_habrablog
IBS
рейтинг 34,97
Крупный разработчик сложных ИТ-решений

Комментарии (7)

  • 0
    а в каком виде появится результат этого краудсорсингового проекта?
    русские субтитры появятся на курсере? субтитры будут доступны отдельно или это все исключительно для внутренних целей компаний-участников?
    • 0
      Русские субтитры выгружаются на Курсеру. Если всё пойдёт хорошо, то Data Science в следующем году станет первой курсеровской специализацией полностью доступной на русском языке
  • +1
    Гигантская работа, очень впечатляет. Но смущает вот что. Из моего опыта, когда начинаешь применять знания этой специализации на практике, возникает много вопросов, которые в лекциях не рассматривались (это логично). Их приходится гуглить, и как правило ответы всегда можно найти на сайтах типа stackoverflow или в мануалах. Но ведь это англоязычные материалы. Мне сложно представить, что человек с уровнем языка, недостаточного для понимания лекций этой специализации, сможет разобраться в них. У меня уровень далеко не флюент, но как раз эта специализация кажется довольно простой с точки зрения языка. Конечно, есть терминология, но опять же, для людей относительно в теме она не должна представлять большой трудности.

    То есть, при всем уважении к вашему титаническому труду, не станет ли низкий уровень знания языка препятствием сразу после прослушивания курсов? Не логичнее ли было бы вложиться в обучение английскому, например?

    Если говорить о курсах, мне кажется, наибольший потенциал перевода у тех направлений, которые не связаны с ИТ. Собственно там где нет необходимости дальше использовать язык, а можно просто ознакомиться с материалом. Или где есть много хороших переведенных источников, но хочется еще что-то узнать от ведущих университетов.
    • 0
      Спасибо за правильный и интересный вопрос!

      Признаться, есть такие опасения касательно дальнейшего изучения — действительно, отдельные вопросы приходится искать на stackoverflow, например. Конечно, идеален вариант с развитием знания английского (= даём людям удочку, а не рыбу). Но тут есть одна «небольшая» проблема — это всё же задача государственного уровня, а не отдельно взятой компании :) Мы и так все платим налоги, которые, в том числе, идут на образование (в школе, а потом и высшее). Так что тут вопрос скорее к государству — почему обучение английскому поддерживается не в должной степени. Помимо вопросов к организации хорошего и массового обучения английскому языку, есть вопросы и к получателям этих знаний — как правило, есть и проблема мотивации. С одной стороны человек хочет узнавать что-то новое, а с другой — ему не интересно (читай — лень) заниматься изучением иностранного языка.
      Если речь об обучении английскому сотрудников компании, то тут, как правило, особых проблем нет. Уровня технического английского людям хватает, чтобы понять ответы на зарубежных форумах.

      По поводу курсов, которые не связаны с ИТ… С одной стороны можно согласиться, а с другой — поспорить. Всё же даже не в ИТ-курсах всегда остаётся простор для новых открытий. Например, в той же физике. Или вот, например, робототехника. Там тоже интенсивное развитие сейчас идёт, есть много статей и документации на английском. Полагаю, задача перевода курсов — дать некую базу для человека, чтобы он смог продолжить работать в выбранном направлении самостоятельно. Если ему для этого обязательно понадобится английский, то, конечно, придётся изучать. Пока технологии машинного перевода, увы, не столь совершенны…

      И ещё один момент по поводу перевода именно ИТ-курсов, а не других. IBS — компания из сектора ИТ. Если мы полезем наводить экспертизу в курсах по квантовой физике, боюсь, у нас не хватит знаний, чтобы всё охватить — такие переводы будут непрофессиональными. Другие области (кроме ИТ) далековаты от нас. Разве что какое-нибудь проектное управление ещё можно было бы затронуть, но тоже в ограниченном варианте. Переводом конкретно DSS мы занялись, поскольку тема очень актуальная не только в России, но и в мире. Если не совершенствоваться в ней, то можно однажды оказаться позади…
      • 0
        Ого, спасибо за развернутый ответ! :)

        В плане «вложиться в обучение английскому» я имела ввиду, например, сделать МООС по английскому для русскоязычных людей. Наверняка же в России есть какой-нибудь свой проект с разными МООС. Или вот ВШЭ делает с курсерой курсы, кажется, по машинному обучению, на русском. Наверное, можно объединиться с каким-либо университетом и сделать курс английского.

        А насчет ИТ я, конечно, узковато сказала, я имела ввиду действительно сферы, которые быстро развиваются.
        • 0
          Мне кажется, это отличная идея :) Её было бы неплохо озвучить той же ВШЭ как провайдеру качественного контента для русскоязычной аудитории. Тут только надо понимать, что эффективность таких курсов может быть весьма ограниченной в силу отсутствия личного общения учащегося и учителя.
      • 0
        Огромный барьер между прослушиванием курса на русском и дальнейшим гуглением английских терминов можно сокращать, давая у каждого придуманного русского термина его англоязычный оригинал. Об этом часто забывают, надеюсь у вас не так.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разработка