11 октября 2013 в 13:01

Померяемся языками, чей длиннее?

Всем привет!

Мы в Alconost занимаемся локализацией программного обеспечения и игр на 60+ языков и часто видим, как разработчики сталкиваются с одной и той же проблемой: в разных языках для передачи одной и той же информации требуется разное количество знаков. В итоге в интерфейсе пользователя некоторые надписи “не влезают” и их приходится сокращать, либо изменять размеры контролов.

Известно, что, к примеру, немецкий язык “длиннее” английского, а китайский — “короче”. Однако вряд ли у кого-то получится сходу точно сказать на сколько один язык более “знакоёмкий”, чем другой.

Нам стало интересно, мы собрали статистику и получили вот такую табличку с коэффициентами для примерно двадцати языковых пар — под катом.




Язык оригинала Язык перевода На сколько текст на языке перевода больше (+) или меньше (-) оригинала
Английский Французский 21.18%
Английский Испанский 19.52%
Английский Итальянский 17.91%
Английский Немецкий 16.67%
Английский Нидерландский 13.80%
Английский Португальский (Португалия) 14.29%
Английский Португальский (Бразилия) 12.96%
Английский Польский 9.33%
Английский Русский 9.11%
Английский Чешский 3.70%
Английский Арабский -6.25%
Английский Японский -39.68%
Английский Корейский -44.04%
Английский Китайский (Упрощенный) -61.97%
Английский Китайский (Традиционный) -63.80%
Русский Английский 1.39%
Русский Итальянский 12.48%
Русский Испанский 13.76%
Русский Немецкий 14.26%
Русский Французский 16.06%
Итальянский Русский 3.57%

Как считали?


Расчет произведен на основании данных сервиса живого онлайн перевода Nitro (это как Google Translate, только перевод выполняется живыми переводчиками-носителями языка). По мере работы сервиса там накапливаются так называемые параллельные тексты (оригинал на одном языке — перевод на другом).

И вот мы взяли последние 1000 заказов в Nitro по каждому из направлений перевода, для каждого заказа нашли отношение количества знаков в тексте перевода к количеству знаков в тексте оригинала, отсортировали получившиеся значения и выбрали серединное значение (медиану). Таким образом мы получили наиболее вероятное отношение.

Выводы


Примечательно, что при переводе с английского на русский, длина текста вырастает на 9.11%, а при переводе в обратном направлении… снова вырастает, но всего на 1.39%. Это может говорить о том, что переводчики используют больше слов, чтобы не потерять и передать смысл текста правильно в ущерб лаконичности. Мы же были уверены, что получим симметрию т.е. меньше английского текста при переводе с русского — оказывается в реальной жизни это не так.

Мы так же были много лет уверены, что немецкий текст вырастает на 30% при переводе с английского (эта цифра кочует из презентации в презентацию о локализации программного обеспечения разных докладчиков и так же встречается в документации для разработчиков Microsoft), но это не так — рост всего 16.67%.

Суперкороткий (более чем в 2.5 раза!) китайский текст заставляет хорошенько задуматься над тем, как будут выглядеть наши приложения и вылизанные до пикселя игры для iOS будучи переведенными на это язык.

Надеемся, эта информация пригодится не только для удовлетворения любопытства “так какой же язык самый лаконичный?”, но и для решения практических задач, например, для определения максимальных размеров полей и контролов при подготовке к локализации приложения, игры или сайта.

Обещаем не забывать об этой инициативе и обновлять, уточнять статистику, добавлять новые направления перевода на радость разработчикам и менеджерам по локализации.


Об авторе

Alconost занимается локализацией приложений, игр и сайтов на 60 языков. Переводчики-носители языка, лингвистическое тестирование, облачная платформа с API, непрерывная локализация, менеджеры проектов 24/7, любые форматы строковых ресурсов.

Мы также делаем рекламные и обучающие видеоролики — для сайтов, продающие, имиджевые, рекламные, обучающие, тизеры, эксплейнеры, трейлеры для Google Play и App Store.

Подробнее: https://alconost.com

Автор: @alconost
Alconost
рейтинг 118,16
Локализуем на 62 языка, делаем видеоролики для IT

Комментарии (107)

  • –147

    Прошу близко к сердцу не воспринимать )
    • +64
      Ну, боевой язык, всё правильно.

      Сложно не принимать близко к сердцу текст, вставленный картинкой с нездоровым размером шрифта.
      • +4
        Кстати, в варианте этой картинки — совсем не отчетливое общение. После такого приказа не понятно куда, что, кого и т. д. (если это, конечно, заранее не оговорено). А на поле боя вряд ли есть время подумать что означает это слово, у которого миллион значений.
        • +1
          В том и фокус, что формальный язык приказа слишком длинный, так как не опирается на контекст. Солдат, получивший приказ, не должен думать — он должен сразу действовать. Но если в области видимости только две цели, а командир стоит за спиной у стрелка, значит приказ «ё*ни по левому» будет воспринят однозначно и формула типа «Произведите выстрел по цели 123» — избыточна.
          • +2
            Можно сказать «огонь по левому» :) Но в вашем примере приказ четкий. Проблема как раз в приказе «е*ни» без какого-либо указания цели. Какой смысл в офицере, если он не может свои мысли сформулировать четко и понятно? Если солдат видит один вражеский танк и он ведет огонь, ему понятно что с ним нужно сделать и без приказа (если перед этим не было приказа не вести огонь). Если танков 10, то офицеру виднее что приоритетней, и это не задача солдата выбирать цель, он будет атаковать на свое усмотрение, пока ему явно не скажут какой важнее и что с ним нужно сделать.
            • +1
              Я думаю, тут и детали звучат лаконичнее. «Е*ни по той желтой по*ни», а не «Огонь по дальнему танку Пантера Е-350». Я не знаю точно, но мне кажется классификация НАТО боевых единиц как раз и призвана сократить такой приказ. Но у нас часто в эпических ситуациях люди понимают друг друга с бесконечной точностью, используя только мат и междометия.
      • +11
        Просто этот комментарий показывает, насколько изменяется размер текста при записи его в виде картинки ;)
        • +5
          Я бы даже сказал, что этот комментарий доказывает прямопропорциональность размера текста количеству минусов.
    • +57
      Помню, пару лет назад, я стал замечать в интернетах картинки, на которых изображен текст. Вот тогда я почувствовал себя старым пердуном: «В мое время — писали текстом, а не картинками...».
      • +4
        Вы-таки не поверите, но в такой ситуации я тоже себя чувствую старым пердуном, хотя родился с товарищем Paul_Smith в один день.
        • 0
          Просто этот товарищ с пикабу какого-нибудь (прошу не воспринимать это как рекламу ресурса)
          • +5
            А я с луркмора и двача, но все-таки не пытаюсь без необходимости смешивать разнородные субкультуры.
      • +22
        В наше время картинки делали из букв, ascii art
        • +5
          Ага, а потом пришли эти ANSI артисты со своими новомодными цветами! :)
        • –1
          Реквестирую картинку с изображением картинки из букв.
          • НЛО прилетело и опубликовало эту надпись здесь
          • +1
            Типа такой?
            image
            • 0
              =)
      • 0
        Самое забавное — что это действительно работает.
        Если запостить, например, вконтакте картинку с текстом и добавить к ней просто текст, то пользователи в любом случае сначала прочитают текст на картинке, а уже потом — сопровождающий текст, вне зависимости от размера шрифта.
        • 0
          Ну, все верно. Сначала изображение, потом подпись к ней(вне зависимости текст до или после изображения). Всё ок, имхо.
        • НЛО прилетело и опубликовало эту надпись здесь
  • +16
    Текст на 176.25% короче оригинала — это вы хорошо померили.
    • +12
      Им Чуров помогал.
    • –7
      А что вызывает у вас сомнение в размере? Получается, что текст в 2.7625 раз короче, если я нигде не ошибаюсь.
      • +3
        Сама формулировка не очень удачная.
      • +3
        В 2.7625 раз короче — это M = N/2.7625. А на 176.25% — это M = N — N*176.25/100.
        • +2
          Прошу прощения за ошибку. Неправильно сработал переход с «на Х% больше/длинее» на «на Х% меньше/короче».
          • +1
            Перечитывая ваш комментарий очень хорошо понял, что можно назвать «привычным вывихом восприятия».
      • +5
        в 2.7625 короче это -63,8%
        • +1
          Да, все верно, обновили таблицу. У нас при верстке к значению отношения пририсовался знак процентов. Теперь все ок, исправлено на проценты. Спасибо, что заметили.
    • +1
      Ну текст отрицательной длины, чему вы удивляетесь?
      • +1
        Исправили :)
      • +1
        Текст в другую сторону пошёл, например вниз.
        • +2
          В таком случае длина текста приобретает комплексное значение.
          • +2
            И в тексте появляется вымысел.
      • +2
        В таком случае все проще: текст пишется справа налево.
  • +11
    У, шаманы! Перевели английский на русский — вышло на 8,35% длиннее. Перевели обратно — получили на 8,35% короче? Нет, на 1,37% длиннее. Можно переводить туда-сюда и дойти до бесконечности.

    Очевидно, сравнивали не слова, а тексты. А переведенный текст будет всегда длиннее оригинала.

    Ну и так вот сравнивать фонетическое письмо с иероглифическим не очень корректно.
    • +4
      С точки зрения языкознания — может и некорректно, а вот с точки зрения локализации — очень даже. Делаешь программу на английском с планируемым переводом на немецкий — сделай кнопки на 14.29% шире и т. д.
      • +2
        Тоже неверно. 1 дело передавать смысл большого текста, другое — заменить 1 устоявшееся выражение другим. Не «Увеличить размер данного приложения до размера экрана и убрать заголовки», а «Полный экран». Да и на 1 фразе погрешности куда выше и надо смотреть на конкретный пример, а не статистику. Толщину прозы уже оценить можно более достоверно.
        • 0
          Я и не говорю, что исследование идеально, вон ниже дельные замечания делают:

          habrahabr.ru/company/alconost/blog/197146/#comment_6838562

          Просто в данном контексте иероглифы и буквы — это всего лишь символы. И есть практическое применение такому исследованию. А его качество — это уже другой вопрос.
          • +3
            С иероглифами есть ещё другой нюанс: поскольку иероглифы сложнее букв, их надо делать крупнее, чтобы текст оставался читабельным. По личному опыту, при переводе с английского на японский суммарный объём текста в страницах практически не меняется.
      • +1
        Не надо так делать, пожалуйста. Сделайте кнопки разиновыми. Всё что содержит текс должно тянуться. И будет хорошо. Ещё шрифты потому что разные. По символам некорректно считать.
        • +1
          Это само собой. Но примерные различия стоит учесть.

          Рассмотрим крайний случай: я создал интерфейс на китайском, разместил 10 кнопок в ряд. Потом перевел на русский. И все кнопки, увеличив ширину начали либо занимать неприлично много места, либо разъехались по нескольким строчкам. На практике такое часто бывает, менее драматично, правда.

          Я пытаюсь сказать что сами элементы должны быть резиновыми, но место, куда они будут тянуться, нужно предусмотреть заранее.
      • 0
        С кнопками как раз не работает, там длина изменяется в разы, всем Überspringen, поцоны!
    • +1
      > А переведенный текст будет всегда длиннее оригинала.

      Не всегда. Переводить можно по разному. Можно дословно, а можно так, чтобы просто передать смысл фразы (причем в этом случае тоже куча ньюансов, если ЦА «в теме» контекста — то можно обойтись короткой фразой, а если нет — то получается длиннее).
      Да и с дословным переводом тоже не все так просто. Во всех языках есть некие устойчивые обороты, аналогов которым может и не быть на другом языке, соотв. длина перевода тут увеличивается (либо уменьшается, зависит от направления перевода).
      • +6
        >переводить туда-сюда и дойти до бесконечности

        Вспомнилась статья Переслегина, где затрагивалась тема многократного перевода:
        В одном из таких экспериментов коротенькая фраза «С “пепси” к новой жизни!» обернулась следующим «жутким, додревним» заклинанием: «Шипучая вода поднимет ваших предков из их могил».
    • 0
      В контексте задачи — правильно, т. к. требуется оценить — сколько места будет занимать надпись на экране. Вот с точки зрения произношения — некорректно, но это и не ставилось за цель.
  • +22
    Картинка не совсем корректна. Если перевести дословно с немецкого на русский слово «Kugelschreiber», то получится «шариковая ручка», что на один знак, считая пробел, длинее немецкого эквивалента. А «ручка», на самом деле, переводится как «Stift» и имеет, как и в русском варианте, 5 знаков.
    • 0
      На английском тоже ballpoint pen будет длиннее. Испанский совершенно не знаю, но что-то мне кажется, что там тоже шариковая ручка, а не просто ручка.
      • 0
        На иврите, для разнообразия, написано правильно: «ручка» = «Эт» (всего 2 буквы).
    • +8
      Кроме, того, в разговорной речи немцы называют её Kulli
    • +2
      Тоже самое с китайским: шариковая ручка пишется в три знака, а не в один.
  • +4
    Какое-то бессмысленное исследование
    • +2
      Смысл у исследования есть. А вот корректность его вызывает сомнения.
      Особенно выбор метода исследования в связке с UI.
  • +18
    Позанудствую.
    Если пишете длинное «Kugelschreiber», то по-русски полностью будет ещё длиннее: «шариковая ручка», а если используете короткое разговорное «ручка», то в немецком разговорное слово будет ещё короче: «Stift».
    Постоянно натыкаюсь на перевод по словарю или гуглотранслэйтом в приложениях.
    Позанудствовал.
    • 0
      /занудство ON

      Да, подмечено верно — еще просто schreiber.

      У нас с офисе народ обычно так говорит именно про ручки.

      Собственно Kugelschreiber заставило задуматься над профессионализмом переводчиков.

      /занудство OFF
      • 0
        Проверить уровень профессионализма переводчиков легко: напишите нам на nitro@alconost.com пару строк о себе, получите в ответ купон на пополнение счета и сделайте заказ на перевод на немецкий.
        • +1
          Нет уже, извините — с русскими я давно зарекся работать уже — после таких пользователи жаловались, что переводы были сделаны гуглом, хотя обещали переводы нативами.

          Ну и еще пара стоп-факторов — с теми, кто продвигается спамом я не работаю принципиально и в название у вас созвучно «алгогольной» теме.

          Плюс не вижу смысла менять проверенных партнеров, с которыми давно и успешно работаю — тем более делать проверку за собственные деньги.
          • 0
            Тест системы осуществляется не за ваши деньги. Купон на пополнение счета предоставляется бесплатно.

            Спамом мы не занимаемся, наверное вы нас с кем-то путаете.
            • 0
              Был недавно спам от вас с предложениями аналогичными вашему сообщению выше — если не вы лично, значит кто-то из сотрудников отличился.
      • +1
        В советских школах в конце восьмидесятых других ручек не было. И на уроках немецкого давали только один перевод — Kugelschreiber. Сразу же, прям в четвёртом классе. Kugelschreiber, Bleistift und die sowietische Regierung. Очень удобные для четвероклассника слова :-)
        • 0
          Именно. За много лет жизни в Германии «Kugelschreiber» я слышал наверное единожды — на уроках немецкого русской тетки. В дикой природе не встречал употребления слова именно в такой форме.
  • +4
    Среднее значение, конечно, хорошо, но мало. Надо еще и дисперсию посчитать.
    А то увеличите на 14% поля, а в результате половина текста поместится, а половина не поместится. А надо, чтобы всё поместилось с вероятностью 99.9%.
    Может тогда и вылезут те 30%, рекомендованные гайдлайнами. У нас, кстати, тоже резерв 30% от английской версии.
    • +1
      С точки зрения баз данных русский самый длинный, т.к. там каждый символ требует 2-х байт. Это акктуально для тех же полей описания приложений в App Store. Русский приходится сокращать намного сильнее.
      • 0
        А что насчёт других юникодных языков вроде иврита и арабского? Всё равно короче?
        • 0
          На эти не переводим, т.к. объем рынка никакой там, но японский и китайский намного короче — не приходится сокращать.
  • +1
    Несмотря на «исследование», на практике самым коротким языком, как ни удивительно, чаще всего оказывается английский, даже не китайский. Чтобы убедиться, достаточно хоть раз посмотреть какой-нибудь фильм, скажем, с китайским хардсабом и английским поверх.
    • +4
      А ещё короче — кириллический английский, лайк зыс ван) Не очень в тему, но всегда удивляло, как в английском (и других европейских языках) могла укорениться такая чудовищная письменность. Настолько дурацкая, что даже пришлось придумать ещё одну, чтобы понять, как же всё-таки это произнести.
      • 0
        В каких других? испанский, польский, немецкий пишутся как читаются, думаю большинство других языков также. А в английском просто очень давно не проводили реформ. Вот и пишут так как эти слова читались сотни лет назад, а не так как сейчас.
        Деванагари или кхмерская письменность гораздо более чудовищными должны вам показаться, я думаю)
        Что касается меня, то я влюбился в корейское письмо уже давно.
        • 0
          Про польский ничего не знаю, а про немецкий с испанским вы, должно быть, шутите. На вскидку:

          Немецкий:

          Sch = «Ш»
          Tsch = «Ч»
          S = или «С» или «З»
          H = в начале слова «Х», в середине слова беззвучен, если не предварён «C».

          И т.д. и т.п.

          Испанский:

          J = «Х»
          H = не читается никогда.
          B / V = «Б» или «В», в зависимости от контекста
          Две идущие подряд «C» = внезапно, читаются как «КС»
          G = вообще «Г», но перед гласными «E», «I» — «Х»
          GUE, GUI = «U» не читается. Но если надо, то меняем «U» на "Ü" и читаем "Ü" как «У»

        • 0
          Например во французском этот изъян тоже явно присутствует, про другие сказали выше.
        • 0
          Насколько я слышал, тут дело не только в том, как слова читались сотни лет назад, а еще и в том, что писцам платили за длину текста. Вот и возникал соблазн добавить букв, чтобы было подлиннее. Хотя, может, и выдумка:)
    • 0
      Ну не знаю… У нас при локализации китайский был единственным из использовавшихся языков, на котором практически не приходилось править размеры контролов (а когда приходилось, то в большей части случаев в сторону уменьшения). Вообще, для меня был приятный язык — и с точки зрения лаконичности, и с точки зрения ускорителей — на иероглифы их не повесишь, так что просто использовались английские.
      А самым неприятным был итальянский, наверное — он и длинный, и букв в нем мало, так что часто возникали проблемы.
      • 0
        Подозреваю, что на отдельных словосочетаниях он выигрывает, на чём-то длиннее уже не всегда.
      • 0
        Кстати, об акселераторах. Я их среди языков с нефонетическим письмом видел только рядом с японским. Например, Skype.
        Японский

        Китайский упрощенный
        • 0
          У нас они и в китайском были. Так же делали, как в Вашем примере с японским.
      • 0
        У меня такой вопрос. А как с размером шрифта? Мне кажется, печатать иероглифы нужно крупнее, чем буквы. Я не спец, но просто видел, для меня если в знаке очень много черт он при малеьком размере становится очень тяжелым для восприятия.
        • 0
          Именно так, иероглифы печатают более крупным шрифтом; кроме того, иероглиф вписывается в квадрат, поэтому текст выглядит словно набран моноширинным шрифтом.
        • 0
          Ну, печатать интерфейс мы не печатали, конечно. А так размеры были одинаковые для всех языков. Корейцы и китайцы не жаловались вроде. Возможно, изначальный размер был для европейских избыточным, кстати.
  • 0
    В интерфейсах подавляющее большинство пунктов меню состоят из одного существительного (файл, правка, настройки) или одного глагола (вырезать, удалить, сохранить) или простых словосочетаний, например, глагол + пара дополнений (показать историю, добавить в закладки). Так что усреднять литературные тексты как раз не надо было, просто сравнение средней длины существительного из словаря подошло бы лучше.
    • 0
      У нас большая часть текстов — IT, очень много как раз отдельных строк из интерфейсов программ. Разработчики переводят новые строчки прямо по ходу разработки приложений. Т.е. статистка из жизни, из мира локализации, не литературных текстов.
  • 0
    Английский Китайский (Упрощенный) -61.97%
    Английский Китайский (Традиционный) -63.80%

    А можно узнать, как это так получилось? Кол-во знаков должно было остаться одинаковым для обоих вариантов.
    • 0
      Все просто. Если сравнивать по знакоместам — то получается совсем круто. Большинство китайских слов — двухсложные. Если у нас в оригинале было 2 слова каждое из 6-7 букв, то на выходе — 4-5 знакомест.
      Например: Connect — 链接.
      • +3
        Я в курсе про словарный состав китайского языка:) Вопрос был в том, как у них получился разный процент у китайского традиционного и китайского упрощённого. Кол-во «знакомест» там одинаково. Одинаково. Различается только написание иероглифов. И, кстати, даже не всех.
        • –2
          Вы еще скажите, что любой мало-мальский грамотный локализатор знает, что даже для упрощенного китайского — средняя ширина символа далеко не равна латинице/кириллице.
          Даже в приведенных примерах — чётко видно, что один символ на китайском минимум полтора символа других алфавитов.
          • +1
            Ещё раз повторюсь — где здесь звучал вопрос о соотношении «любой вариант китайского — какой-либо не_китайский язык»? Меня удивила разница в процентах между традиционным и упрощённым написанием. Т.к. при одинаковых переводах её быть не должно. Но ниже на мой вопрос уже ответили — habrahabr.ru/company/alconost/blog/197146/#comment_6839676 :)
            • 0
              Ммм, не очень понимаю ваш ответ. Это на какой-то другой пост?
              Если же ошибки нет, то на что именно вы отвечаете? А то вообще бессмысленно.
        • 0
          Возможно, дело в том, что на Тайване используют другие слова для передачи тех же технических терминов. В некоторых компьютерных книжках (типа, Освой Ворд за неделю) встречаются таблички, где сравнивается терминология материковой и тайваньской версий.
          • 0
            о, а вот это интересно! Можете ссылками на литературу поделиться? Ну или хотя бы оригинальными названиями?
    • +2
      Читайте внимательнее условия эксперимента. Брались 1000 переводов для каждой пары языков, а не 1000 текстов переводилось на все языки.
      • +1
        А, ну тогда да, резонно. Спасибо за пояснение:)
  • +2
  • +5
    Почему английский язык обозначен флагом Либерии? У них государственный язык конечно английский, но все же… :)
    • –2
      Уж так дизайнер распорядился. Полагаю, что 50 звезд не вмещались на рисунок 70х47, впрочем как и 13 полос :).
      • +11
        image
        :)
      • +4
        Мдя, народ уже забыл почему английский язык называется английским…
        • +3
          «Вот, вроде бы, английский придумали у вас, а говорите так, что ни чёрта не разобрать!»
  • +4
    По моему опыту — самая жесть — это новогреческий
    пароль
  • 0
    А на финский не пробовали переводить? Язык тоже богатый длиннющими словами.
    • +2
      Они длинные, зато одним словом ого-го сколько сказать можно. Часто замечаю, что у меня в финском предложении 3-4 слова, в русском 6-7.
      • 0
        ага, а еще финны безбожно сокращают слова (почему-то через двоеточие)
        • 0
          Двоеточием не сокращают слова, через него пишется падежное окончание у аббревиатур.
      • 0
        Именно поэтому и интересно кто по длине победит — много коротких слов или мало длинных.
  • +1
    Словом Kugelschreiber вот уже много много лет пользуется лишь «стремительно стремящийся к нулю» процент немцев.
    ГДРовцы сокращали его до Kuli (сравните с Горби и Трабби), а в ФРГ как говорили Stift (штифт), так и сейчас говорят.
  • –1
    Главное не длина языка, а умение им владеть.
  • 0
    Английский -> Русский: +9.11%
    Русский -> Английский +1.39%

    Как так? Почему во втором варианте, тогда не минус?:) Видимо я чего-то не понимаю. Просто думал что если в одну сторону перевод увеличивается, то в другую должен уменьшаться.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разработка