Что общего у монахов, оптического распознавания текстов и козьего сыра?

    Если вы ответите «ABBYY FineReader», то будете правы. Некоторое время назад в американский офис ABBYY обратился отец Григорий, настоятель монастыря Святого Григория Паламы (St. Gregory Palamas Monastery), с просьбой помочь решить необычную задачу, которая стояла перед монастырём. В монастыре хранится архив старых документов на греческом языке с политонической системой диактрики, которые нужно было оцифровать. Узнав об этом, наши американские коллеги подарили настоятелю коробку ABBYY FineReader 10 Professional Edition. Что это за система и почему отцу Григорию понадобился именно FineReader – читайте под катом.

    Греческий – один из самых древних письменных языков мира и имеет богатую историю (подробности можно прочитать хотя бы в Википедии). До 1982 года в письменном греческом языке была принята политоническая система – для обозначения ударений и придыханий использовались надстрочные и подстрочные знаки (они называются диактритическими). Выглядит это так:



    Поскольку в современном устном греческом нет придыханий и не различаются типы ударения, с 1982 года на письме также официально применяется монотоническая система с одним знаком ударения.

    Распознать документы на политоническом греческом, в принципе, несложно, поскольку большинство современных шрифтов содержат символы с диакритическими знаками. Главным для отца Григория было найти удобную программу, которая позволила бы монахам максимально упростить работу по оцифровке. Выбор пал на ABBYY FineReader 10, который поддерживает современный монотонический греческий с одним знаком ударения. Кроме того, в FineReader для распознавания нестандартных диакритических ударений можно было использовать редактор шаблонов ABBYY FineReader 10 Professional Edition, который обучает программу распознавать нестандартные символы (об этой функции мы подробно рассказывали здесь).

    В политонической системе греческого языка семь диакритических надстрочных ударений. Большинство из них и самые разные их сочетания могут быть использованы с гласными буквами греческого языка. Всего получается чуть более двухсот возможных сочетаний символов с диакритическими знаками. Оставалось обучить FineReader распознавать отдельные политонические ударения и их сочетания. Сейчас программа обучена и монахи готовы приступить к работе.

    Мы надеемся, что благодаря FineReader 10 монахам удастся спасти одно из главных достояний монастыря – древние греческие тексты – и они смогут продолжить свою обычную жизнь в молитвах, учении и труде. В благодарность сотрудники ABBYY получили фрукты, выращенные на территории монастыря и заботливо собранные монахами, лучший козий сыр и копченую лососину, которые они когда-либо пробовали.

    Алиса Рахманова,
    Департамент продуктов для распознавания текстов
    ABBYY 104,26
    Action information
    Поделиться публикацией
    Похожие публикации
    Комментарии 15
    • +3
      Только американские коллеги козий сыр и копченую лососину получили?
      • +3
        До Москвы оно бы не доехало ))
        • +3
          Козий сыр и так имеет довольно специфический запах и вкус, так что в Москве может быть и не заметили бы, что что-то с ним не так )
          • 0
            Обижаете :)) Правильный специфический вкус козьего сыра мы знаем хорошо ))
      • +11
        Первая мысль после прочтения заголовка — «они воняют».
        Но всё оказалось куда позитивнее =)
        • +2
          Как хорошо, что мы не оправдали ваших ожиданий :)
          • +1
            А чем воняет оптическое распознавание текстов?
            • +2
              Меня тоже заинтересовало, пришлось прочитать топик =)
          • 0
            Я же не усну если кто-то в интернете не прав.

            «Поскольку в В СОВРЕМЕННОЙ устной речи [греческого языка (и не только в устной)] нет придыханий и не различаются типы ударения…» (Добавлено и выделено мной). А вот в древнегреческом диалекте койнэ и произношение имеет значение, и написание также. Не всегда, но достаточно часто именно произношение и написание меняет смысл сказанного/написанного. На этом непонимании и живут всякие секты.
            • +2
              Извините, самому приходилось греческие тексты переводить в цифру. ABBYY FineReader оправдывает свою цену.
              • +2
                Спасибо за поправку!
            • +1
              Неделю назад я задавал вопрос в facebook Давиду Яну как раз по этой теме — поддержка древнегреческого языка, на что мне было вежливо сказано, что добавление поддержки нового языка стоит прилично и в данном случае, экономически невыгодно. Монах может научить распознавать одну книгу, а что делать с другой? Отмечу, что гугл индексирует книги на древнегреческом и позволяет искать.
              • +1
                «Мы надеемся, что благодаря FineReader 10 монахам удастся спасти одно из главных достояний монастыря – древние греческие тексты»?

                Для того, чтобы спасти ценную книгу, ее достаточно отсканировать. После перевода в цифру книга спасена. Независимо от того, какие там начертания букв и рисунки. Будет ли потом проводиться распознавание текста, это уже к спасению не относится. Выполнить OCR никогда не поздно.
                • 0
                  То-то я думаю, что меня смущает в этом «спасении»… =) А вот оно что! Спасибо, что сформулировали мои мысли =)

                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                Самое читаемое