Pull to refresh
0
Content AI
Решения для интеллектуальной обработки информации

Что общего у монахов, оптического распознавания текстов и козьего сыра?

Reading time 2 min
Views 13K
Если вы ответите «ABBYY FineReader», то будете правы. Некоторое время назад в американский офис ABBYY обратился отец Григорий, настоятель монастыря Святого Григория Паламы (St. Gregory Palamas Monastery), с просьбой помочь решить необычную задачу, которая стояла перед монастырём. В монастыре хранится архив старых документов на греческом языке с политонической системой диактрики, которые нужно было оцифровать. Узнав об этом, наши американские коллеги подарили настоятелю коробку ABBYY FineReader 10 Professional Edition. Что это за система и почему отцу Григорию понадобился именно FineReader – читайте под катом.

Греческий – один из самых древних письменных языков мира и имеет богатую историю (подробности можно прочитать хотя бы в Википедии). До 1982 года в письменном греческом языке была принята политоническая система – для обозначения ударений и придыханий использовались надстрочные и подстрочные знаки (они называются диактритическими). Выглядит это так:



Поскольку в современном устном греческом нет придыханий и не различаются типы ударения, с 1982 года на письме также официально применяется монотоническая система с одним знаком ударения.

Распознать документы на политоническом греческом, в принципе, несложно, поскольку большинство современных шрифтов содержат символы с диакритическими знаками. Главным для отца Григория было найти удобную программу, которая позволила бы монахам максимально упростить работу по оцифровке. Выбор пал на ABBYY FineReader 10, который поддерживает современный монотонический греческий с одним знаком ударения. Кроме того, в FineReader для распознавания нестандартных диакритических ударений можно было использовать редактор шаблонов ABBYY FineReader 10 Professional Edition, который обучает программу распознавать нестандартные символы (об этой функции мы подробно рассказывали здесь).

В политонической системе греческого языка семь диакритических надстрочных ударений. Большинство из них и самые разные их сочетания могут быть использованы с гласными буквами греческого языка. Всего получается чуть более двухсот возможных сочетаний символов с диакритическими знаками. Оставалось обучить FineReader распознавать отдельные политонические ударения и их сочетания. Сейчас программа обучена и монахи готовы приступить к работе.

Мы надеемся, что благодаря FineReader 10 монахам удастся спасти одно из главных достояний монастыря – древние греческие тексты – и они смогут продолжить свою обычную жизнь в молитвах, учении и труде. В благодарность сотрудники ABBYY получили фрукты, выращенные на территории монастыря и заботливо собранные монахами, лучший козий сыр и копченую лососину, которые они когда-либо пробовали.

Алиса Рахманова,
Департамент продуктов для распознавания текстов
Tags:
Hubs:
+25
Comments 16
Comments Comments 16

Articles

Information

Website
www.contentai.ru
Registered
Founded
Employees
101–200 employees
Location
Россия