Alexufo Oct 8 2020 at 17:24

Восстановление утраченных текстов с помощью современных алгоритмов. Софт

12 min

13K

Image processing*Data visualization*Popular science

Tutorial

+31

Comments 44

drWhy Oct 8 2020 at 18:10

В качестве сканера очень удобно использовать фотоаппарат с управлением с компьютера, таких моделей было много у Canon. Некоторые из аппаратов Panasonic также поддерживали удалённое управление.
Использование Canon SDK позволяло полностью управлять камерой — фокусировкой, вспышкой, выбором режима, можно было делать снимки минуя карту прямо на компьютер через USB. Очень удобно для автоматизации оцифровки.
Как сейчас обстоят дела с удалённой съёмкой не знаю.

Также попадался когда-то сканер формата A3+ с оптической плотностью 3 благодаря полноразмерной подсветке верхней крышки, конечно на ccd матрице, правда с интерфейсом SCSI. Идеально для оцифровки рентгенограмм.

Ещё вполне обычный сканер HP, но с дополнительным аксессуаром в виде подвижной лампы сверху, она передвигалась синхронно с матрицей и также увеличивала динамический диапазон сканера при сканировании прозрачных материалов.

Спасибо за обстоятельные статьи. Успехов в нелёгком но благородном деле.

Alexufo Oct 8 2020 at 18:52

Я подумывал о замене в cis сканерах трех smd светодиодов на ИК из трех диапазонов подходящего по размеру. Не говорю, что можно попасть в технические характеристики… все таки и они там работают в ШИМ режиме с синхронизацией принимающей сигнал стороны. Я не разбирал сенсор, вполне возможно что это нереально, но сама идея очень заманчива по доступности. Иметь три каких нибудь Canon Lide 220 с другими полосами и получается довольно доступный инструмент любого исследователя. Даже глубина резкости может быть приемлемой.

Это вот корочка советского депутатского билета. Она миллиметра 3 толщиной и видны проблемы с резкостью, но все что тоньше 1 мм прикладывается к стеклу хорошо.

drWhy Oct 8 2020 at 23:05

А на ccd разворот фолианта глубиной 3см пробирало без затемнений, ещё очень удобно было сканировать печатные платы с высокими элементами с двух сторон. Прогресс, однако.

Alexufo Oct 8 2020 at 23:08

ага. Еще FineReader поэтому научился определять эти искажения и программно их корректировать перед распознаванием. А на cis уже не получится, зато питание по usb.

PereslavlFoto Oct 8 2020 at 21:52

Спасибо!

Всё это хорошо помогает прочитывать документы из сайта «Подвиг народа» в тех строках, которые замазаны или стёрты.

Alexufo Oct 8 2020 at 22:51

Сложности в том, что там выдается jpg пожатый для веба, а с этим большие проблемы, потому образец для исследования отвратителен. Если можно запросить файл в в формате без сжатия (tiff bmp), это определенно лучше.

drWhy Oct 8 2020 at 23:33

Ещё один отличный вариант — gif. Когда в палитре немного цветов, скажем, до пяти — gif жмёт прямо очень хорошо, и это ведь сжатие без потерь. В идеале вообще 2 цвета: белый и чёрный, для распознавания больше и не нужно, но обязательно без дизеринга. Фон желателен ровный, без пятен и пожелтения, иначе придётся ровнять уровни каждой страницы вручную.

300 dpi достаточно для обычного текста среднего качества, для хорошего 150 и иногда 75 dpi достаточно для сохранения визуальной читабельности и уверенного распознавания в Finereader'е.

Когда-то была мфушка Canon, которая отлично жала в gif — пережать после неё сильнее получалось не всегда.

Ещё в gif сохранял обработанные карты местности, они были достаточно крупные семицветные (вода синий, дороги ЕМНИП коричневый, лес зелёный и т.д) — многие листы очень хорошо поддавались снижению палитры до 8 цветов, на некоторых всё же цвета были пропечатаны неверные, там приходилось расширять палитру. Идея была потом всё это богатство векторизовать, а векторизация по узкой палитре шла идеально, треки можно было легко группировать по цвету. Но потом не пригодилось, нашлась векторная карта готовая.

-1

Alexufo Oct 8 2020 at 23:54

Вы говорите о том, что раз изображение проходит бинаризацию перед распознаванием, то давайте поможем предфильтром (визуальной оценкой глазами) бинаризации через конвернтирование в gif. То есть гиф это не безпотерьный формат, просто мы визуально оцениваем будут ли потери при бинаризации и после этого можем назвать его безпотерьным. Но я не имел ввиду оптическое распознавание софтом, я имел ввиду что если применить PCA и ICA на изображениях с сайта память народа — вы увидите одни квадраты от JPG. А если будет tiff то, результаты могут быть.

Мне присылали файлы с полицейского спектрального компаратора, ИК, УФ и прочие фотки, но в JPG! Там ничего невозможно было сделать. Файлы пожаты!

Gif потому и появился, что было много файлов с ограненной палитрой, типа карт, да.

Но мой любимый трюк это чб bpm в rar — тоже жался раз в 10 :-)

drWhy Oct 9 2020 at 15:35

Наиболее распространённый формат растрового видео до сих пор JPEG, несмотря на его артефакты, наличие вейвлет-преобразования и основанной на нём улучшенной версии JPEG 2000, лишённой артефактов. Соответственно, проблема больших архивов изображений в неразборчивости ввиду использования JPEG с высоким коэффициентом сжатия из соображений экономии дискового пространства.

В случае хранения архивов печатных или рукописных документов gif является идеальным форматом (для хранения именно текста и простых эскизов благодаря их нечувствительности к потере верности оттенков, иллюстрации и буквицы можно хранить в jpg). Степень компрессии из расчёта количества страниц на единицу объёма уникально высокая. При этом сохраняется высокая достоверность формы графем. Также gif давно и прочно является широко поддерживаемым программно и аппаратно форматом.

UFO just landed and posted this here

drWhy Oct 9 2020 at 16:05

Как вяжется удешевление дискового пространства с преобладающим способом хранения архивов в виде пошамканых JPEG'ом снимков с безнадёжной потерей читабельности? В большинстве массовых МФУ при внутренней обработке также преобладает JPEG.

UFO just landed and posted this here

Alexufo Oct 9 2020 at 17:37

я так понял, он имел ввиду, что лучше палитра в 256 цветов, чем jpeg c сильным сжатием, чтобы разглядеть хотя бы что-то глазами.

drWhy Oct 9 2020 at 18:14

Gif ЕМНИП умеет и 64к цветов, но такое решение далеко от оптимального.
Смысл есть в том случае, если палитра документа умещается в 16 цветов без потери информативности. Т.е. подходят все ч/б принтеры, цветные лазерные (нет смешения цветов и создания новых оттенков), термопринтеры, ризографы, типографские машины (включая флексографию) кроме полноцветных.
Не подходят струйные цветные, твердочернильные, термосублимационные, т.е. производящие оттенки путём смешения цветов. Может, что-то забыл.

Alexufo Oct 9 2020 at 18:18

может и имеет, но стандарт вроде бы под палитру 256 цветов + прозрачность. 64к gif это уже bmp :-) При печати на принтере файл все равно пересчитается из любого формата в какой нибудь свой примитив типа bmp.

drWhy Oct 9 2020 at 18:02

Мне кажется, что Вам кажется. Условия, где gif применим уже описывал.
Не упомянул ещё один вариант — документы, отпечатанные на неполноцветном устройстве печати и хранящиеся в нормальных условиях — не пожелтевшие от ультрафиолета, не намокшие и т.д.
Это всего лишь львиная доля всех напечатанных человечеством документов. В этом случае конвертация легко автоматизируется, без потери информативности. Результат подходит для последующего распознавания текста с целью хранения и индексации.

JPEG создаёт новую информацию из-за подверженности артефактам, безвозвратно теряя оригинальную и ухудшая результаты распознавания. При этом он неплохо подходит для хранения превью оригинальных страниц в низком разрешении, не предполагающем распознавания, за счёт хорошей передачи характерной палитры документа, что совершенно излишне именно для целей распознавания текста.

Хранить всё несжатым до сих пор не выглядит приемлемым массово.

Alexufo Oct 18 2020 at 07:33

Если речь про высоко контрастные документы, тогда, gif пойдет, но мне почему то больше png8 нравится. А Jpeg зависит от степени компрессии. До 90 единиц компрессии визуальной разницы нет. Артефакты это 8x8 пиксельная сетка. Если размер шрифта на документе больше 8, то можно и пожать сильнее до 75%.

Так же и у GIF могут быть такие же безвозвратные потери оригинальной информации, если текст внезапно становится слишком мало контрастен по отношению к фону. А потом внезапно попадется бледная печать. И тут можно проглядеть а jpeg 90% ничего не испортит абсолютно.

К тому же, есть еще формат deJаVu который тоже не плохо с этим справляется, вплане читаемости при адовом сжатии. Сейчас может быть вообще стоит HEIF использовать, если не боятся обратной совместимости. А то и AVIF

drWhy Oct 18 2020 at 14:33

На вкус и на цвет…

Основные артефакты jpg — это всё-таки отстоящие повторы контрастных контуров, что как раз и было исправлено в форматах, основывающихся на вейвлет-преобразовании, в т.ч. DjVu. Вейвлет чудесен, но его не везде принимают, ни DjVu, ни JPEG2000.

Иногда, кстати, использовал jpg с невысоким сжатием перед gif — jpg исходно умеет терять наименее важную часть цветовой информации, что в сложных случаях позволяет получать на выходе приемлемый вариант без ручной обработки.

Сложность применения любого формата, отбрасывающего часть информации именно в валидации каждого экземпляра сжатого изображения. Если вдруг посреди многостраничного оригинала встречается страница с другими свойствами, например цветная вставка посреди текста, дефект печати или просто лист, пропитанный непрозрачной жидкостью или выцветший на солнце, такой странице нужно уделить особо пристальное внимание. К счастью, выявлять такие случаи автоматически несложно и к ним можно применять другие алгоритмы сжатия или вовсе оставлять несжатыми.
Но всё это относится в основном к первоначальной обработке оригиналов. Если объект уже сжат с потерей, лучше оставить как есть.

К сожалению, неоднократно наблюдал ситуацию когда уже имеющуюся базу разнородных изображений, накопленную за несколько лет, сжимают автоматически по одному шаблону из-за заканчивающегося дискового пространства или по другим причинам, а через некоторое время обнаруживается, что многие изображения стали нечитабельными. В итоге, к примеру, невозможно по запросу уполномоченных органов предоставить сертификат к товару, проданному несколько лет назад — производителя может уже не существовать.

Почему иногда приходится заморачиваться со сжатием больше, чем хотелось бы — иногда приходилось обрабатывать изображения для формирования пакета документов для передачи, например, в банк для предоставления кредита. А требования могут быть довольно строгими и ~~сумасбродными~~ не всегда обоснованными. К примеру, итоговый документ должен умещаться в 10 МБ pdf файл, как вариант — pdf.zip (что мало помогает, т.к. сжатые изображения архиваторами уже практически не жмутся), или многотомный zip архив с кусками не более 2 МБ, документы подаются онлайн и отклонения просто не пройдут. И это на пакет, включающий устав предприятия, в т.ч. на всяческих непростых бланках с водяными знаками, описание объекта залога страниц на 200 с вклейками А2 из технического плана объекта, грустными ксерокопиями документации, сделанными в прошлом веке, цветными фото и т.д.
10 МБ должно хватать всем.

Moskus Oct 9 2020 at 03:22

16-битный ImageMagick из командной строки вполне справляется с многими задачами, которые нужно автоматизировать.

Alexufo Oct 9 2020 at 03:45

Когда я сканировал пленку в 48bit обычную, 70-х годов на пленочном сканере, на выходе был файл очень бледный, потому что гистограмма изображения выходила довольно узкой. Видимо пленка не содержала в себе той информации, что я хотел извлечь. Я приводил уровни и конвертировал в 8bit без особой визуальной разницы. Но когда речь идет о статистическом анализе изображения, если сканер реально может извлекать максимум из физического носителя, лучше это сделать, потому что будет пересчет с ног наголову на пограничных значениях цветов. Мы не видим — а кто его знает, что там за данные. На сколько это оправдано практически — не знаю, наверное не сильно.

Вообще, стат анализ непростая тема. Очень много математики, которую нужно понять в виде образа в голове. Я бы расписал ее подробнее, но месяца два три на изучение нужно потратить. Потому ограничился двумя встроенными в аналитический софт алгоритмами, которые я встречал в науч. публикациях как основные в 95% случаев.

Moskus Oct 9 2020 at 04:10

Если при самом сканировании вы можете настройками сканера добиться большего числа значащих разрядов без фальшивого растяжения гистограммы, то это имеет смысл. Если не можете — то нет. Работать в 48 бит с изображением может быть более осмысленно, потому что нет потерь (или появления ложной информации) на округлении.

Alexufo Oct 9 2020 at 04:17

Верно. Поэтому я и написал про jpg в шине и tiff на выходе) Никогда не знаешь, что ты купил) Циферки вроде задаешь, а все это все равно черный ящик) Мне казалось, что можно будет найти проект опенсурсного документного сканера. А нет! Оказывается, таких проектов в сети нет. Не сложнее 3D принтера. Как заводили линейные сенсоры на ардуинке вроде видел, но там скорости не те, ардуинка не потянет для удобной работы на полном разрешении, и нет самой важной софтовой части синхронизации механики.

Moskus Oct 9 2020 at 04:33

Ну, перед покупкой сканер лучше действительно попробовать, и понять, что у него с качеством — довольно несложно, достаточно отсканировать высококонтрастный образец не с настройками по умолчанию. Про это, только применительно к фото, много пишет разработчик RawDigger.

Alexufo Oct 9 2020 at 04:58

Я думаю в этом нет большой необходимости. Если подбирать устройство для этих задач, видимо есть бюджет, то лучше не использовать сканер. Или брать тот что уже куплен или работать с цифровой камерой, или с камерой без ИК фильтра. И так все по нарастающей исходя из бюджета вплоть до 20 000$ на систему MegaVision со 100mpx полутоновым сенсором, где размер пикселя с мизинец :-) Это все игры с непонятным результатом, не угадаешь с ситуацией, для первичного анализа надо делать на том что рядом.

Сканеры нужны, когда оператор совсем на вы с компьютером. Удаленно можно обьяснить где включить компьютер и так далее. Могут спросить да, какой нам купить в музей сканнер для общих задач. Ну я смотрю что там у эпсонов обычно топовое на CCD.

Диггера посмотрю, спасибо.

UFO just landed and posted this here

drWhy Oct 9 2020 at 15:43

Вот когда мобильник сможет делать снимки хотя бы плоской страницы без геометрических и цветовых искажений и станет сохранять размер оригинала в снимке, тогда и поговорим ;)

UFO just landed and posted this here

Alexufo Oct 9 2020 at 16:09

Была идея мультиспектрального смартфона. Я даже пытался сковырять с сенсора цветной паттерн, но потом ничего не работало) А когда появились смартфоны с чб матрицами дополняющие цветные, это стало очень интересно! Но производитель не дает эту камеру на уровне api. Да и затачиваться под решение производителя, которое в след году он задеприкейтит получается бессмысленно.

drWhy Oct 9 2020 at 16:13

Взгляните с другой стороны — мобильник, закреплённый на штативе в студии с хорошим светом смотрится странно. За что крепить? Как располагать по отношению к оригиналу? Как заряжать при многочасовой работе? Что с оптикой?
Ну и калибровочная таблица предполагает последующую коррекцию. КМК аппаратный сканер всё же предпочтительнее обоих вариантов.
Но можно, конечно, и мобильник.

Alexufo Oct 9 2020 at 16:25

но есть классный софт с распознаванием жестов. Ты размещаешь сверху мобилку на штативе и даешь ей рукой жест, она дает звук — что распознала, убираешь руку, она делает кадр. Жестов несколько. Можно кажется, даже профили жестами задавать. Чтобы где надо со вспышкой, где надо с другими параметрами. Чумовая идея при потоке. или голосовыми командами. Руками телефон трогать нельзя, чтобы не трясти.

dimka11 Oct 9 2020 at 18:03

Зачем это нужно, если можно управлять с пульта или компьютера?

Alexufo Oct 9 2020 at 18:05

А вы руки не убираете с рабочей поверхности. К клаве надо поворачиваться всегда. Ну, я не настаиваю, просто знаю такие приложения под андройд.

dimka11 Oct 9 2020 at 18:16

Пульт в данном случае был бы идельным вариантом. Можно нажимать кнопку мизинцем или большим пальцем.

Alexufo Oct 9 2020 at 18:19

Можно) А можно и просто вытягивать указательный палец из кулака в правой части экрана.

UFO just landed and posted this here

Alexufo Oct 9 2020 at 18:07

но делают же машинки на ардуинках, квадракоптеры, чего только не повторяют. А сканеры — не хотят)

Alexufo Oct 9 2020 at 16:05

Ой не соглашусь. CCD сканеры мало эволюционировали технически, особо не куда, и довольно хорошо справляются.Скорость да, у старых ниже. А качеством не хуже. Я так понимаю, проблема с современными CIS сканерами. Удобство питания, менее скоростные компоненты… выходят из положения)

А телефоны… оптика не та, там бы объектив градусов от 50 до 120 нужен тогда для документов более менее. А их вечный широкий угл и вечные тени от рук на документе. Даже дешевые сканеры ооочень равномерно освещают документ. Телефонам такое не повторить.
Основной их плюс — это мобильность и скорость. Пришлел в архив, зафотал пруфы. Для исследования все равно нужно что-то лучше

UFO just landed and posted this here

Meklon Oct 14 2020 at 20:18

Огонь, спасибо

makondo Oct 22 2020 at 17:42

Ваш обзор очень впечатляет. Может посоветуете что-нибудь в одной моей проблеме? При сканировании разворотов архивных исторических документов случайно пропустили левую (оборотную) страницу и просканировали 2 раза страницу 208 справа. Я попытался восстановить отсутствующую страницу 207 по проступающим чернилам на правой странице с предыдущего разворота — отразил ее слева направо и поиграл с фильтрами в ACDSEE. Я думаю, что пару фамилий я восстановил, потому что они в контексте всего документа встречались, но в целом разобрать текст сложно.

Задачка немного похожа на то, что Вы делали с расплывшейся рукописью, но у меня не получается. Я думал в направлении нейросети, которая тренировалась бы на массиве страниц с проступающими чернилами другой стороны и доступными оригиналами как размеченным датасетом, но пока для меня реализовать это слишком сложно.

Alexufo Oct 23 2020 at 00:37

пришлите оригинал, скорее всего тут нужно делать упор на статический анализ.

makondo Oct 24 2020 at 15:59

Все 3 jpeg'а я разместил на habrastorage, там сохраняются исходные файлы без изменений, только имена меняются. То есть ссылка на слове «правой» — это правая часть разворота 553 с проступающей пропущенной левой стороной разворота 554, а ссылка на числе 208 — правая часть разворота 554. Скрин — это мои попытки игры с фильтрами, по ней тоже можно загрузить исходный файл. Вот, пожалуйста, все сканы в одной папке, нужные файлы 207 и 208. Я туда добавил и фильтрованный отраженный файл — 207mirr и 207mirr_channel1

Alexufo Oct 24 2020 at 16:47

У вас файлы только с одним каналом. Статистические методы тут не помогут.
Тут остается только баловаться контрастом. highpass может уменьшить разницу в перепадах.

Alexufo May 15 2021 at 19:09

Вообще, есть же еще морфологические особенности в документе! Анализ канонических переменных (Canonical variations analysis ) сейчас вот изучаю, софт для мака, надо под винду его переделать, он должен помочь разделить разные наборы компонентов, но вот не уверен что он даст прирост.

Show the best of all time