Pull to refresh
0
Content AI
Решения для интеллектуальной обработки информации

По следам ошибок распознавания

Reading time 4 min
Views 11K
Перекличка в армии
— Иванов!
— Я!
— Петров!
— Я!
— тридцать-тридцать!
— ???
— тридцать-тридцать, есть такой???
— Товарищ лейтенант! Моя фамилия Зозо.

Анекдот.


Все мы знаем, что программы распознавания документов иногда ошибаются. Действительно, если бы они не ошибались, не нужен им бы был развесистый пользовательский интерфейс с текстовым редактором. Наш FineReader, увы, всё ещё не исключение, но не в этом суть. Программы распознавания существуют уже довольно давно, столько же существуют и их ошибки… Кто из нас не сталкивался с фразой вроде «иду но дороге» в оцифрованной книжке? Давайте сегодня поищем эти милые шалости распознавалок, посмотрим, как они в конечном счёте повлияли на наш язык, как наблюдаемый объект – попробуем заметить статистически уловимые аномалии. Да, разумеется, при серьёзном языковом исследовании лингвист наверняка сумеет отделить зёрна от плевел, но, вот увидите, плевелы тоже весьма интересные попадаются.

Сразу оговорюсь. Не все найденные аномалии ведут происхождения от FineReader’а, хотя ко многим он приложил руку. Итак, начнём.

Начнём с милого персонажа, пса Фафика. Слышали, наверное, про «Мысли людей великих, средних и пса Фафика»? Оказывается, его можно строить. Запрос «построение фафиков» (без кавычек) стоит более 3,5 тысяч гуглов. Используются для этого специальные «компьютерные профаммы» (более 3 тысяч гуглов без кавычек). Впрочем, «профаммы» без уточнения набирают аж 11 тысяч гуглов. Замечательное слово «офаничение» отстаёт – всего-то тысяча с лишним.

Как не вспомнить любимое игроками в «Эрудит» слово «па»? Особенно хорошо оно нынче употребляется. Скажем, «па фоне» (в кавычках) собирает 5,5 тысяч гуглов, «па столе» (тоже в кавычках) – порядка 3 тысяч, а «па руках» (в кавычках) превышает 13 тысяч.

Электричество – штука опасная. Видимо, 88 тысяч гуглов на запрос «поминальное напряжение ток» (без кавычек) тому свидетельство. Если искать отдельно «поминальное напряжение», «поминальная мощность» или «поминальный ток» (всё без кавычек), то результаты зашкаливают аж за сотню тысяч. Бойтесь!

Есть у нас хороший напиток – морс. Но это слово используется и с прилагательными в среднем роде. По несколько сотен гуглов есть у «чёрное морс», «белое морс», «красное морс» и «балтийское морс».

В Армении (в той её части, которая сейчас принадлежит Турции) есть древний город Карс. Распознавалки стараются, чтобы появился ещё и город Каре. Запрос «армянский город каре» без кавычек стоит 12 тысяч гуглов.

Но что мы всё о русском языке, будто других нет? Вот у соседей, в украинском языке есть предлог «зо». Не очень-то распространённый – это аналог русского «со» (см. «в школу ходить со сменной обувью»). Часто встречается в выражениях «зо років» (более двадцати тысяч гуглов), «зо тисяч» (2,5 тысячи гуглов), «зо днів» (почти восемь тысяч – здесь все результаты указанны для поиска в кавычках) и т.п. Видно, что распознавалки на (в?) Украине не менее популярны, чем в России. И столь же красиво ошибаются.

Думаете, на английский язык распознавалки не влияют? Нет, конечно, вы не могли бы этого заподозрить. Вот, к примеру, есть замечательное английское слово puc. Как правило, пишется курсивом, с заглавной буквы и под рисунком, заканчивается точкой, после него находится цифра. Масштаб явления оценить здесь сложнее, можете поразвлекаться, погуглить puc.1, puc.2 и т.п. в рунете.

Чисто английские вещи тоже нашли своё отражение поисковиках. Выражение «in die room» стоит более трёхсот тысяч гуглов, хотя здесь, думаю, затесалось много лишнего и немецкий артикль тоже вмешался в процесс. Среди найденного обнаружено замечательное «I turn die lights off in die room». К слову, сами «die lights» стоят 35 тыщ гуглов.

Искажённый распознавалкой благообразный определённый артикль стал неприятным глаголом, и уж вспомнить неприлично, чем предстал обычный click. Снова оценить масштаб явления непросто, но зафиксировать, что на первых страницах запроса «point-and-dick» оказался неверно распознанный click, можно. Да, господа комментаторы! Предупреждаю, что все пошлые шуточки на эту тему я уже высказал, заставив покраснеть весь наш отдел PR, трёх извозчиков, двух лошадей и полтора московских таксопарка в полном составе – так что ваши несмешные шутки будут не более чем повторением моих – вам оно надо?

Есть английское слово comer (буквально, «тот, кто делает come», посетитель то есть). Словосочетание «comer kick» набирает более полутора тысяч гуглов (в кавычках) и встречается в основном в текстах о футболе.

Довольно многим людям в мире чем-то не нравятся Соединённые Штаты Америки. Их недовольство порой поддерживают и программы распознавания – запрос «United Stales» (в кавычках) собирает более двухсот тридцати тысяч гуглов. Даже странно, что это не стало англоязычным интернет-мемом.

С английским языком наше исследование проводить сложнее. Мне так и не удалось точно и массово вывести на чистую воду те look, которые в реальности нераспознанные took, тех cat, которые когда-то были eat, и даже пару take – lake. Попробуйте, может у вас получится.

C явлениями, аналогичными украинскому «зо», здесь оказалось попроще. Ио – спутник Юпитера, встретился в сочетаниях «Io miles» (более 14 тысяч гуглов), «Io pounds» (ещё пара тысяч), «Io states» (4 тысячи).

Пожалуй, на этой астрономии мы закончим наш распознавательно-лингвистический экскурс. Приятной пятницы и спасибо за внимание!

Дмитрий Дерягин (57DeD)
Департамент разработки технологий
Tags:
Hubs:
+40
Comments 29
Comments Comments 29

Articles

Information

Website
www.contentai.ru
Registered
Founded
Employees
101–200 employees
Location
Россия