Пользователь
30,2
рейтинг
5 августа 2013 в 13:10

Разработка → Сканеры и копиры Xerox могут менять цифры в документах при копировании

В копировальных аппаратах и сканерах Xerox WorkCentre обнаружился интересный глюк: в некоторых случаях при сканировании/копировании документов они могут менять мелкие цифры. Это неприятный эффект, особенно при копировании финансовых документов.

Скорее всего, баг связан с особенностями работы алгоритма JBIG2 для сжатия бинарных изображений. Алгоритм использует «словарь» из символов и подставляет их в случае обнаружения сходства.

Примеры с копира WorkCentre 7535.
Оригинал Копия

Некоторые другие фрагменты с искажёнными цифрами, сделанные на WorkCentre 7535 (параметры сканирования) и WorkCentre 7556 (параметры сканирования).
Проход / машина Фрагмент 1 Фрагмент 2 Фрагмент 3
Оригинал
Xerox WorkCentre 7535
Xerox WorkCentre 7556, проход 1
Xerox WorkCentre 7556, проход 2
Xerox WorkCentre 7556, проход 3
Анатолий Ализар @alizar
карма
749,5
рейтинг 30,2
Пользователь
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое Разработка

Комментарии (73)

  • НЛО прилетело и опубликовало эту надпись здесь
  • +16
    Зачем что-то делать сложно, если можно просто?
    • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Как тогда продавать новые модели?
  • +5
    Странно. Вроде-же не апрель.
  • +150
    Совершенно непонятно нафига такие алгоритмы в копире. Ужоснах. В жизни не демал что такое возможно, бабки бухгалтерши которые не доверяют этому железному ящику и сверяют ручками оказались правы.
    • +6
      бабки бухгалтерши которые не доверяют этому железному ящику и сверяют ручками оказались правы

      Я не хочу жить в таком мире…
    • 0
      Ну, например для улучшения качества копии через методики super-resolution по единственной фотографии, на подобие вот этого: habrahabr.ru/post/147807/ Там наблюдаются на мелких буковках ровно те же эффекты.
  • +38
    Блин, даже ксероксам нельзя верить! =(
    • +11
      Ксерокс вообще упал в моих глазах, 10 лет назад я работал в газете, которая приобрела здоровенный серьезный Xerox, специально для печати и покупали, потому что брэнд, не подведет. А на деле оказалось, что у этого принтера какой-то феерический баг. Принтер зависал время от времени и так зависал, что даже если его выдернуть из розетки, подождать пару минут, а потом включить — принтер оставался зависшим. Местный сисадмин Кулибин порывался его раскурочить отверткой, но начальство запрещало, потому что принтер был на гарантии. Что происходило дальше? Вызывали «мастера» из сервисного центра, тот нажимал секретную последовательность на клавиатуре и принтер развисал. «Мастеру» платили каждый раз 500 рублей за «ремонт». У начальства лопнуло терпение и они решили вернуть «этот кусок хов..». Xerox отказался принимать обратно принтер. (Дело в России было). Но так как газета была влиятельной, то угроза от начальства, что они не пропустят ни одну рекламу, где упоминается слово xerox даже в частных объявлениях… И xerox забрал свой кусок хов…
      • +2
        я знаю мало слов, которые начинаются на «хов», username
        • 0
          hovercat?
      • 0
        Америкосы вообще известны своим раздолбайством по отношению к чужим региональным настройкам, когда продукты тестируются лишь с родной локалью.
        Скорее всего висла очередь на каком-то наборе локальных символов (хранящаяся на харде), а «мастер» сбрасывал её сервисной командой.
        • +1
          В уважаемых фирмах такое озвучивают клиенту в явном виде. И предоставляют схему электрическую принципиальную.
          • 0
            Согласен, хотя тут речь о большой машине в которую клиенту лезть не положено.
      • 0
        Для начала, такие копиры работают на какой-то своей ОС, которая ещё лет 15 назад по виду давала прикурить Win2000 по сложности настроек.
  • +11
    Офигеть
  • +13
    Сложно поверить — слишком уж бредово.
  • +4
    Надо заметить и желательно доавбить в топик, что пока известны (если я не ошибаюсь) только два аппарата: Xerox Workcentre 7535 и Xerox Workcentre 7556. Это большие копиры и не у каждого они есть. У них судя по всему одни и те же прошивки (061.121.201.09700 на обоих, еще указана 061.121.222.06508 для 7535)
    • 0
      Жалко, у меня 6279… Так бы пошёл экспериментировать.
      • +1
        Ну так поэкспериментируйте. Код же может гулять по разным моделям и прошивкам.
  • +3
    Отличная получилась ссылка со знаком вопроса на конце :)
  • +6
    То есть не зря я каждый раз выставляю качество копирования «максимальное»…
  • +13
    Ну, то что в djvu буквы порой путаются — к этому уже давно привыкли; издержки клёвого сжатия.
    Но вот в ксероксе то нафига такое городить?
    Архивировать всё копируемое и отправлять в АНБ?
    • +6
      К слову, многие[Citation needed] офисные копировальные аппараты сохраняют отксеренные документы во внутреннюю память.
      Если его потом правильно не утилизировать, возможны утечки.
  • +38
    Я всегда думал что копир это тупая железка получающая raw данные с CCD/CMOS сенсора сканера и пихающая их в печатающее устройство… а тут алгоритмы какие то. На бред похоже. Зачем копиру распознавание образов?
    • +4
      Скорее всего потому что он ещё сканер и принтер и им было тупо лень делать отдельный способ передать сырые данные и проще просто отсканировать и распечатать.
      • +3
        Ну дык сканер тоже сырые данные в комп отправляет, а софт затем это сохраняет в виде bmp/png/jpeg(простигосподи)/tiff и т.д. И принтер так же печатает набор бинарных данных, не думаю о том чтобы чето распознать и подменить.
        • +1
          Умные сканеры подобного класса давно умеют и по почте картинки слать и по факсу там, потому вполне возможно что обработка на железке. Быстрее сканит, не надо гору сырых данных по usb или сети пропихивать.
        • 0
          В ряде сканеров есть возможность аппаратного сжатия. И с принтерами тоже не всё так просто (PCL, postscript).
          • +1
            Аппаратное сжатие просто так символы не подменит, надо сперва все данные получить, потом проанализировать и отправлять на печать, в большинстве же сканеров (которые мне попадались), данные сразу уходят в комп, что четко видно на экране (картинка появляктся по мере прохождения датчика). В общем странно всё это. Надо покупать старые б/ушные аналоговые копиры, чтобы сюрпризов не было.
            • +1
              Может быть там кеш, получившийся от предыдущих сканирований.
    • НЛО прилетело и опубликовало эту надпись здесь
      • +1
        И сообщать Куда Следует :)
      • +14
        Представляю удивления сотрудников по борьбе с экономическим преступлениями, когда меченые доллары надо будет зафиксировать копиром.
        • +1
          Блокируются только цветные копии.
    • 0
      Скорее всего, это связано с возможностью разбора по копиям, когда сканируются сразу много страниц, а потом печатается несколько копий с правильным порядком листов (не надо вручную раскладывать). Само собой, на время сканирования все это хранится в памяти. Подозреваю, что на памяти сэкономили.
    • +5
      Искать слова «Бомба», «Президент», «Террорист», конечно же
    • –1
      PRISM >__<
    • +2
      Наш воркцентр 5336 умеет сканировать в пдф с возможностью поиска по файлу, это означает, что производится распознавание.
      • 0
        В оригинале было написано, что OCR был выключен на момент эксперемента.
  • 0
    Немного не по теме. Года два назад, работая админом заметил на какой-то самсунговской МФУшке, что на копию паспорта (на «ксерокопию», с электронной вроде все норм) выводила водяной знак с надписью «КОПИЯ». по моему тоже бред. Вероятно отключается в настройках.
    • +5
      Обычно на документах хитро кодируют надписи, за счет неровной поверхности, которая лампой сканера освещается (или как вариант светится в ИК диапазоне, который CMOS сенсоры хорошо чуют). Какие то документы на старинном копире делали — тоже повылезали надписи, хотя там 100% никакой распознавалки не было и быть не могло.
      • +19
        Т.е. если дословно такое понимать, то получается, что у меня на паспорте изначально написано «Копия»?
        • 0
          Возможно, просто не видно невооруженным глазом. Вот пример dnevniki.ykt.ru/komuccap/442277 — такое кстаии не всегда вылезает, на каком то дешевом сканере у меня так не получалось, а на старинном копире явно видно было.
          • +1
            Это было немножко с сарказмом написано :) Но на паспорте, а я много делал копий своего паспорта, такой надписи не встречал, если она там есть, то получается, что зависит от копира? А тогда это несколько бесполезная штука получается, если не воспроизводится всегда…
            • +1
              У меня на загран паспорте при копировании чето вылезает, на обычном паспорте около фотки вроде бы чето появляется. Не всегда, действительно зависит от копира/сканера. Но я давно не сканил, фотиком быстрее выходит, только края потом срезать, а всякие бабульки не видят разницы сфоткано или отсканено, даже когда небольшая дисторсия заметна.
              • 0
                А, ясно, загранпаспорт не сканил, на российском ни разу не видел такой надписи. Хотя может и правильно, что только на хорошем сканере видно, потому что печатать подделки врядли будут на home/office class устройстве.
          • +2
            Ну бланки дипломные именно такие и есть, у меня тоже появляется при копировании
        • 0
          Я видел такую бумагу в продаже. Типа для печати важных документов. Если снимать копию с такой бумажки то проявляется та самая надпись «копия». Одна организация для всех исходящих документов такую юзает.
      • +9
        Там не неровная поверхность, а просто другая форма растра у фоновой заливки.
        В среднем количество краски то же, и глаз видит равномерный фон. Но при этом частота точек растра совершенно другая, и сканирующий модуль копира с его дискретным восприятием и нелинейной передачей воспринимает этот равномерный фон как контрастное изображение.
        (вспомните классические квадраты для настройки гаммы — полосатый чёрно-белый квадратик и рядом просто серый. Регулировкой гаммы делаем так, чтобы оба квадрата казались одинакового оттенка).

        Совершенно точно «копия» появляется при копировании ж/д билетов (классических, бумажных, которые покупают через кассу)
        • +1
          Спасибо, я только предполагал как такое может быть реализовано, а быстрое гугление ничего не дало.
        • +2
          Не, на ЖД появляется (раньше так было, во всяком случае) слово «ФАЛЬШЬ»
        • +2
          ж/д билетов (классических, бумажных, которые покупают через кассу)

          ммм, хрустящие, ламповые!
      • +1
        На электронной копии тогда бы тоже надпись была.
  • +3
    Чудеса в решете. Вот так, путём нехитрых манипуляций, итоговые суммы зарплатной ведомости перестают быть результатом сложения зарплат сотрудников :)) Распишитесь в получении, а потом пусть бухгалтер сходит с ума :))
  • +2
    Прочитав заголовок, подумал что это фича (умышленное изменение)
  • +2
    я не удивлюсь, что копиры скоро будут тайно отсылать данные куда-нить, если стоит какой-нить МФУ в локальной сети с выходом в инет. скопирнул счет-фатуру, а тебе уже звонят, мол, что это у вас циферки не сходятся с заявленными в декларации… приезжайте. сверим сканы… адрес вы знаете.
    • 0
      А я не удивлюсь что такое уже есть.
    • +2
      Был же уже скандал с каким то мфу у которого внутри был винт куда все сбрасывалось (то ли буфер то ли сервис какой то, но по дефолту включен был) и когда этот мфу оказался на помойке кто то его вскрыл, нашел винт и достал много лулзов с него.
  • +1
    >> Зачем так делать
    Обычный алгоритм сжатия по словарю.
  • 0
    Вы изменили мой мир.
  • 0
    Где вы увидели, что он что-то распознает? Просто точность плохая вот и 8 вместо 6 на выхлопе!
    • +4
      У «8» два кружочка друг на друге — видите слева и справа вмятинки? А «6» это кружочек с хвостиком и вмятинки слева нет. Если бы это был лишний пиксель, то 8 получилась бы как 6 только с загнутым до конца хвостом. А там явно видно, что выводится именно 8.
  • +6
    Я такую хрень 8 лет назад наблюдал с файлами DejaVu: david-m.livejournal.com/782830.html. И да, там тоже JB2.
    • 0
      Кстати, оттута цитата:

      -lossy Substitute patterns with small variations. This option enables
      a heuristic algorithm that encodes certain characters by simply
      replicating the shape of a previously encoded character.
  • +2
    Забавно, забавно.

    Особенно на фоне реальных и тщательных «спецпроверок» поставляемой в МВД техники на предмет закладок.
  • 0
    Все чаще и чаще меня начинают посещать мысли о заговоре машин… Они явно что то задумывают
  • –1
    Ох грустно от этого всего, артефакты от оцифровки того что было выведено через цифру… Короче АЦП-ЦАП и обратно, в любом случае искажения в контрасте (не берем в счет цвет) и естественно чем дальше тем больше. Плюс, опять же, сканированное изображение отпечатков. Тут не просто шестерка в восьмерку превратиться, да еще и при таком размере шрифтов, все может ВНЕЗАПНО стать цензурой.
  • 0
    Где-то я читал, что у старых факсов был встроенный алфавит и распознавание, и при сканировании текстовых документов он позволял сильно уменьшить объём передаваемой информации — текст вместо графики.
    Но не думал, что этот модуль до сих пор используется и так глючит.
  • +1
    Читаю отсканированную книгу «Как программировать на С++» и наблюдаю очень много ошибок, и вот только когда увидел «это», вспомнил про этот топик. :)
    Скрин


    Вряд ли в книге допускались бы подобные ошибки.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.