30 августа 2014 в 11:42

Internet Archive закачает на Flickr более 14 млн свободных исторических изображений



Один из работников Internet Archive разработал программу для автоматического извлечения иллюстраций из миллионов книг в процессе OCR-сканирования, которое сейчас осуществляет Internet Archive. Калев Литару (Kalev Leetaru) использовал существующий модуль распознавания текста: тот сначала определяет границы иллюстраций, чтобы отбросить иллюстрации перед OCR. Но зачем материалу пропадать?

Все извлечённые иллюстрации были выровнены, кадрированы, очищены и закачаны на фотохостинг Flickr с сопровождающим текстом из книги. Таким образом, возможен полнотекстовый поиск по архиву иллюстраций Internet Archive Book Images, которые находятся в общественном достоянии.

Всего на Flickr закачают 14 млн картинок (на данный момент закачано 2,6 млн).



Галерея картинок из старых книг — очень увлекательное дело. Здесь можно найти и пейзажи, и иллюстрации по кулинарному делу, и ноты, и картинки из медицинских справочников, и старые карты. Каталог иллюстраций приглашает к своеобразному «путешествию во времени»: введите какой-нибудь термин (телефон, самолёт) — и увидите, как эта вещь выглядела раньше.





Многие картинки — это какие-то странные непонятные объекты из прошлого. Без описания и не поймёшь, что это такое.



Наверняка редакторы Википедии найдут подходящий иллюстративный материал, чтобы пополнить многие исторические статьи.

Для каждой иллюстрации указано название книги, год её издания и страница, на которой встретилась иллюстрация. Есть ссылка, чтобы прочитать книгу в онлайне (все они опубликованы на сайте Internet Archive). В рамках этого проекта оцифровано уже 600 млн страниц.

Любой желающий может делать с этими изображениями что угодно, включая использование в некоммерческих или коммерческих целях, повторную публикацию, редактирование и т.д.
Анатолий Ализар @alizar
карма
751,5
рейтинг 24,6
Пользователь
Самое читаемое Управление

Комментарии (24)

  • –1
    Я что-то не понял, они вручную выровняли, кадрировали, очистили и сопроводили текстом 14 млн фотографий? Мне казалось, сделать это автоматически чрезвычайно сложно, а вручную, чрезвычайно трудозатратно.
    • +3
      Автоматически конечно. Выровнять/кадрировать несложно, не уверен что подразумевается под «очистили», а текст они и так OCRят для своей исходной задачи, так что просто прилепили текст с той же страницы к картинке.
  • +2
    Там только 2.5 мил. Откуда 14, или ещё не всё выложили?
    • +3
      Скорей всего понемногу добавляют. Сейчас туда зашел и там ~2,6 млн.
  • НЛО прилетело и опубликовало эту надпись здесь
  • +1
    О, а чем бы их оттуда одним махом скачать в оригинальных разрешениях?
    • НЛО прилетело и опубликовало эту надпись здесь
  • +2
    Без описания и не поймёшь, что это такое
    Последнее фото — что же это? А то ночью не засну.
    • НЛО прилетело и опубликовало эту надпись здесь
      • +5
        Что-то онкологические судя по всему. Похоже на опухоль кожи эпителиального происхождения. В частности видны участки распада опухоли из-за нехватки питания. Опухоль растут быстрее, чем сосуды, которые её питают.
        • 0
          Не совсем. Я ниже привёл ссылку. Это келоид.
          • 0
            Все же скорее опухоль.
            Характерно, что келоидные рубцы практически никогда не изъязвляются.

            На снимке видны участки распада. Плюс, в приведенном вами описании:
            keloid growth or tumor
            • 0
              Я воспринял это «or» как признак синонимичности (в представлении автора книги) понятий келоид и опухоль в данном контексте. Но, возможно, вы правы.
              • +2
                Трудно что-то конкретное сказать по подобному снимку)
      • 0
        Находил я там картинки с разрезом на животе, ничего о женских органах и рядом нет.
        Скорее всего это демонстрация как зашивать операционный разрез живота.
        Страницы 22-26 той книги, а ссылку на неё уже дали ниже.
        • НЛО прилетело и опубликовало эту надпись здесь
      • +1
        Вилки это ранорасширители, вероятно.
        image
        Подробнее можете посмотреть на Википедии.
    • 0
      Вот описание из оригинальной книги:
      Postoperative keloid growth or tumor following an operation for abscess of right kidney

      Кстати, номер страницы на flickr указан неверно (или по другому изданию).
      • +1
        Скорее всего это номер страницы в «файле», который (номер) может отличаться от нумерации в книге.
        Там в ссылке перед номером страницы присутствует символ n, который, судя по всему, задает номер страницы в файле.
        Без этого символа открывается страница, которая примерно соответствует нумерации в самой книге.
  • 0
    Ещё бы они «Internet Archive» в углу не ставили и вообще было бы для Википедии замечательно (там это по крайней мере не приветствуется и уотэрмарки убирают путём Фотошопа).
    • НЛО прилетело и опубликовало эту надпись здесь
  • +2
    Должен заметить, что это далеко не первый, но один из лучших импортов графических изображений в раздел Commons на Flickr.
    Большинство музеев и архивов не могут или не хотят по каким-то причинам расставлять тэги и заполнять описания. Иногда там действительно совершенно непонятно что снято или нарисовано, потому что подпись имеет содержание вроде «какие-то солдаты», «дом, предположительно — 19й век».
    Правда, есть неприятная сторона самого Flickr — поиск там крайне дрянной, если не использовать API напрямую.
  • +1
    Как они так обрезают? Есть же явная граница.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.