2ball
@2ball
Хардкор кодер

Автоматизированный перегон PDF в SQL

Доброго, человеки.
Приколов в жизни разрабов хватает. Особенно с фантазиями заказчиков. Очередной такой прикол постиг и меня.
Есть каталог запчастей к строительной технике. В формате… PDF.
25 Gb файлов содержат взрыв-схемы, номера запчастей, названия и прочую нужную информацию. И нужно это превосходное количество перегнать в приемлемый формат БД. В данный момент SQL.
Я уверен, что есть текстовый формат. Но предоставлять его никто не будет. Конкуры и производитель в этом не заинтересованы. Всякие AutoCD зашиты в закрытый формат.

Подскажите самый короткий путь от PDF до SQL. Пока мне в голову лезет только PDF->XLSX->Parser->SQL
Но фиг его знает. Вдруг кто сталкивался.

Заранее спасибо за ответы.
  • Вопрос задан
  • 4624 просмотра
Пригласить эксперта
Ответы на вопрос 4
@Ualde
Посмотрите, там близко к теме, особенно в комментах: habrahabr.ru/post/130601/
Ответ написан
KEKSOV
@KEKSOV
Вот еще утилита для извлечения текста multivalent.sourceforge.net/Tools/ Кстати, и у ABBY есть утилита, которая может оказаться полезной

Честно говоря, PDF может быть таким хитро навороченным, что фиг из него чего достанешь в машинно читаемом виде
Ответ написан
@ChemAli
Делали как-то простой поиск по pdf. Конвертили pdf2xml, потом тупо искали по xml.
В вашем случае, думаю, это мало поможет, потому что верстка от страницы к странице отличается, а в xml пишутся текстовые блоки с координатами расположения текста и непосредственно текстом. То есть структурированные данные получить едва ли удастся.
Ответ написан
Комментировать
akalend
@akalend
программирую
PDF -> text -> parser -> sql
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы