Выгрузка условий конкурсов госзакупок с ООС zakupki.gov.ru

Примечания:

Введение


Цитата:
«Официальный сайт Российской Федерации в сети «Интернет» для размещения информации о размещении заказов на поставки товаров, выполнение работ, оказание услуг … предназначен для обеспечения свободного и безвозмездного доступа к полной и достоверной информации о контрактной системе в сфере закупок и закупках товаров, работ, услуг, отдельными видами юридических лиц, а также для формирования, обработки и хранения такой информации.»

Для многих коммерческих и иных компаний система «госзакупок» является основным способом привлечения в хозяйственную деятельность государственных (бюджетных) средств. Информация о закупках товаров, услуг, исследовательских работ, осуществляемых компаниями с государственным участием (и другими отдельными видами компаний) в обязательном порядке (согласно федеральным законам №№ 223, 94, 44) размещается на сайте госзакупок. Коммерческие компании также зачастую публикуют свои тендеры именно на официальном сайте госзакупок.

Ссылки на упоминаемые законы, информация на сайте «КонсультантПлюс»:

Таким образом, информация о конкурсах, публикуемая на сайте госзакупок, является центральным источником актуальных сведений о возможных «государственных» заказах по профилю для множества компаний из самых разных сфер деятельности — от услуг охраны до геофизических изысканий. Поэтому потребность иметь регулярно обновляемые сведения о проходящих конкурсах, попадающих под определенные критерии, возникает у каждой организации, участвующей в госзакупках. В настоящей статье рассмотрим различные способы и практический пример реализации указанной потребности.

Варианты получения сведений о госзакупках


Чаще всего задача ставится руководством перед маркетинговым или IT-подразделением компании примерно в следующей формулировке: «необходима ежедневная сводка по конкурсам госзакупок, удовлетворяющим следующим критериям…». Именно ежедневная, так как иногда между публикацией конкурсной документации и окончанием подачи заявок на него объявляется срок менее 10 дней, в среднем — около двух недель. Времени для сбора всей необходимой документации для участия в конкурсе совсем не много, каждый день «на счету».

Перечислим варианты реализации задачи.

1. Сайт ООС (госзакупок)

Сам сайт http://zakupki.gov.ru/ дает возможности настраиваемого поиска и отбора конкурсов по параметрам.

Недостатки:
  • Поиск работает недостаточно корректно, иногда конкурсы «не находятся». Я свидетель долгой рабы именно через официальный сайт, утверждение мной проверено;
  • Сайт зачастую не работает по ночам и праздникам;
  • Ограничение в количестве результатов. Если поиск выдает более, чем 500 строк, скачивание данных о конкурсах (в виде таблицы .csv формата) средствами сайта невозможно.

Для частичной автоматизации процесса я в своё время написал плагин для браузера FireFox, который должен был делать ежедневное скачивание отобранных конкурсов.

В двух словах плагин формировал адрес в виде примерно такой строки:

"http://zakupki.gov.ru/epz/order/extendedsearch/search.html?"
+ "placeOfSearch=FZ_44"
+ "&orderPriceFrom=" + priceArray[i] + "&orderPriceTo=" + (priceArray[i+1]-1)
+ "&orderPriceCurrencyId=-1"
+ "&orderPublishDateFrom=" + OrderDate + "&orderPublishDateTo=" + OrderDate
+ "&headAgencyWithSubElements=true&matchingWordPlace44=NOTIFICATIONS"
+ "&law44.okpd.withSubElements=true”
+ "&law44.okpd.ids=31301%2C37097%2C50876%2C51122" + "&law44.advantages[MP44]=I&law44.advantages[UG44]=I"
+ "&law44.advantages[IN44]=I&law44.advantages[MPSP44]=I"
+ "&morphology=false&strictEqual=false";

Естественно, для 94 и 223 закона параметры запроса другие. Как видно, ОКПД, диапазон цен и т.п. приходится «зашивать» в запрос, так как иначе количество найденных конкурсов будет слишком большим и результаты поиска можно будет скачать только частично.

2. Специализированные web — сервисы поиска конкурсов

В ответ на запрос рынка несколько компаний организовали сайты поиска информации о проводимых конкурсах. Зачастую такие сайты дают не только сведения о госзакупках, но и о «частных» тендерах с электронных площадок.

Несколько таких систем:
  • Мультитендер.ру: «бесплатная специализированная поисковая система, позволяющая отслеживать госзакупки и коммерческие тендеры»©;
  • TenderCAT: «Каталог TenderCAT предназначен для облегчения поиска государственных и коммерческих тендеров и аукционов в огромной массе ежедневно публикуемых на портале госзакупок (http://zakupki.gov.ru) заказов по всем регионам и направлениям деятельности»©;
  • Ист Бюджет: «Сайт госзакупок и тендеров — лучший поиск и аналитика от Ист Бюджет»©;
  • Закупки 360

И другие.
Отдельно упомяну Госзатраты, о которых на Хабре была статья.

Целью настоящей статьи не является сравнение или анализ указанных ресурсов, так что ни их достоинства, ни недостатки здесь не приводятся.

3. Самостоятельная разработка для скачивания конкурсов.

В некоторых (я знаю несколько) случаях руководство компании, участвующей в конкурсах, ставит очень специфические задачи, касающиеся параметров отбора информации, регулярности поиска или оформления результата поиска. В таких случаях обращаются к IT специалистам, «ручная работа» по мониторингу и отбору конкурсов становится слишком трудоемкой.

Встречаются примеры заказа описанных работ у фрилансеров. Например, на SQL.ru, на Weblancer. Наконец, можно приобрести готовое решение у «проверенных временем» исполнителей. Однако основная часть настоящей статьи описывает процедуру самостоятельного исполнения задачи.

Скачивание данных о конкурсах с http://zakupki.gov.ru средствами Excel VBA


Исходные данные

Основное необходимое знание об источнике данных: у ООС (общероссийский официальный сайт госзакупок) имеется публичный ftp-сервер. При этом если http регулярно (обычно в ночное время и праздничные дни) не доступен по причине «технического обслуживания», то ftp работает (согласно моей практике) вполне надежно.

Адреса ftp серверов разделены по федеральным законам, применяющимся для размещения тендеров:
ФЗ №223: ftp://ftp.zakupki.gov.ru/out/

Логин и пароль:
fz223free

ФЗ №94 и ФЗ №44: ftp://zakupki.gov.ru
Логин и пароль:
free

Структура каталогов для 223 закона вполне прозрачна. Что же касается 94 и 44, здесь расположены следующие интересующие нас подкаталоги:
  1. 94fz каталог, содержащий данные публичных выгрузок в соответствии с 94ФЗ (остальные каталоги — 44ФЗ),
  2. fcs_regions каталог, содержащий данные полной региональной выгрузки опубликованной на ООС информации в соответствии с 94ФЗ.


Остальные каталоги содержат нормативно-справочную информацию, информацию по банковским гарантиям, выгрузки по правилам и в рамках решения задачи не представляют интереса.

Далее необходимые выдержки из разъяснений по процедуре выгрузки сведений об опубликованных документах по региону на FTP-сервер Общероссийского официального сайта, набор цитат:
Полная региональная выгрузка включают в себя все опубликованные на ООС документы следующих типов:
• опубликованные извещения;
• опубликованные изменения извещений;
• опубликованные протоколы;
• опубликованные сведения о контрактах;
• опубликованные изменения контрактов;
• опубликованные сведения об исполнении/прекращении действия контрактов.

Отметим, что в наших целях интересны только извещения (notice). Все остальные виды документов в рамках задачи не используются!
Выгрузка осуществляется в архивируемые файлы формата XML.
В одном файле могут находиться документы только одного типа в количестве, не превышающем 3000 записей. Если количество документов, подлежащих выгрузке, превышает 3000 записей, система формирует несколько файлов и каждый помещает в отдельный архив.
Все сформированные и зархивированные XML-файлы выгружаются на FTP-сервер… файлы в выгрузке разделены по каталогам, соответствующим региону. В каждом каталоге региона есть еще 3 каталога: notifications, protocols и contracts. В каждом из каталогов notifications, protocols и contracts дополнительно есть каталог daily.
Опубликованные документы выгружаются на FTP-сервер в следующем порядке:
· Каждый календарный день (ежедневно) выгружается список документов, опубликованных за предыдущий календарный день. При этом…выгрузка извещений по региону делается в каталог <Наименование региона>/notifications/daily;
· Каждый календарный месяц (ежемесячно) выгружается список документов, опубликованных за предыдущий календарный месяц. При этом…выгрузка извещений по региону делается в каталог <Наименование региона>/notifications;
В ежедневной и ежемесячной выгрузках всегда выгружаются все типы документов, опубликованных за прошедший календарный день или календарный месяц соответственно.
Если на момент формирования выгрузки за истекший период не было ни одного опубликованного документа какого-нибудь типа, то XML-файл с данным типом документов выгружается пустым.
После завершения ежемесячной выгрузки, каталоги с ежедневными выгрузками за истекший месяц очищаются.
Имена файлов региональной выгрузки имеют следующую структуру:
<вид-документа_регион_начало-периода_конец-периода_номер.xml.zip>,
где:
• вид-документа – принимает значение notification, protocol или contract для извещений, протоколов и сведений о контрактах соответственно;
• регион – название региона выгрузки;
• начало-периода – дата начала периода для отбора документов по дате-времени публикации выгружаемых документов в формате yyyyddmm_hhmmss, где yyyy – год, mm – месяц (номер), dd – день, hh – час, mm – минуты, ss – секунды;
• конец-периода – дата конца периода для отбора документов по дате-времени публикации выгружаемых документов в формате yyyyddmm_hhmmss, где yyyy – год, mm – месяц (номер), dd – день, hh – час, mm – минуты, ss – секунды;
• номер – порядковый номер сформированного файла;

Актуальную версию приведенной информации можно скачать с ООС в виде документов «Схемы информационного обмена…».

Описание программы автоматического скачивания конкурсной информации (VBA MS Excel, Windows).

Подготовка

  • Подключаем скриптинг Microsoft Scripting Runtime. Для функциональности FSO (\Windows\System32\scrrun.dll)
  • Подключаем скриптинг Microsoft XML, v.6

Для запроса диапазона дат, в котором следует скачать конкурсы, я сделал userForm с использованием элемента MonthView. Его настройки позволяют развернуть два месяца рядом (предположим, что диапазон не длиннее, чем месяц), показывать текущую дату (красная рамочка), установить выбранный диапазон дат по умолчанию.

Диапазон дат

На примере выбран диапазон с 26 февраля по 4 марта. Выбранные даты считываются со свойств Формы:

MonthView.SelStart и MonthView.SelEnd 

Вот такой фильтр позволяет выбирать файлы (структура имен которых нам известна) в заданном диапазоне дат:

fltr = "*_" & Format(targetDate, "yyyymmdd") & "*" & Format(targetDate + 1, "yyyymmdd") & "*.zip;" & "*_" & Format(targetDate, "yyyymmdd") & "*" & Format(targetDate, "yyyymmdd") & "*.zip"

Обратим внимание на то, что здесь точка с запятой разделяет альтернативные варианты, поэтому указанный фильтр подходит для файлов, формируемых по всем трем законам.

Скачивание файлов я осуществляю в заданную директорию, которую предварительно очищаю от старых закачек, применяя методы FSO:

Dim FSO As FileSystemObject
Set FSO = New FileSystemObject

Далее выбираем целевую папку bFld = FSO.GetFolder(...) и уничтожаем поддиректории:

For Each SubFolder In bFld.SubFolders 
SubFolder.Delete 
Next

Совершенно не обязательным, но крайне удачным «фантиком» к программе оказалось использование
 Application.Speech.Speak 
Удобно не наблюдать за прогрессом долгой процедуры, а занимаясь своими делами регулярно слышать сообщения (приятным женским голосом) типа:

 Application.Speech.Speak "Downloading purchase notices", True 

Второй параметр — асинхронное выполнение.

Скачивание файлов

Начинаем скачивание. Убеждаемся, что целевая папка существует с помощью
FSO.FolderExists
и при необходимости создаем её функцией MkDir.
Создаем шелл — объект
Set myShell = CreateObject("Shell.Application")

и применяем основную «фишку» описываемого подхода — метод namespace:
Set ftpItems = myShell.Namespace(адресFTP).Items

Указанная строка реализует обращение к FTP, возвращая папки и файлы. Обратите внимание на то, что передаваемый параметр должен иметь тип Variant, а не String.

Выбрать все директории можно так:

ftpItems.Filter 32, "*".

Выбрать поддиректории и файлы (96=32+64) и применить фильтр вроде того, который был построен в начале параграфа для отбора фалов по дате — так:

ftpItems.Filter 96, fltr.

Остается указать целевую (локальную) папку для скачивания аналогичным способом:

set tFolder = myShell.Namespace(tgtFolder)

И запустить «копирование» (оно же «скачивание») следующим образом:

tFolder.CopyHere ftpItems, 20

Эта команда запускает внешний процесс (в Windows отображается стандартный прогресс-бар копирования файлов), её выполнение из vba не контролируется напрямую. Однако нам необходимо дождаться окончания её выполнения, для чего мы следующим методом в цикле проверяем наличие последнего из копируемых файлов:

While Len(Dir$(tgtFolder & "\" & ftpItems.Item(ftpItems.Count - 1).Name)) = 0
 Sleep 1: DoEvents
Wend

Так устроенное «ожидание» длится в точности столько, сколько копируются файлы.

Распаковка (разархивация) скачанных файлов

Перебрав все директории и поддиректории и скачав все отфильтрованные файлы, приступаем к их обработке на локальной машине:

Application.Speech.Speak "Unzipping archives", True.

Для этого снова пользуемся методом namespace.
Перебираем все архивы в папке
For Each fl In tFolderItems

и пользуемся тем, что эти архивы в Windows видны как поддиректории! Соответственно, всё содержимое архива доступно так:

Set flItems = myShell.Namespace(CVar(tgtFolder & "\" & fl.Name)).Items

(Снова обращаю внимание на то, что параметр должен быть Variant, из-за чего необходимо преобразование типа из строки).

И опять та же команда CopyHere позволяет «скопировать» (на самом деле извлечь) из архива все фалы в целевую папку:
myShell.Namespace(tgtFolder).CopyHere flItems, 20

а асинхронное выполнение заставляет нас в цикле ждать окончания выполнения этой команды тем же образом, который описывался выше.

Среди разархивированных файлов немало «мусора». Например, по какому-то региону в определенный день не было никаких закупок, ООС генерирует пустой файл за эту дату. Поэтому прежде, чем парсить xml, я предпочитаю удалить лишнее. Используя FSO перебираем файлы

Set fold = FSO.GetFolder(tgtFolder)
For Each fl In fold.Files

«Отсев» легко произвести по размеру файла (fl.Size <= 198) и фильтруя его название Not (LCase(fl.Name) Like "*noti*")).

Удаление файла осуществляется предельно просто: fl.Delete

Расшифровка XML с данными о конкурсах

Расшифровка xml зависит от их схемы, которая на ООС иногда меняется. Поэтому далее приведены основные приемы, без концентрации на отдельных полях и данных. Начинаем, конечно, с

Application.Speech.Speak "Decoding files", True.

В этой части помимо FSO для работы с файлами нам понадобится XML:

Dim xml As MSXML2.DOMDocument60
Set xml = New DOMDocument60: xml.async = False: xml.validateOnParse = True

И, конечно, целевой лист (ActiveSheet) в книге Excel, куда мы будем записывать информацию.
Начнем с того, что остановим отрисовку Excel на время, чтобы «не мельтешило»:

Application.ScreenUpdating = False

Принципиальным моментом является то, что
«XPath обрабатывает пустой префикс как пространство имен null. Другими словами, в запросах XPath можно использовать только префиксы, сопоставленные с пространствами имен. Это значит, что если нужно построить запрос к пространству имен в XML-документе, то даже если оно является пространством имен по умолчанию, для него необходимо определить префикс.»
Поэтому для успешного разбора полей скачанных документов для пространства имен по умолчанию добавляем некий префикс. Например, «q»:

xml.setProperty "SelectionNamespaces", " xmlns:q= 'http://zakupki.gov.ru/oos/export/1'
xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance'
xmlns:oos='http://zakupki.gov.ru/oos/types/1'"

Так выглядит определения пространства имен для разбора xml, сформированных по 94 ФЗ. Для 44 она будет немного другой:

xml.setProperty "SelectionNamespaces", "xmlns:q='http://zakupki.gov.ru/oos/types/1'
xmlns:ns2='http://zakupki.gov.ru/oos/export/1'
xmlns:ns3='http://zakupki.gov.ru/oos/printform/1'"

Собственно все приведенные данные берутся из заголовка любого скачанного xml — файла, только для пространства имен по умолчанию добавляется q.

Далее определяются поля (точнее, xpath, указывающий на них), которые нужно скачать. На текущий момент для 94 ФЗ они выглядят примерно так: ".//oos:notificationNumber", ".//oos:lot", ".//oos:orderName", ".//oos:maxPrice". Для 44 ФЗ — другая структура (спасибо программистам ООС): ".//q:purchaseNumber", ".//q:lot", ".//q:purchaseObjectInfo", ".//q:maxPrice|.//q:price|.//q:totalSum".

Видим, что однозначности нет, настраивать парсинг приходится не только опираясь на опубликованные схемы, но и на собственный практический опыт расшифровки данных.

Проверить, «читается» ли xml -файл можно двойным условием:

If Not xml.Load(tgtFolder & "\" & fl.Name) then…If (xml.parseError.ErrorCode <> 0) then…

Если же файл прочитался (до сих пор у меня с закачанными с ООС файлами проблем не было), можно собственно разбирать его содержание. Прежде всего рекомендую прочитать поле, описывающее состав сообщения (notice).

purchaseType = LCase(xml.DocumentElement.ChildNodes(0).BaseName)
documentType = LCase(xml.DocumentElement.BaseName)

И проверить, что содержимое файла — это именно объявление о конкурсе, а не отмена его, уведомление о публикации протокола и т.п. примерно так:

If Not (purchaseType Like "*cancel*" Or purchaseType Like "*protocol*" Or documentType Like "*cancel*") Then

Так как в xml, сформированных по 223 ФЗ, название типа документа «спрятано», то можно добавить:

If (purchaseType Like "*notification*" Or documentType Like "*notice*") Then

Далее идет собственно запись данных из xml в ячейки листа:

Range("A" & i) = xml.DocumentElement.SelectSingleNode(строкаXPathсоотвПоля).Text

И т.д.
Если XPath может давать несколько вариантов (указание, например, на названия лотов) и все их мы хотим сохранить, поможет такая конструкция:

For Each it In lot.SelectNodes(строкаXPathсоотвПолей)
Range("E" & i) = Range("E" & i) & it.Text & "; "
Next

Некоторые поля в документе могут отсутствовать, тогда пропускаем их условием:

If Not xml.DocumentElement.SelectSingleNode(строкаXPathсоотвПоля) Is Nothing Then


Заключение

Скачивание файлов с ftp можно реализовать разными способами. Я описал один, с использованием shell.namespace, работающий и ОЧЕНЬ просто реализуемый.

После скачивания, автоматического ранжирования (отбора) и форматирования списка конкурсов моя ежедневная подборка конкурсов (по всем ФЗ) выглядит примерно так:

Результат

Описанный выше подход позволяет скачивать данные о конкурсах, контрактах, планах закупок и т.п. с ООС, ведь вся эта информация публикуется на открытом ftp. Весь код программы я не привожу и не могу привести, так как он является «интеллектуальной собственностью». Однако восстановить программу по приведённым ключевым участкам кода может любой, владеющий основами vba и, что важнее, терпением.

Терпение понадобится, во-первых, при разборе фалов и поддиректорий на ftp: надо не скачать лишнего и не упустить нужное. И во-вторых, при парсинге xml. Однако здесь уже вопрос поставленной задачи: какие именно поля, в какой последовательности, как отформатированные хочет видеть заказчик.

Всем удачи и побед: — в конкурсах — и личных!
Метки:
  • +15
  • 51,2k
  • 8
Поделиться публикацией
Комментарии 8
  • +1
    Вот этого не понял:
    Весь код программы я не привожу и не могу привести, так как он является «интеллектуальной собственностью».

    это не ваш код?
    • +2
      Если человек писал этот код по заданию работодателя и/или с использованием оборудования и ресурсов работодателя, то в соответствии с практически любым трудовым договором подобные вещи автоматически становятся собственностью работодателя.
    • 0
      Ребят, может немного не в тему, но кто знает как, используя данные из XML закупок получить ссылку на сайт, по которой расположена страница с этим тендером?
      • +1
        Для ФЗ 44 ответ очень простой: получаем уникальный номер закупки, (он же номер извещения) из поля ".//oos:notificationNumber" и формируем адрес так:
         addr = "http://zakupki.gov.ru/epz/order/notice/ok44/view/common-info.html?regNumber=" & НомерИзвещения 

        Для 223 такой подход неверен. В xml имеются ссылки на адреса документов, прилагаемых к тендеру, но не на «главную страницу». Я для временных целей формирую адрес так:
        
        addr = "http://zakupki.gov.ru/epz/order/quicksearch/search.html?searchString" & НомерИзвещения 
        пользователю остается сделать один клик. Очевидно, можно скачать поисковую страницу по указанному адресу средствами vba, парсить и найти ссылку на конкурсную документацию.
      • 0
        Код мой, но так как написан в рамках исполнения должностных обязанностей, то как законченное «произведение» он является ИС работодателя, в то время как автором (обладающим исключительным неимущественным правом на идею и методы реализации этой идеи) являюсь я. Это немного упрощенная интерпретация ГК РФ, Раздел VII. ПРАВА НА РЕЗУЛЬТАТЫ ИНТЕЛЛЕКТУАЛЬНОЙ ДЕЯТЕЛЬНОСТИ И СРЕДСТВА ИНДИВИДУАЛИЗАЦИИ,
        • 0
          Стоит также отметить следующее:
          — разработчики не стремились сохранить обратную совместимость схем по 223 ФЗ
          — нигде точно не указано с какого момента меняется схема документа
          — в самом документе версия схемы не указывается
          — на FTP отсутствуют некоторые извещения и протоколы
          — поддержка не работает и не отвечает
          • 0
            Кстати, закупки не всегда работают со стандартным useragent-ом libcurl, приходилось маскироваться под firefox.
            • 0
              Кому интересно: представляем вашему вниманию еще самую современную прогу для мониторинга – Z-monitor (http://z-monitor.ru/). Делали, можно сказать, для себя, так как имели «счастье» пропустить на госзаказе очень важный для нас тендер. Будем рады, если и для вас окажется полезным. Подробно о Z-monitor здесь: habrahabr.ru/company/z-monitor/blog/257865

              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.