Дата-экспедиция 5: введение

GosZatraty

С 25 по 29 апреля будет проводиться экспедиция данных в онлайн-формате. Организаторы экспедиции – проект “Госзатраты” и проект “Журналистика данных”.

Участие в экспедиции бесплатно.

Для участия необходима регистрация по ссылке: http://ift.tt/1VBdWyX

Подробнее об организационных моментах можно прочитать здесь.

В рамках этой экспедиции будет проведено исследование базы данных по государственным закупкам.

Введение в тему исследования

Что такое база Госзакупок?

База Госзакупок – это данные о государственных контрактах, находящиеся в соответствии с законодательством (44-ФЗ и 223-ФЗ) в открытом доступе в машиночитаемом формате. Правда, Официальный портал государственных закупок (собственно Госзакупки для краткости) публикует все эти данные в формате XML. И к этим данным нет прямого машинного доступа, то есть они выкладываются архивными файлами, которые нужно скачивать.

Что такое Госзатраты?

Не путать с Госзакупками. Госзатраты – это сервис, созданный (АНО “Информационная культура” при поддержке Комитета гражданских инициатив) на основе данных, которые публикуют Госзакупки. Только в отличие от Госзакупок, Госзатраты предоставляют прямой доступ к этим данным (через API). Данные представлены в формате JSON. И еще один бонус: Госзатраты не уходят по ночам на профилактику и соответственно доступны постоянно. А данные – те же, что на Госзакупках.

Что есть в базе?

Контракты, заключенные между госзаказчиками и подрядчиками, подписанные с 2011 года и до момента (база постоянно обновляется). Сейчас (на момент написания этого текста) их больше 18 миллионов.

Какая информация содержится в контрактах?

Это зависит от того, по какому закону он проходит. Есть 223-ФЗ: по нему в основном заключают контракты госкорпорации (например, РЖД). А есть 44-ФЗ. По нему заключают контракты госучреждения и органы государственной власти (госкорпорации иногда тоже, но гораздо реже).

Законодательство по прозрачности деятельности госучреждений строже, чем в применении к госкорпорациям. Поэтому контракты по 44-ФЗ значительно подробнее.

Итак, какая информация может содержаться в контрактах по 44-ФЗ?

– Информация о контракте:

  • Регистрационный номер контракта
  • Дата подписания
  • Стадия исполнения
  • Дата публикации в базе
  • Общая стоимость
  • Валюта, в которой указана стоимость
  • Номер федерального закона, по которому он заключен
  • Уровень бюджетного финансирования

– Информация о заказчике:

  • Наименование организации
  • Регион, в котором она находится
  • ИНН и КПП заказчика
  • Юридический адрес заказчика
  • Контактная информация заказчика

– Информация о поставщиках (их может быть несколько в одном контракте, соответственно указывается отдельно по каждому поставщику)

  • Наименование организации или имя индивидуального предпринимателя
  • ИНН поставщика
  • КПП поставщика (если он не индивидуальный предприниматель)
  • Адрес поставщика

– Информация о закупленных продуктах или услугах (наименований может быть больше одного, соответственно указывается по каждому):

  • Код продукта/услуги по общероссийскому классификатору (ОКПД, ОКДП)
  • Описание продукта/услуги
  • Единица измерения (например, штука, упаковка, рулон, условная единица)
  • Количество закупленных единиц
  • Цена за единицу
  • Общая сумма за все эти продукты

Это только основная информация. На самом деле в контрактах еще больше подробностей. Полные описания полей есть в специальных справочниках, которые публикуются на Госзакупках и регулярно обновляются в соответствии с нововведениями. Пользоваться ими не очень удобно, потому что они в формате PDF, но это лучше, чем ничего. Описание нужного поля можно легко найти в справочнике методом <ctrl>+<F>.

Что еще есть в контрактах?

Еще в контрактах есть документы контрактов. Буквально документы, по которым они заключались. Это, пожалуй, самая информативная часть. Но она же и самая труднодоступная для машинной обработки. Потому что обычно эти документы прилагаются к контрактам в виде вордовских докуметов (DOC, DOCX) или сканов (PDF, JPEG, TIFF). Эти документы хранятся только на серверах Госзакупок. Госзатраты дают только ссылку на ту страницу на Госзакупках, с которой соответствующий документ можно скачать. Поэтому когда Госзакупки уходят на профилактику, документы недоступны.

Какие могут быть проблемы в базе?

Проблем очень много. Это связано с тем, что база создается людьми фактически вручную. Это значит, что она неизбежно содержит в себе неточности. Это могут быть как злонамеренные неточности (чтобы скрыть информацию), так и обычные ошибки (опечатки, недоразумения, непонимание классификаций и т.д.).

Например:

  • в коде ИНН вместо цифры 0 может быть буква о;
  • в кириллическом описании продукта могут попадаться буквы латиницы, по виду совпадающие с кириллическими);
  • закупаемому принтеру может быть присвоен код продукции, который относится к электронным вычислительным машинам, а не к копировальным устройствам, как следовало бы ожидать;
  • продукт с кодом 15.42.12.111 (Масло пальмовое пищевое рафинированное в коробках, бочках, канистрах или бидонах массой нетто не более 200 кг) может иметь описание “чай черный нефасованный, мелколистовой, байховый, первый сорт“;
  • вместо количества закупленных продуктов может быть указана цена за единицу;
  • некоторые поля могут быть вообще не заполнены;
  • если посмотреть документ контракта, то может обнаружиться, что на самом деле состав закупленных товаров сильно отличается от того, что указано в базе.

И это только немногочисленные примеры “подводных камней”.

Пожалуй, некоторые из них можно было бы устранить, просто усовершенствовав систему, через которую вносятся данные, но пока факт тот, что данные очень “грязные”.

Что с этим делать?

Может сложиться впечатление, что при таком количестве непредсказуемых ошибок база контрактов в принципе неинформативна. Это не так.

Во-первых, чтобы обоснованно судить о ее информативности, нужно подробно изучить встречающиеся в ней погрешности и по возможности определить, насколько часто они встречаются и в какой степени искажают картину.

Над этим работает, в частности, команда “Госзатрат”, но надо этим могут заниматься и все, кому это интересно, потому что база открыта. Процесс, конечно, не быстрый, потому что он требует выработки подходящих методов.

Во-вторых, база представляет собой интерес и сама по себе – как данные, позволяющие исследовать и оценивать работу системы контрактирования, устанавливать ее недоработки и тем самым способствовать ее усовершенствованию. В этом смысле она, безусловно, информативна.

Идея исследования

Проблема

Допустим, мы хотим узнать, какое учреждение покупает самое дорогое постельное белье. Выгружаем из базы все данные с соответствующим кодами продукции (ОКПД, ОКПД-2, ОКДП) по 44-ФЗ и смотрим.

Для начала сортируем эти данные по цене за единицу продукции. И сразу видим странные цифры. Например, в одном контракте выясняется, что Администрация муниципального образования Крымского района (Краснодарский край) купила себе комплект постельного белья (одна штука) на сумму 59030 рублей (!).

Велик соблазн сделать из этого поспешный вывод о моральном облике госучреждений.

Но не все так просто. Если мы откроем документ этого контракта (он находится во вкладке “Документы”), то мы увидим там совсем другие цифры:

№ п/п Наименование и технические характеристики Ед. изм. Кол-во Цена за ед. в руб. с НДС Сумма (руб. с НДС)
1 Подушка шт 64 200,00 12 800,00
2 Одеяло полушерстяное шт 104 300,00 31200,00
3 Комплект постельного белья шт 47 310,00 14 570,00
4 Комплект постельного белья шт 1 460,00 460,60

Вопрос

А как часто вообще возникает ситуация такого несовпадения? Кстати, проблема, о которой мы сейчас говорим, характерна и для других продуктов. Но пока для сужения задачи сосредоточимся на выбранном.

Чтобы узнать ответ на этот вопрос предельно точно, необходимо вручную сопоставить все наши данные по продукту с информацией в прилагающихся к ним документам. Но на практике это не получится, потому что данных слишком много.

Решение

Здесь на помощь приходит статистика. Чтобы получить представление обо всех данных по закупке постельного белья, можно взять простую случайную выборку и посмотреть, как обстоят дела в ней. На этом основании можно будет сделать вывод и обо всем продукте (с учетом уровня доверия и доверительных интервалов).

Конечно, и тут потребуется ручная работа. Но ее будет гораздо меньше, чем при сопоставлении всех полученных контрактов. И если распределить работу, то на сравнение контрактов и документов уйдет не так много времени.

Таким образом мы получим довольно точное представление о проценте расхождений между данными базы и документами хотя бы в этом продукте. Еще мы получим некоторую отправную точку, чтобы прикидывать процент расхождений по другим продуктам. И, конечно, что немаловажно, мы посмотрим на деле, насколько хорош этот метод и как его можно усовершенствовать.