Pull to refresh
0
«Информационная культура»
Открытое государство и открытые данные

Собираем «Плохие данные» (bad data)

Reading time1 min
Views6.9K
Не секрет что больше данных — это не означает что данные станут лучше. Чаще это происходит иначе и примеров когда данные публикуются в ужасающем виде немало.

Например, данные Рособоронзаказа о которых я писал ранее ( habrahabr.ru/company/infoculture/blog/201260 ) и где можно увидеть.
Точно также данные публикует и МВД России — это вот такой массив — mvd.ru/opendata/od1

А есть много других данных когда CSV файлы создаются на базе непригодных для анализа Excel файлов, или когда данные публикуют без описания схем, или когда публикуют невалидные XML файлы и многое другое.

Чтобы собрать все такие случаи коллеги из Open Knowledge Foundation начали собирать все примеры.




Вот тут сайт проекта — okfnlabs.org/bad-data, а вот тут раздел в github'е — github.com/okfn/bad-data/issues?page=1&state=open где собраны примеры из которых 5 прорабатывается и 2 уже зарегистрировано.

Конечно, пока описанное кажется не очень сложным, неправильное форматирование или таблицы перемешанные с картинками в PDF. Но будет больше.

Давайте поможем коллегам и если Вы встретите где-либо опубликованные данные с которыми невозможно работать — предлагаю размещать их в комментариях к этому посту, а тем кто готов включиться — еще и у коллег из OKF.
Tags:
Hubs:
+8
Comments6

Articles

Information

Website
infoculture.ru
Registered
Founded
Employees
2–10 employees
Location
Россия
Representative
Бегтин Иван Викторович