База всех населенных пунктов и регионов России

Мне для одного проекта понадобилось создать базу географических наименований России. Из всех источников подобной информации наиболее авторитетными мне показались 2:

Последняя показалась мне более простой, полной и менее избыточной, хотя наименований населенных пунктов там в четыре раза больше. Я выбрал ОКАТО, поскольку нашел хотя бы какое-то описание базы на википедии, а в почтовых индексах присутствовала совсем непонятная информация. В этой базе предстояло отсеять ненужные административные единицы от требуемых мне географических.

Отсев происходил в несколько этапов. Вначале я отобрал области, края и республики, т.е. верхний уровень иерархии. Затем взялся за города и поселки. Весь отсев проводился опытным путем. Выявляя закономерности, я отсеивал всю ненужную шелуху, типа муниципальных образований и районов крупных городов. Описывать закономерности не вижу смысла. Для каждого уровня классификации свои правила отсева административных единиц, которые можно посмотреть в исходном коде, в фале ниже. Отмечу что в итоговых файлах в регионах я создал идентификатор в первом поле, а в населенных пунктах ссылка на него в последнем поле, чтобы импортировать в БД принадлежность населенных пунктов к региону. Формат перевел в csv, в остальном формат данных остался прежним. Следует полагать, что в базе, скорее всего, есть ошибки. Если кто-то найдет, пишите в комментарии, буду править, ибо итоговое количество населенных пунктов вышло около 140 тысяч, а отследить их все крайне проблематично.
Итак, файл кода на питоне, с помощью которого проводился отсев и разбор, и 2 итоговых файла после разбора c регионами и нас. пунктами можно скачать здесь. Надеюсь моя работа, окажется, еще кому нибудь полезной.
+73
6 декабря 2010, 06:15
186
intermed 9,1

комментарии (40)

0
LIAL #
>Надеюсь моя работа, окажется, еще кому нибудь полезной.

+2
LIAL #
>Надеюсь моя работа, окажется, еще кому нибудь полезной.
окажется и несомненно. ИМХО это немалый труд вы проделали. спасибо

PS: за верхний пост сорри — хабр глючит
+1
zeebee #
отлично
+10
arxont #
А можно вопрос — чем не понравился КЛАДР?
0
abyrvalg #
Видимо, своей, как-бы это помягче сказать, дебильной структурой. Но вопрос поддерживаю: почему не сделать нечто удобоваримое из КЛАДРа?
Хотя, тема избитая, на sql.ru несколько раз поднималась и обсуждалась.
+1
DevilPinky #
Ну в КЛАДРе из дебильного заметил только то, что нет дробления города по районам.
В остальном все устраивает.
НЛО прилетело и опубликовало эту надпись здесь
0
DevilPinky #
Ахахах.
Знали бы вы куда я его интегрировал. ]8-)
0
paranoik #
кто вам мешает дбфки кладра затянуть в БД своей структуры…
0
nileriver #
Ага. Я делал разбор на чистом pl/sql… =) Та еще задача.
+6
DevilPinky #
Самое удивительное, что я заметил в КЛАДРе, это:

Кто-нибудь знает, чем Чувашия заслужила такую честь? =)
0
agens #
а кожуун? Кемску волость-то немцам не отдали?
0
RuJet #
Видимо тем, что в Чувашии находится НИИ налоговиков и где делаются большинство ИТ поделий налоговой.
0
NanoDragon #
0
fkndfatum #
Вот, мы для нашего проекта делали и выложили доступный всем API КЛАДР www.magora.ru/info/kladr
0
zorba_buddha #
по всем ссылкам-примерам — 404
0
fkndfatum #
К сожалению нам пришлось прекратить предоставление API
0
zorba_buddha #
хоть бы базу дали скачать тогда…
0
LbICbIY #
А почему?
0
intermed #
Я при поиске пару раз нарывался на него, но все из источников в которых говорилось что в нем очень много ошибок. И как то он сам собой отпал.
+1
Guderian #
Как знать, может быть используйся справочник ОКАТО так же часто как КЛАДР (а он, как минимум, используется в 1С), вы бы узнали о гораздо большем количестве ошибок в нем.
0
aml #
Справочником ОКАТО пользуется налоговая для распределения денег в бюджеты. В его вылизывании заинтересована куча чиновников на всех уровнях.
0
Guderian #
Т.е. в вылизывании КЛАДР, который делает налоговая (ГНИВЦ ФНС) для налоговой же (используется в АИС «Налог», например), налоговая не заинтересована?
0
aml #
Ошибки в КЛАДР приведут к тому, что адреса будут в документах неверно писаться. Это не так критично. А если в ОКАТО ошибочно какую-то улицу отнесут не к тому микрорайону, то деньги налогоплательщиков, там находящихся, будут поступать не в тот бюджет. Это тут же заметят чиновники на местах и быстро пнут налоговую, чтобы поправили базу и вернули деньги, куда положено.
+1
agens #
поддерживаю вопрос: кладр структурой сложен, но данными полон.
+1
stanishevsky #
Вот правда, никогда не мог понять, что сложного в структуре КЛАДРа? Она несколько идиотская, если смотреть с высот сегодняшнего дня, но чтобы сложная???
0
Spy #
Проблема с кодировкой в csv файлах.

7-Zip 9.18 beta;
Excel 2003.

Спасибо за то, что делитесь своим трудом!
+4
intermed #
Так как делал все в опенофисе кодировка UTF-8.
0
TarzanASG #
Интересно сколько из этих 140 тысяч отмечено в OpenStreetMap
+1
Arceny #
Мало, есть бот: yav.gis-lab.info/boundaries/polygon/-60189
0
kirill3333 #
А вы предусмотрели такой вариант — эти справочники достаточно часто обновляются например некоторые населенные пункты кочуют от одного субъекта к другому. Так что имхо самая сложная задача это обновление справочника и соответственно всех ваших сущностей привязанных к нему.
0
intermed #
Там в архиве есть питоний код, с помощью которого я проводил отбор. Думаю им можно и в дальнейшем пользоваться, если формат не изменится. Только ему требуется файл ОКАТО конвертировать в csv.
+2
LastHorseradish #
а есть ли в природе список субъектов которые потеряли статус жилых?
+1
MainNika #
А Вконтакте своя база, или они ее забирают откуда нибудь? Помню встречался с этой базой когда пробовал написать что нибудь на их конкурс разработчиков, там как раз была работа и индексирование такой базы.
0
pirrat #
Спасибо за работу, пригодится.
Для того кому нужна база КЛАДРа в sql и лень самому морочится, только что импортировал свежую базу:
narod.ru/disk/887406001/kladr.zip.html
Если кому нужно в другом формате (csv например), пишите в ЛС, импортирую и выложу.
+1
pirrat #
ссылка, какая-то кривая получилась.
ещё раз: narod.yandex.ru/disk/887406001/kladr.zip.html
+2
biseptol #
Тоже когда-то составлял, уже и не вспомню, зачем. Города России с координатами и населением: promzona.org/utils/cities.html?sort=&page=all&dir=asc

KMZ-файл для GoogleEarth: promzona.org/utils/russia2.kmz
+1
Cellard #
0
Washington #
Недавно приятель делал что-то подобное (мож тоже полезно будет):
citiesdb.ru/
+1
tsm1 #
Я взял КЛАДР, там оказлось множество несуществующих почтовых индексов и устаревших данных. Совместил КЛАДР с базой Почты России и получилось то, что на indexp.ru. Поскольку самому периодически нужно найти либо индекс, либо адрес, а искать это по КЛАДР и базе Почты России крайне нудобно.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.