gromozeka1980 Aug 1 2013 at 23:33

Вернулся невод с тиной морскою…

2 min

79K

Года полтора назад я решил провести небольшой эксперимент. Цель была посмотреть на концентрированный новояз. Сделал я следующее:
1) Распарсил bash.im (тогда ещё bash.org.ru) и создал частотный словарь встречающихся там слов.
2) Распарсил Википедию и создал частотный словарь (точнее не совсем так, словарь Википедии у меня к тому моменту уже был, я его делал раньше для совсем других целей).
3) Рассортировал словарь Баша по встречаемости в порядке убывания, шёл по нему и печатал те слова, которые ни разу не встречались в Википедии.

В общем после всех приготовлений запустил я скрипт и приготовился увидеть современный слэнг во всей своей красе. Программа начала печатать…
Те, у кого нет аллергии на ненормативную лексику, могут пойти по ссылке и полюбоваться на начало полученного мной списка (никакой редактуры, публикую так как выдала программа):

Я предупредил!

Для тех, кто по ссылке не пошёл, скажу что я действительно получил много слэнга — одмин, сервак, комменты, фотик и т.д. Но ещё больше получил форсируемых арфогрофичиских ашыбок и мата.
Одно утешает — в русскоязычной Википедии этих слов всё-таки не было!

Приложение.

Так как статья всё-таки для программистов, я расскажу, как делать частотный словарь Википедии (если смогу отыскать исходники, приложу их к статье).
1) Качаем дамп русской википедии, последняя версия всегда лежит здесь — download.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
2) Убираем все теги и оставляем голый текст при помощи вот этого питоновского скрипта, написанного товарищами из Италии — medialab.di.unipi.it/wiki/Wikipedia_Extractor записывая его по ходу дела в файлы удобного нам и нашей машине размера.
3) Для каждого файла делим текст используя в качестве разделителей всё, что не кириллица и не дефис (чтобы не поделить всякие кресла-качалки) и считаем токены (можно использовать collections.Counter из стандартной библиотеки Питона)
4) Сливаем получившиеся словари вместе.

Приложение 2

А вот собственно частотный словарь Википедии, делал его около двух лет назад.
С ним можно кучу всяких интересных вещей делать, например искать слова со всякими интересными свойствами (ну скажем «труднозаживляемый» — самое длинное слово русского языка в котором все буквы разные). Или скажем сделать генератор анаграмм. Впрочем об экспериментах со словарём постараюсь сделать отдельный пост.

Tags:

Hubs: