Пользователь
0,0
рейтинг
1 августа 2013 в 23:33

Разработка → Вернулся невод с тиной морскою…

Года полтора назад я решил провести небольшой эксперимент. Цель была посмотреть на концентрированный новояз. Сделал я следующее:
1) Распарсил bash.im (тогда ещё bash.org.ru) и создал частотный словарь встречающихся там слов.
2) Распарсил Википедию и создал частотный словарь (точнее не совсем так, словарь Википедии у меня к тому моменту уже был, я его делал раньше для совсем других целей).
3) Рассортировал словарь Баша по встречаемости в порядке убывания, шёл по нему и печатал те слова, которые ни разу не встречались в Википедии.

В общем после всех приготовлений запустил я скрипт и приготовился увидеть современный слэнг во всей своей красе. Программа начала печатать…
Те, у кого нет аллергии на ненормативную лексику, могут пойти по ссылке и полюбоваться на начало полученного мной списка (никакой редактуры, публикую так как выдала программа):

Я предупредил!

Для тех, кто по ссылке не пошёл, скажу что я действительно получил много слэнга — одмин, сервак, комменты, фотик и т.д. Но ещё больше получил форсируемых арфогрофичиских ашыбок и мата.
Одно утешает — в русскоязычной Википедии этих слов всё-таки не было!

Приложение.

Так как статья всё-таки для программистов, я расскажу, как делать частотный словарь Википедии (если смогу отыскать исходники, приложу их к статье).
1) Качаем дамп русской википедии, последняя версия всегда лежит здесь — download.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
2) Убираем все теги и оставляем голый текст при помощи вот этого питоновского скрипта, написанного товарищами из Италии — medialab.di.unipi.it/wiki/Wikipedia_Extractor записывая его по ходу дела в файлы удобного нам и нашей машине размера.
3) Для каждого файла делим текст используя в качестве разделителей всё, что не кириллица и не дефис (чтобы не поделить всякие кресла-качалки) и считаем токены (можно использовать collections.Counter из стандартной библиотеки Питона)
4) Сливаем получившиеся словари вместе.

Приложение 2

А вот собственно частотный словарь Википедии, делал его около двух лет назад.
С ним можно кучу всяких интересных вещей делать, например искать слова со всякими интересными свойствами (ну скажем «труднозаживляемый» — самое длинное слово русского языка в котором все буквы разные). Или скажем сделать генератор анаграмм. Впрочем об экспериментах со словарём постараюсь сделать отдельный пост.
@gromozeka1980
карма
100,5
рейтинг 0,0
Пользователь
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Спецпроект

Самое читаемое Разработка

Комментарии (93)

  • +15
    здорово, а луркоморье не думали распарсить?
    • +20
      Луркоморье я для себя открыл позже :). Сейчас бы однозначно парсил его, а не баш.
      • +58
        Его и парсить не надо, просто открываешь любую страницу и прямо сразу читаешь новояз.
    • 0
      Там словарь совпадений будет меньше, чем новояз (
  • +75
    както админу нажрался спалился личку помоему фейл

    Какая грустная история.
    • +53
      Это не вся история. Мне кажется, так смысл раскрывается глубже:
      «за**ало както админу нажрался спалился личку помоему фейл нефиг девушко смска.»
      • +7
        Не повезло парню
        • +25
          «ржу незнаю нафига»
          • +17
            «нахрена преподу ноутом курсач отжог»?..
      • +5
        *пискляво* Хааа… а потом прикинь, чо с ним было:
        нууу кароч комменты компы ноуте мобилу нахрена преподу ноутом курсач отжог ху**к ноута долбо**б
        преподша бляяяя стремно
        • +7
          Какая занятная у вас избирательность в подходе к литовке мата.
    • +10
      Из докладной сисадмина-студента:
      незнаю нафига сервак

      Надпись в лифте:
      бл** ох*ели ссать тыщ за*бало както

      Из холивара Android vs. iOS:
      ахахах г*ндоны айфона
      • +2
        Перед трудным экзаменом в сессию:
        преподша б*яяяя стремно девченки
  • +3
    А как же стемминг?
    • +1
      меня устраивали словоформы, да и времени столько не было. а учитывая кол-во ашыбок на баше, со стеммингом совсем тяжко :)
  • +18
    Хром при открытии Вашей ссылки предположил, что язык текста — украинский, и предложил перевести. Однако любопытно, что навело его на эту мысль?
    • +9
      поняття не маю
      • +17
        Гадки не маю :)
    • +6
      Ну так позволили бы перевести, вам жалко, что ли? :)

      • +2
        Я думаю, мы присутствуем при рождении еще одной теории заговора.
        • 0
          А можно запилить квест на англоязычных ресурсах с «расшифровкой»
  • +22
    По ссылке почти связные рассказ. Если бы слов было раза в три меньше, как раз и получилась бы некоторая среднестатистическая реплика южнобутовского обывателя, произнесенная в подъезде во время перекура.
    Так и представляется какой-то Диман, который сидя на кортах и сплевывая семечки сквозь редкие зубы пытается втереть этими словами историю своему корешу Костяну.
    • +2
      Кстати, если на хабре есть германисты, очень советую посмотреть вот эту ссылку по методу анализа частотности немецких слов. Для многих людей не в теме это вообще покажется рандомизатором букв :)
    • 0
      Вы полегче с бутово. Я тут живу.
      • +2
        Я там тоже жил году в 2007-2008, поэтому представляю прекрасно. Очень сомневаюсь что за 6 лет подъездный контингент сильно изменился. Никого не хочу обидеть, но Вы прекрасно представляете какой именно образ я имел ввиду.
        • +2
          Образ-то представляю. Но вот за это время ни одного гопника не видел. ЧЯДНТ? Прогулки по ночам с телефоном включены.
          • +6
            Возможно, Вы — счастливый человек с хорошей кармой и чистой аурой.
            • +28
              Или с такой кармой, слухи о которой пугают даже гопников.
            • +11
              …и ростом под 2-20 с косой саженью в плечах
              • 0
                Как думаете, это из за дрозда не может быть?
                • +2
                  Не, не из-за него, точно.
              • +3
                , с косой,

                Так звучит более устрашающе.
          • +1
            Я тоже из Бутово и то, что гопники вымерли – подтверждаю.
            • 0
              Скорее выросли-сели-женились и им теперь уже не до гопстопа. А новое поколение занялось чем-то другим
              • 0
                Да-да. Куча родителей с детьми, гуляющие с колясками и тыды.
          • +2
            Год назад впервые побывал в южном бутово и офигел. Для всей страны южное бутово это символ гопоты и разрухи, а на деле район уютнее и благоустроеннее чем элитные жилые комплексы у нас в Казани. Гопота вымирает кстати не только у вас, но и у нас. Это радует!
            • +3
              Гопота не вымерла, она переквалифицировалась в интернет-гопоту :)
              • +1
                Только на днях общался на тему музыки с интеллигентом, цитата (самая приличная):
                «ну да ну да а не че так что у меня бэха и свой автосервис? мой тебе совет поменяй себе имя вконтакте кирилл „кожаная флейта“ криволапов )) хотя и так ясно что ты с себя представляеш. с тобой нормальному пацану даже разговаривать взвп*дло, ********,***!»
            • +3
              Не даром оно — геометрический центр новой Москвы :)
            • 0
              Иди в бирюлево погуляй… Вымерли они, как-же!
  • +2
    Частотный словарь баша чем-то напоминает СЕО-текст.
    А вот словарь википедии — просто клад для изучающих русский язык людей. Хотелось бы увидеть точно такой же для английской вики.
  • +18
    Долго искал в том списке слов котэ. А вот оно оказывается как..
  • +9
    Вывод — в википедии есть много слов (с). Похоже, вы составили словарь ненормативных междометий ^_^.
  • –5
    Даже хром в шоке был
    image
    • 0
      Вы нажали «Перевести»?
  • +26
    Словарь Вильяма Шекспира, по подсчету исследователей, составляет 12000 слов. Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов. Эллочка Щукина легко и свободно обходилась тридцатью. Вот слова, фразы и междометия, придирчиво выбранные ею из всего великого, многословного и могучего русского языка:

    1.Хамите.
    2.Хо-хо! (Выражает, в зависимости от обстоятельств, иронию, удивление, восторг, ненависть, радость, презрение и удовлетворенность.)
    3.Знаменито.
    4.Мрачный. (По отношению ко всему. Например: «Мрачный Петя пришёл», «Мрачная погода», «Мрачный случай», «Мрачный кот» и т. д.)
    5.Мрак.
    6.Жуть. (Жуткий. Например, при встрече с доброй знакомой: «жуткая встреча»).
    7.Парниша. (По отношению ко всем знакомым мужчинам, независимо от возраста и общественного положения).
    8.Не учите меня жить.
    9.Как ребёнка. («Я его бью, как ребёнка» — при игре в карты. «Я его срезала, как ребёнка» — как видно, в разговоре с ответственным съёмщиком).
    10.Кр-р-расота!
    11.Толстый и красивый. (Употребляется как характеристика неодушевлённых и одушевлённых предметов).
    12.Поедем на извозчике. (Говорится мужу).
    13.Поедем на таксо. (Знакомым мужского пола).
    14.У вас вся спина белая (шутка).
    15.Подумаешь!
    16.Уля. (Ласкательное окончание имен. Например: Мишуля, Зинуля).
    17.Ого! (Ирония, удивление, восторг, ненависть, радость, презрение и удовлетворённость).

    Оставшиеся в крайне незначительном количестве слова служили передаточным звеном между Эллочкой и приказчиками универсальных магазинов.

    © Ильф и Петров, «12 стульев».
    • +2
      Странно, что автор не догадался это поставить в виде эпиграфа.
  • +8
    те слова, которые ни разу не встречались в Википедии


    Я думаю, для поиска новояза было бы корректно добавить в этот список частые слова с баша, редко встречающиеся в вики. А иначе алгоритм обречен на поиск слов с ошибками, ведь в вики тоже может присутствовать новояз.
    • +11
      Пробовал! Получается не новояз, а обычные слова разговорной речи, которые очень редко встречаются в Википедии. Начало списка выглядело так:

      я не что а у ты то меня это ну мне как так да вот все она на он нет там вы тебя тут о когда бы если мы еще тебе уже есть кто нас надо потом за сегодня только почему просто про будет же вас тоже теперь какой говорит но такой можно девушка они вчера ли раз мой вообще че хочу сейчас бля ее мама себе вам знаю очень даже чем такое думаю ж ничего нибудь блин чтобы привет день него нам чего пока могу больше парень такая стоит вопрос делать чтоб ей значит бл*ть давай потому лучше знаешь
      • +33
        … вы только что прочитали объяснительную записку опоздавшего сотрудника.
        • +1
          а по мне похоже на какой то русский рэп современный. Только читать надо без выражения и скороговоркой :)
          Например (кусок с конца :) ): привет день
          него нам чего
          пока могу больше парень
          такая стоит вопрос делать
          чтоб ей значит бл*ть
          давай потому лучше знаешь
      • +1
        А это при каком пороге отношения частот? 10:1?
        • 0
          Не, без всяких порогов и прочих констант. Просто отсортировал по разности встречаемости (уже в процентах, разумеется, а не в абсолютных величинах).
          • 0
            С порогом отношения было бы лучше. А с разностью — не удивительно, что такой результат (когда, условно, 5%-3% больше, чем 1%-0.001%)
            • 0
              Согласен. Жалко, что потерял словарь Баша… Честно говоря, я хотел продолжить эксперимент — найти самые «башевские» и самые «википедийные» цитаты в Баше по составу слов. Но как-то дела засосали, а потом и словарь куда-то пролюбил… Может когда-нибудь ещё сделаю.
      • +1
        то есть «бл*ть» в википедии встречается?
        • 0
          Нет, это первое из слов, которые не встречаются (с него начинается основной список).
      • 0
        Неужели в Википедии так редко встречаются «я, не, что, а, у, ты, то, меня, это» и т.д.? Надо было отсечь от словаря Википедии 1% (а то и меньше) самых редких слов, а потом заново прогнать по башевскому словарю. На мой взгляд, в этом случае выборка будет интереснее.
        • 0
          Наверное, можно и так. Или брать слова, которые встречаются в 100 и более раз чаще, чем в Википедии.
        • 0
          Нет, они совсем не редко встречаются в Википедии. Просто разница в проценте этих слов в Баше и Википедии огромна.
          • +2
            Но это вполне логично и не связано с новоязом. Википедия все же является справочной системой, энциклопедической, в ней будет мало местоимений и, тем более, междометий, чего не скажешь о разговорном, сленговом баше.

            Отсечение доли словаря Википедии уберет «ложные» срабатывания на сленговых словечках, о которых написаны статьи или которые встречаются в цитатах, выпадение из фильтра редких энциклопедических слов никак не повлияет на выборку баша.
      • +2
        Местоимения, союзы и предлоги стоит вырезать из словаря сразу. А заодно еще и все наречия.
        • 0
          можно было бы, например, использовать phpmorhy
          • 0
            Вообще не только их, а всё что признает пхпморфи с отключенным предсказателем.
            Я так давным давно делал онлайн спелчекер — все что он не знает — красным цветом. ложных срабатываний было не много.
  • +4
    Сделайте кто-нибудь частотный словарь Хабра! Заодно выясним самые обсуждаемые темы…
    • 0
      Причем отдельно посты, отдельно комменты и вопросы
    • +2
      Кстати, да. И новояз будет вычленить проще. Все-таки баш — это практически сборник анекдотов (пусть и специфических). Сравнивать его словарь с википедией не совсем корректно. А вот разница в словарях между вики и хабром может быть показательной.
    • +4
      *шутка про ализара*
      • +9
        *шутка про мицгола*
        • +1
          Шутка про Мицгола подходит и к Википедии.
  • +2
    Нахрена преподу ноутом курсач отжог?
  • +9
    Поместить текст в чёрную рамку и подписать: «вся суть баша».
  • +2
    Для любитей смотреть статистику по словам напомаю про отличный гугловский инструмент
    books.google.com/ngrams
    • +1
      не знаю, что там сейчас, я его смотрел года два назад. там был ад. гениальные сотрудники гугла отсканировали кучу русской литературы с дореволюционной орфографией и пропустили через современные OCR. но за два года наверное исправили уже.
  • 0
    Гроббокс испугался хабраэффекта. Можно файл отзеркалить куда-нибудь?
    • 0
      сделал
      • 0
        Кхм. А как насчёт словаря баша?
        • 0
          Словарь баша и все исходники я куда-то дел… Если найду, прицеплю к статье и добавлю здесь комментарий.
        • 0
          Дошло. Вы имели в виду файл bash_wiki_diff.txt. Я его положил в итоге на shorttext, спасибо.
          Я решил, что Вы спрашиваете про частотный словарь баша, который действительно не сохранился.
  • +2
    Ссылка не пашет:
    «Error (509)
    This account's public links are generating too much traffic and have been temporarily disabled!»
    :-(
  • 0
    >>>заебало както админу нажрался спалился личку помоему фейл
    Звучит как краткий пересказ очень грустной истории.
  • 0
    А мне напомнило классическую Сутру Холявы
  • +2
    А почему на Яндекс.Диск не выложите? Можно даже публичной папкой, а не архивом. Или сложить в неё архив и всё остальное. Сейчас у меня, например, ни одна ссылка из тех, что в апдейте, не работает, а конвертация не удалась.
    • +1
      <злобное ворчание>
      Потому что у меня ремонт… У меня и так уже заблокированы оба моих ящика — на дропбокс и на бокс, ещё на каком-то документохранилище выложил по одному из советов выше, там конвертация не удалась. Попросил читателей ещё куда-нибудь закинуть и кинуть линк, предупредил, что бокс на грани… не, все молча продолжили качать… Тысячи скачиваний… Я третий день на хабре и не очень в курсе здешнего общения… Надо предложить плюсануть карму тому, кто поможет (честно говоря, я и так собирался это сделать)?
      </злобное ворчание>
      Чуть позже зарегистрируюсь там и выложу. Здесь и в посте оставлю комментарий.

    • +1
      сделал. ссылку поменял. за ещё одну коробочку спасибо!
  • +4
    Можно ещё этот текст как lorem ipsum использовать, чтобы увидеть сайт в срезе современного общения.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.