Articles / Bookmarks / Profile of 1x0r / Habr

How to become an author

User

Profile Publications 1Comments 16Bookmarks 21

danila_savenkov Aug 23 2017 at 15:28

Kaggle Mercedes и кросс-валидация

18 min

60K

Python*Data Mining*Mathematics*Machine learning*Open Data Science corporate blog

Всем привет, в этом посте я расскажу о том, как мне удалось занять 11 место в конкурсе от компании Мерседес на kaggle, который можно охарактеризовать как лидера по количеству участников и по эпичности shake-up. Здесь можно ознакомиться с моим решением, там же ссылка на github, здесь можно посмотреть презентацию моего решения в Yandex.

В этом посте пойдет речь о том, как студент консерватории попал в data science, стал призером двух подряд kaggle-соревнований, и каким образом методы математической статистики помогают не переобучиться на публичный лидерборд.

Начну я с того, что немного расскажу о задаче и о том, почему я взялся ее решать. Должен сказать, что в data science я человек новый. Лет 7 назад я закончил Физический Факультет СПбГУ и с тех пор занимался тем, что получал музыкальное образование. Идея немного размять мозг и вернуться к техническим задачам впервые посетила меня примерно два года назад, на тот момент я уже работал в оркестре Московской Филармонии и учился на 3 курсе в Консерватории. Начал я с того, что вооружившись книгой Страуструпа стал осваивать C++. Далее были конечно же разные онлайн курсы и примерно год назад я стал склоняться к мысли о том, что Data Science — это пожалуй именно то, чем я хотел бы заниматься в IT. Мое “образование” в Data Science — это курс от Яндекса и Вышки на курсере, несколько курсов из специализации МФТИ на курсере и конечно же постоянное саморазвитие в соревнованиях.

Читать дальше →

+55

murr Jan 9 2011 at 22:07

Краткая заметка по некоторым дополнительным возможностям Kindle третьего поколения

7 min

28K

В заметке я постараюсь начать описание нескольких интересных дополнительных возможностей этой замечательной читалки,. Речь пойдет о вариантах Kindle 3g и Kindle Wi-fi третьего поколения и некоторых штуках, не описаных в мануалах. Хотел бы заметить, что информацию о Киндле найти относительно не сложно, однако собрать все в одной заметке на русском, думаю, неплохая идея.

приступим

+105

Sonnetahr Mar 21 2011 at 01:27

О другом подходе к устройству на работу

5 min

18K

… или почему я никогда не занимался веерной рассылкой резюме, а долго присматривался, затем посылал одно, и меня там брали.

Пришедшая на почту рассылка новостей принесла мне очередную статью с «ХедХантера», призванную, якобы, помочь соискателям правильнее составить резюме.
Одна из многих подобных. Несть им числа.
Там, конечно же, рассказывалось о том, что хорошо, а что плохо писать в разных разделах резюме, какими словами о себе рассказывать можно, а какими нет, в общем — как представить из себя идеально собранную машинку по исполнению скромной, но очень важной для компании роли.

Этой статьёй хочу выразить протест против устоявшейся практики преподнесения себя соискателями и предложить этому «раболепию по гайдлайнам» какую-то разумную альтернативу.

Статья для соискателей.

Читать дальше →

+314

3d6 Feb 11 2010 at 01:30

Краткий обзор популярных нейронных сетей

6 min

51K

Artificial Intelligence

К написанию этой статьи меня побудила большая распространенность некоторых заблуждений на тему искусственных нейронных сетей (ИНС), особенно в области представлений о том, что они могут и чего не могут, ну и хотелось бы знать, насколько вопросы ИНС вообще актуальны здесь, стоит ли что-либо обсудить подробнее.

Я хочу рассмотреть несколько известных архитектур ИНС, привести наиболее общие (в следствие чего не всегда абсолютно точные) сведения об их устройстве, описать их сильные и слабые стороны, а также обрисовать перспективы.

Начну с классики.

Читать дальше →

+73

Zevaka Jan 31 2010 at 13:32

Спать мало, но правильно?

7 min

897K

Lifehacks for geeksHealth

Навеяно этим постом от юзера case. Пост не новый, и на главную он не попал.
Но я вот наткнулся на него сегодня и решил написать кое-что о сне. Уверен, что это будет полезно многим хабравчанам, да и случайным читателям тоже.

Читать дальше →

+627

stepan_ovchinnikov Feb 7 2009 at 23:32

Unsupervised learning или «пойди туда, не знаю куда, найди то, не знаю что»

3 min

13K

Artificial Intelligence

Экспертные системы, нейронные сети, исчисление предикатов, хорновские дизъюнкты, теоремы сходимости…
Не знаю как у вас, у меня вся эта кухня вызывает восторг. Как замечательно, что компьютеры (конечно, наученные программистами, вооруженными серьезной математикой) могут хотя бы иногда приближаться к человеку по навыкам принятия решений. Особенно это хорошо у них получается, когда человек готов учить.

Иначе говоря, методы ИИ работают тем лучше, чем более формализованы как раз те знания, которые компьютер должен освоить. См, например, предыдущий пост про шахматы.

Неуправляемое обучение, обучение без учителя
Однако есть ситуации, и их довольно много, когда правильного ответа никто не знает. И даже непонятно что является ответом. И даже задача не вполне ясна. Есть только данные. Надо что-то полезное из них извлечь.
Согласитесь, задача гораздо более интересная и дающая простор для фантазии?

Читать дальше →

+87

Astynax Feb 22 2012 at 00:25

Монады в Python поподробнее

10 min

15K

Доброго времени суток!

В прошлом топике я попробовал изобразить монаду Maybe средствами языка Python. В целом задача была достигнута, как мне кажется, но совсем незнакомому с тематикой человеку будет непросто понять что к чему, а главное — зачем. В этот раз попробую остановиться на монадах поподробнее, в том числе и для закрепления собственного понимания.

Читать дальше →

+34

Astynax Feb 20 2012 at 13:48

Для тех, кто хочет странного: монады в Python

4 min

12K

Доброго времени суток!

Недавно, начав изучать Haskell, несколько раз пытался подступиться к монадам, но всё никик не мог, что назывется, нить ухватить (м.б. дело в нехватке базовых знаний). Помогла замечательная книга Learn you a Haskell for great Good.
Начитался, проникся, решил донести до коллег/друзей. Разрабатываем на Python, казалось бы, незачем сильно вникать во «всю эту функциональщину», по крайней мере дальше filter/map/reduce. Но расширение кругозора, штука, бесспорно, полезная, поэтому я решил реализовать пару монад на Python, да так чтобы это не вылилось в полный unpythonic. Конечно же, не я первый и не я последний, было и есть несколько реализаций монад на основе Python, но все те реализации, что встречались мне, либо полностью unpythonic, либо сложны для понимания далёкому от самой концепции человеку. Пришлось изобретать свой велосипед, который, впрочем, позволяет ухватить суть…

Читать дальше →

+52

DreamWalker Nov 2 2012 at 15:12

Шаблон диссертации в LaTeX

1 min

58K

Недавно я начал нелёгкое дело по вёрстке диссертационной работы в LaTeX-е. Естественным первым желанием было найти какой-нибудь готовый шаблон. Увы, я не нашёл ничего, что подходило бы под мои нужны. Поэтому я решил сделать свой шаблон (с преамбулой и макрокомандами)! Сразу скажу по поводу соответствия шаблона ВАК-овским требованиям: строгих требований нет (можете сами посмотреть список нормативных документов). Однако определённые требования могут быть у конкретного совета (но они, как правило, весьма похожи и соответствуют здравому смыслу). В своём шаблоне я постарался учесть общие тенденции в оформлении такого рода работ. Не буду приводить кучу технических особенностей вёрстки в LaTeX (на эту тему и так хватает статей), а просто поделюсь готовым результатом: GitHub.

Почитать о содержимом шаблона

+63

siberiano Mar 23 2012 at 17:33

Перестаньте писать классы

9 min

184K

Python*Designing and refactoring*

Фото Джэка Дидриха из профиля на G+

Признак того, что объект не должен быть классом — если в нём всего 2 метода, и один из них — инициализация, __init__. Каждый раз видя это, подумайте: «наверное, мне нужна просто одна функция».

Каждый раз когда из написанного класса вы создаёте всего один экземпляр, используете только раз и тут же выбрасываете, следует думать: «ой, надо бы это отрефакторить! Можно сделать проще, намного проще!»

Перевод доклада Джэка Дидриха, одного из ключевых разработчиков языка Питон. Доклад прозвучал 9 марта 2012 на конференции PyCon US.

Читать дальше →

+178

ffriend Jul 17 2012 at 07:51

Я не знаю ООП

12 min

547K

Programming*ООP*

Я не умею программировать на объектно-ориентированных языках. Не научился. После 5 лет промышленного программирования на Java я всё ещё не знаю, как создать хорошую систему в объектно-ориентированном стиле. Просто не понимаю.

Я пытался научиться, честно. Я изучал паттерны, читал код open source проектов, пытался строить в голове стройные концепции, но так и не понял принципы создания качественных объектно-ориентированных программ. Возможно кто-то другой их понял, но не я.

И вот несколько вещей, которые вызывают у меня непонимание.

Читать дальше →

+206

yanchick May 30 2010 at 08:56

Как делать графики в LaTeX

2 min

25K

Очень часто в документ необходимо вставить тот или иной график. На сегодняшний день есть множество инструментов позволяющие это сделать с возможностью вставки в LaTeX документ среди них Gnuplot, Matplotlib. В данном посте хотелось бы осветить еще один способ создания графика при помощи пакета pgfplots. Этот пакет является «надстройкой»/«дополнением» к пакету Tikz(PGF).

Читать дальше →

+42

cast Jul 12 2011 at 13:56

AVL деревья и широта их применения

3 min

9.7K

Search engines*

Решил немного описать на мой взгляд самую полезную древовидную структуру. AVL дерево это бинарное дерево (у каждой вершины не более 2 сыновей), в котором каждой вершине присвоен идентификатор (как раз его и хранит дерево), идентификаторы подчиняются следующему правилу: ID левого сына<ID родителя<ID правого сына.
Т.е. если обходить дерево рекурсивно слева направо получим отсортированный по возрастанию список ID, справа налево – по убыванию.
Причем дерево максимально сбалансировано: высота левого поддерева отличается от высоты правого максимум на 1.

Интересно в нем то, что тогда на проверку существования элемента в дереве уходит log(N) N – количество ID. Ведь надо пройти от корня вниз, а поскольку дерево максимально симметрично то его высота — log(N)+1
Хорошая новость – нам никто не запрещает прикрепить к вершине еще какие-то полезные данные и тогда выборка произвольных данных по ID будет занимать log(N) времени
Плохая новость – одинаковые ID как следует из определения в нем существовать не могут. Придется делать финт ушами, один способ сделать вместо каждой вершины список вершин с одинаковым ID, другой – изменить алгоритм балансировки.

Читать дальше →

+13

ftynse Jan 24 2010 at 17:12

Диаграммы в LaTeX

12 min

26K

Многие достаточно часто сталкиваются с необходимостью создания различных диаграмм, графов, деревьев для удобного представления информации. Особенно важным этот вопрос может оказаться при создании презентаций. Большинство офисных пакетов предоставляют возможность создавать красивые диаграммы при помощи интерактивного интерфейса. А если нужно создать большую диаграмму? Или записать в ней математические формулы? Сосредоточиться на содержании, а не оформлении и расположении элементов на экране?

Преимущества использования LaTeX уже неоднократно обсуждались. Так же как и способы создания презентаций при помощи beamer и векторная графика из пакета PGF/Tikz. Но возможно ли получить в LaTeX диаграммы, не уступающие по внешнему виду полученным в больших и сложных пакетах? Один из способов предложен ниже.

Читать дальше →

+55

deNULL Jan 11 2011 at 01:22

Алгоритм «diamond-square» для построения фрактальных ландшафтов

12 min

116K

Карта игры Minecraft, созданная с помощью приложения Cartograph

Думаю, многие знакомы с весьма необычной игрой Minecraft (справа — пример сгенерированной в ней карты), в которой игрок находится на (практически) бесконечной поверхности Земли и может исследовать окружающий мир с минимальными ограничениями.

Как же автору игры, Notch'у, удалось добиться подобного сходства его случайных «миров» с земными просторами? В этом топике я как раз и рассмотрю один из способов построить искусственный ландшафт такого рода (и вскользь упомяну пару других способов), а также расскажу о моем небольшом усовершенствовании этого алгоритма, позволяющем значительно увеличивать размеры ландшафта без заметных потерь в производительности.

Внутри вас ждет несколько схем и красивых картинок, довольно много букв и ссылка на пример реализации алгоритма.

Читать дальше →

+145

impersonalis Feb 27 2011 at 22:40

Детектор границ Канни

6 min

91K

Image processing*

Доброго времени суток!

Последнее время, на Хабре часто стал упоминаться алгоритм выделения границ Канни (который, к моему удивлению, переводится дословно: хитрый). Итак, я созрел поделиться с общественностью своим опытом реализации этого детектора.

Читать дальше →

+64

Milfgard Feb 28 2011 at 13:49

Тренинг нестандартных поступков: как сделать работу продуктивнее

4 min

40K

Мосигра corporate blog

Тот факт, что нестандартные поступки помогают саморазвитию, думаю, далеко не новость для хабрасообщества и особенно для читателей блога GTD. В топике тема раскрывается несколько полнее, плюс есть примеры того, что стоит делать для того, чтобы хорошо себя чувствовать и легко работать со свежим умом и острым вниманием.

Чтобы хорошо работать, важно быть победоголиком (о чём регулярно упоминается в разных Success Stories и книгах по мотивации). Каждая победа — это доказательство себе своих сил, фиксация на дальнейший успех, улучшение настроения и состояния. А ещё — выстраивание новых нейронных связей и много-много развития.

Грубо говоря, это работает так: когда вы побеждаете, мозг запускает процессы стимуляции, закрепляя на низком уровне тенденцию к успеху.

Читать дальше →

+57

denvo Dec 26 2010 at 10:58

Генератор паролей, который всегда под рукой

8 min

11K

Про то, как придумывать хорошие, стойкие к подбору пароли, написано немало статей, в том числе и на Хабре. Сегодня я хочу рассказать про устройство, которое также предназначено для решения этой задачи. На его разработку у меня ушло всего пара дней, а изготовить по готовой документации его можно за несколько часов. Это устройство будет интересно смотреться на вашем столе, а также послужит оригинальным подарком компьютерному гику, сисадмину или специалисту по информационной безопасности.

Итак, знакомьтесь: RANDOMOUSE — генератор случайных символов, встроенный в обычную компьютерную мышку.

Читать дальше →

+69

freetonik Sep 21 2010 at 07:54

Hexlet.ru: «коллективный computer science student»

1 min

2.5K

Хекслет corporate blog

Здравствуйте!

Помните мой проектик об учебе в университете Carleton по программе Computer Science? Ему скоро будет 2 года!

Этим летом я предложил другим неравнодушным к информатике, математике и прочим наукам людям (студентам, специалистам или учителям/профессорам) присоединиться ко мне и создать коллективный блог. Сегодня мы рады открыть двери на новый сайт, который решено было назвать Hexlet. Hexlet это математическая фигура, которая отлично символизирует структуру содержания нашего сообщества: соприкасающиеся сферы внутри большой сферы как соседние области наук.

Мы приглашаем вас принять участие в жизни сообщества. Вы можете публиковать любые полезные материалы: от конспектов лекций до собственных исследований. Студенты и люди, работающие в индустрии, могут делиться опытом и знаниями; учителя или профессоры могут использовать сайт как площадку для публикации материалов по своему курсу: тогда их студенты смогут не только получить необходимую информацию, но и обсудить ее с другими людьми из разных частей планеты.

Читать дальше →

+67

Serenevenkiy Jun 17 2010 at 11:29

Делаем твёрдый переплёт для любимых книжек

6 min

523K

Небольшое вступление

В последнее время на Хабре появилось несколько статей о том, как можно удобно читать техническую и художественную литературу. Разгорались горячие споры об электронных читалках и способах печати нужного материала.

В своей статье мне хотелось бы поподробнее остановиться на вопросах собственно печати (как сделать этот процесс быстрым и удобным) и изготовления книги из доступных материалов.

Большое вступление

Некоторое время назад мне захотелось прочитать цикл Дугласа Адамса «Автостопом по галактике». Я попробовал почитать несколько переводов и не один меня не устроил. Поэтому было принято решение — читать на английском! Найти эти книги в оригинале в наших книжных магазинах довольно сложно. А если и есть, то только первая часть цикла. В электронном виде найти несколько проще. Но я предпочитаю читать с бумаги (читалку на E-ink куплю обязательно — очень нравятся), поэтому книги я распечатываю.

Первые две книги выглядели так:

Я их прочитал с огромным удовольствием, но выглядели они не очень хорошо. И я решил, что «Life, the Universe, and Everything» нужно делать книжкой.

Процесс с картинками и комментариями под катом. Осторожно, действительно много картинок.

Читать дальше →

+326