Articles / Bookmarks / Profile of jurodivij / Habr

How to become an author

User

Profile Publications Comments 4Bookmarks 42

yorko Mar 13 2017 at 14:03

Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей

33 min

495K

Python*Data Mining*Algorithms*Machine learning*Open Data Science corporate blog

Привет всем, кто проходит курс машинного обучения на Хабре!

В первых двух частях (1, 2) мы попрактиковались в первичном анализе данных с Pandas и в построении картинок, позволяющих делать выводы по данным. Сегодня наконец перейдем к машинному обучению. Поговорим о задачах машинного обучения и рассмотрим 2 простых подхода – деревья решений и метод ближайших соседей. Также обсудим, как с помощью кросс-валидации выбирать модель для конкретных данных.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Читать дальше →

+61

AgileChange Jan 18 2020 at 16:18

«Красная» корпоративная культура – главная проблема российского бизнеса (Часть 2)

10 min

50K

Project management*Agile*Personnel Management*

Мы поговорили о недостатках «красной» корпоративной культуры в первой части статьи. Но нужно понимать, что живучесть её объясняется тем, что такой тип культуры не только является самым большим, но и, одновременно, самым невидимым препятствием на пути развития российского бизнеса.

Система 5С Юрского периода

Хочу привести случай из своей практики. На одном из предприятий промышленной компании новое руководство с помпой объявило о внедрении Бережливого производства. Много говорилось о том, как этот новый подход выведет предприятие на новый уровень эффективности. И первым инструментом БП для внедрения была выбрана система 5С на пилотном участке производственного склада.

Начальник склада встретил нас с большим энтузиазмом и вместе с его командой мы приступили к первой стадии — сортировке, но под завалами старого хлама и ненужных деталей мы вдруг наткнулись на интересное археологическое открытие — старые выцветшие таблички с инструкциями и плакатами 5С и остатки специфической разметки краской на полу.

— Так это мы уже один раз внедряли 5С три года назад! – радостно пояснил начальник участка, увидев немой вопрос в моих глазах. – Просто со временем как-то всё забылось…

Я поинтересовался, а нужно ли внедрять этот инструмент, если он всё равно его не применяет.

«Ну как же не внедрять? Дело-то хорошее», — ответил он.

Читать дальше →

+72

sim0nsays Jun 15 2018 at 09:50

Курс о Deep Learning на пальцах

2 min

173K

Image processing*Machine learning*RoboticsArtificial Intelligence

Я все еще не до конца понял, как так получилось, но в прошлом году я слово за слово подписался прочитать курс по Deep Learning и вот, на удивление, прочитал. Обещал — выкладываю!

Курс не претендует на полноту, скорее это способ поиграться руками с основными областями, где deep learning устоялся как практический инструмент, и получить достаточную базу, чтобы свободно читать и понимать современные статьи.

Материалы курса были опробованы на студентах кафедры АФТИ Новосибирского Государственного Университета, поэтому есть шанс, что по ним действительно можно чему-то научиться.

Читать дальше →

+117

johnpateha Oct 24 2018 at 14:01

Как стать датасайнтистом, если тебе за 40 и ты не программист

8 min

148K

Data Mining*QIWI corporate blogMachine learning*Studying in ITIT career

Бытует мнение, что стать датасайентистом можно только имея соответствующее высшее образование, а лучше ученую степень.

Однако мир меняется, технологии становятся доступны и для простых смертных. Возможно, я кого-то удивлю, но сегодня любой бизнес-аналитик в состоянии освоить технологии машинного обучения и добиться результатов, конкурирующих с профессиональными математиками, и, возможно, даже лучших.

Дабы не быть голословным, я расскажу вам свою историю — как из экономиста я стал дата-аналитиком, получив необходимые знания через онлайн-курсы и участвуя в соревнованиях по машинному обучению.

Сейчас я ведущий аналитик в группе больших данных в QIWI, но еще три года назад я был довольно далек от датасайнс и об искусственном интеллекте слышал только из новостей. Но потом все изменилось, во многом благодаря Coursera и Kaggle.

Итак, обо всем по порядку.

Читать дальше →

+112

iskros Nov 13 2018 at 13:58

Полезный обзор. 28 книг, которые повлияли на мое мышление, вдохновили или сделали лучше

7 min

151K

Professional literature*IT career

Recovery Mode

Я не люблю читать книжные рейтинги по двум причинам. Во-первых, чаще всего они представляют собой список книг, отобранных неведомым автором по неведомым критериям. Во-вторых, описания книг больше напоминают рекламные тексты издательств, которым сложно верить.

Из-за этого большинство подобных материалов мало полезны, несмотря на то, что могут содержать толковые книги. Мне давно хотелось написать полезный обзор, который не станет навязывать определенные материалы, а позволит читателю выбрать наиболее подходящие.

Читать дальше →

+48

Pyhesty Nov 6 2018 at 12:19

Видеть невидимое. Ближний инфракрасный диапазон (0.9-1.7мкм)

5 min

38K

Manufacture and development of electronics*Popular sciencePhotographic equipmentPhysicsThe future is here

На видео может показаться, что вольфрамовым ломом черпают расплавленный светящийся уран, но… но нет. И это не изображение тепловизора — это самый ближний инфракрасный спектральный диапазон. Возможно, вы больше не увидите таких уникальных картинок, которые спрятались под кат, добро пожаловать…

ps: читающие заголовок в мобильной версии анимацию сейчас не видят, поэтому добро пожаловать сразу в статью… ваша чашка со свежезаваренным кофе далее по тексту… =)

Интересные картинки далее...

+50

ELEKTRO_YAR Jul 22 2018 at 19:08

Бесконечный узор на основе простых чисел

1 min

26K

Abnormal programming*Algorithms*Mathematics*

Привет, Хабр! Однажды утром мне пришла в голову идея находить "исключающее ИЛИ" между координатами точки пространства и проверять полученное число на простоту. Результат такого простого алгоритма вы можете видеть на картинке. Подробнее под катом.

+48

qrazydraqon Nov 14 2011 at 15:41

Как работает yield

6 min

665K

Translation

На StackOverflow часто задают вопросы, подробно освещённые в документации. Ценность их в том, что на некоторые из них кто-нибудь даёт ответ, обладающий гораздо большей степенью ясности и наглядности, чем может себе позволить документация. Этот — один из них.

Вот исходный вопрос:

Как используется ключевое слово yield в Python? Что оно делает?

Например, я пытаюсь понять этот код (**):
def _get_child_candidates(self, distance, min_dist, max_dist):
    if self._leftchild and distance - max_dist < self._median:
        yield self._leftchild
    if self._rightchild and distance + max_dist >= self._median:
        yield self._rightchild
Вызывается он так:
result, candidates = list(), [self]
while candidates:
    node = candidates.pop()
    distance = node._get_dist(obj)
    if distance <= max_dist and distance >= min_dist:
        result.extend(node._values)
        candidates.extend(node._get_child_candidates(distance, min_dist, max_dist))
        return result
Что происходит при вызове метода _get_child_candidates? Возвращается список, какой-то элемент? Вызывается ли он снова? Когда последующие вызовы прекращаются?

** Код принадлежит Jochen Schulz (jrschulz), который написал отличную Python-библиотеку для метрических пространств. Вот ссылка на исходники: http://well-adjusted.de/~jrschulz/mspace/

Подробный и обстоятельный ответ

+131

mephistopheies Feb 20 2017 at 16:01

Базовые принципы машинного обучения на примере линейной регрессии

20 min

178K

Python*Algorithms*Mathematics*Machine learning*Open Data Science corporate blog

Здравствуйте, коллеги! Это блог открытой русскоговорящей дата саентологической ложи. Нас уже легион, точнее 2500+ человек в слаке. За полтора года мы нагенерили 800к+ сообщений (ради этого слак выделил нам корпоративный аккаунт). Наши люди есть везде и, может, даже в вашей организации. Если вы интересуетесь машинным обучением, но по каким-то причинам не знаете про Open Data Science, то возможно вы в курсе мероприятий, которые организовывает сообщество. Самым масштабным из них является DataFest, который проходил недавно в офисе Mail.Ru Group, за два дня его посетило 1700 человек. Мы растем, наши ложи открываются в городах России, а также в Нью-Йорке, Дубае и даже во Львове, да, мы не воюем, а иногда даже и употребляем горячительные напитки вместе. И да, мы некоммерческая организация, наша цель — просвещение. Мы делаем все ради искусства. (пс: на фотографии вы можете наблюдать заседание ложи в одном из тайных храмов в Москве).

Мне выпала честь сделать первый пост, и я, пожалуй, отклонюсь от своей привычной нейросетевой тематики и сделаю пост о базовых понятиях машинного обучения на примере одной из самых простых и самых полезных моделей — линейной регрессии. Я буду использовать язык питон для демонстрации экспериментов и отрисовки графиков, все это вы с легкостью сможете повторить на своем компьютере. Поехали.

Читать дальше →

+75

NIX_Solutions Nov 15 2017 at 10:24

Раскрашиваем чёрно-белую фотографию с помощью нейросети из 100 строк кода

22 min

76K

Algorithms*Machine learning*NIX corporate blog

Translation

Перевод статьи Colorizing B&W Photos with Neural Networks.

Не так давно Амир Авни с помощью нейросетей затроллил на Reddit ветку /r/Colorization, где собираются люди, увлекающиеся раскрашиванием вручную в Photoshop исторических чёрно-белых изображений. Все были изумлены качеством работы нейросети. То, на что уходит до месяца работы вручную, можно сделать за несколько секунд.

Давайте воспроизведем и задокументируем процесс обработки изображений Амира. Для начала посмотрите на некоторые достижения и неудачи (в самом низу — последняя версия).

+60

anton_gcor Jan 16 2017 at 16:14

Чек-лист вёрстки

7 min

81K

Website development*CSS*HTML*

Это статья — список полезных мелочей. Весь текст поделен на две части. Первая рассказывает про простые элементы (текст, кнопки, изображения, формы и другие), вторая часть про производительность, масштабируемость, безопасность и доступность.

Читать дальше →

+82

boo_v2 Jan 15 2015 at 15:53

Бекап аудиозаписей с плейлиста ВКонтакте (до 6000) средствами Python и Vk API

4 min

58K

Здравствуйте.

Раньше часто слушал музыку средствами «Вконтакте» (далее ВК). После перехода на Ubuntu 14.10 возникли проблемы в виде полного зависания компьютера во время прослушивания аудиозаписей через браузер Google Chrome для linux систем. В связи с этим возникла необходимость забекапить свой плейлист для прослушивания музыки в оффлайн режиме. Для этих целей решил написать маленький скрипт на языке Python, которым можно будет не только скачивать музыку с нуля, но и обновлять существующую библиотеку.

Я использовал такие модули:

Selenium webdriver
requests
json
os

Собственно, начнем.

Читать дальше →

+22

olegbunin Jul 31 2017 at 16:33

Artisto: опыт запуска нейросетей в production

21 min

16K

Data Mining*Algorithms*Конференции Олега Бунина (Онтико) corporate blogImage processing*Machine learning*

Эдуард Тянтов (Mail.ru Group)

Меня зовут Эдуард Тянтов, я занимаюсь машинным обучением в компании Mail.ru Group. Я расскажу про приложение стилизации видео с помощью нейронных сетей Artisto, про технологию, которая лежит в основе этого приложения.

Давайте я дам пару фактов о нашем приложении:

1-е мобильное приложение стилизации видео в мире;
Уникальная технология стабилизации видео;
Приложение с технологией разработаны за 1 месяц.

+29

stickytape Jun 8 2017 at 16:26

Как я участвовал в хакатоне Angular Attack, и что из этого вышло

9 min

7K

Website development*Programming*Dart*Angular*Wrike corporate blog

Привет, друзья. Меня зовут Алексей, я работаю фронтенд-разработчиком в Санкт-Петербургском офисе компании Wrike, и сегодня я хочу рассказать про то, как я поучаствовал в хакатоне AngularAttack, где моя работа Sherlock в итоговом протоколе заняла первое место.

Читать дальше →

+17

Mourner Sep 2 2008 at 01:22

Замыкания в JavaScript

5 min

272K

Website development*

Если вы используете JavaScript, но при этом так до конца и не разобрались, что же это за чудная штука такая — замыкания, и зачем она нужна — эта статья для вас.

Читать дальше →

+119

Vasyutka May 29 2017 at 01:56

Нейронные сети в детектировании номеров

7 min

51K

Algorithms*Image processing*Recognitor corporate blogMachine learning*

Распознавание автомобильных номеров до сих пор является самым продаваемым решением на основе компьютерного зрения. Сотни, если не тысячи продуктов конкурируют на этом рынке уже на протяжении 20-25 лет. Отчасти поэтому сверточные нейронные сети (CNN) не бьют прежние алгоритмические подходы на рынке.

Но опыт последних лет говорит, что алгоритмы CNN позволяют делать надежные и гибкие для применения решения. Есть и еще одно удобство: при таком подходе всегда можно улучшить надежность решения на порядок после реального внедрения за счет переобучения. Кроме того, такие алгоритмы отлично реализуются на GPU (графических модулях), которые значительно эффективней с точки зрения потребления электроэнергии, чем обычные процессоры. А платформа Jetson TX от NVidia так просто потребляет очень мало по меркам современных вычислителей. Наглядное «энергетическое превосходство»:

Читать дальше →

+67

itmo May 22 2017 at 18:02

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

4 min

15K

Data Mining*Big Data*Open data*Data visualization*ITMO corporate blog

16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.

В сегодняшнем материале — выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Читать дальше →

+15

crazyhatter May 17 2017 at 13:47

CRISP-DM: проверенная методология для Data Scientist-ов

16 min

70K

Data Mining*Algorithms*Machine learning*ГК ЛАНИТ corporate blog

Постановка задач машинного обучения математически очень проста. Любая задача классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.

* Crisp (англ.) — хрустящий картофель, чипсы

Читать дальше →

+51

blognetology May 11 2017 at 14:53

Как стать веб-разработчиком в 2017 году — план действий

2 min

202K

Website development*Programming*Нетология corporate blog

Recovery Mode

Translation

Светлана Шаповалова, редактор «Нетологии» адаптировала заметку Quincy Larson, в которой он представил три возможных пути становления веб-разработчика: для фронтенда, бекэнда и DevOps.

Читать дальше →

+41

m1rko May 11 2017 at 13:38

Твоя идея — ерунда

5 min

28K

Open source*GitHub*

Translation

Я думал, что достиг желанного. Один из моих open-source проектов начал набирать небольшую аудиторию фолловеров на GitHub. Больше никакой нытливой неуверенности в себе, ведь около тысячи наблюдателей за звёздами следят за моим проектом — это всё, что нужно для подтверждения ценности. Это то, что можно вспоминать в моменты неуверенности. Напоминание, что я действительно достиг того, чего стою на самом деле. Никогда не думал, что звёзды могут отвернуться от меня.

* * *

Всё случилось из-за одного из тех самых людей, чьи мнения я так усердно собирал. Я говорю об одном конкретном человеке, который использовал мой проект для управления хранилищем данных бэкенда на платформе его компании. Это была критически важная функция, и как технический директор своей компании он нёс ответственность за её техническую обоснованность. Он очень профессионально вложился в сторону моей разработки. Его проект сильно отличался от большинства других, где мой код обычно использовался для сторонних или любительских задач.

Его ожидания от меня как мейнтейнера и моя собственная вера в своё желание делиться кодом — сочетание этих двух факторов привело к довольно невероятной череде событий, о которой я расскажу.

Читать дальше →

+66

1