Articles / Bookmarks / Profile of TonyaR / Habr

@TonyaR

User

Profile Publications Comments 6Bookmarks 41

baltachev Nov 20 2022 at 16:48

Что я бы хотел знать про ML System Design раньше

6 min

17K

Machine learning*IT careerOpen Data Science corporate blog

Около года назад я начал проходить собеседования в разные компании на позицию Machine Learning Engineer. Одним из этапов в каждой компании было проектирование ML системы. В данной статье я делюсь опытом и ресурсами, которые помогли мне пройти собеседования. В том числе в команду MLE Ленты, в которой сейчас тружусь.

+10

falklol Jan 11 2017 at 12:14

Машинное обучение — это легко

7 min

344K

Python*Big Data*Machine learning*

From sandbox

В данной статье речь пойдёт о машинном обучении в целом и взаимодействии с датасетами. Если вы начинающий, не знаете с чего начать изучение и вам интересно узнать, что такое «датасет», а также зачем вообще нужен Machine Learning и почему в последнее время он набирает все большую популярность, прошу под кат. Мы будем использовать Python 3, так это как достаточно простой инструмент для изучения машинного обучения.

Читать дальше →

+37

ITI_Capital Jul 9 2015 at 12:07

Топ-10 data mining-алгоритмов простым языком

24 min

128K

Data Mining*Algorithms*ITI Capital corporate blog

Translation

Примечание переводчика: Мы довольно часто пишем об алгоритмической торговле (вот, например, список литературы по этой теме и соответствующие аналитические материалы) и API для создания торговых роботов, сегодня же речь пойдет непосредственно об алгоритмах, которые можно использовать для анализа различных данных (в том числе на финансовом рынке). Материал является адаптированным переводом статьи американского раработчика и аналитика Рэя Ли.

Сегодня я постараюсь объяснить простыми словами принципы работы 10 самых эффективных data mining-алгоритмов, которые описаны в этом докладе.

Когда вы узнаете, что они собой представляют, как работают, что делают и где применяются, я надеюсь, что вы используете эту статью в качестве отправной точки для дальнейшего изучения принципов data mining.

Читать дальше →

+43

IvanKamynin Nov 10 2016 at 08:37

Построение диаграммы Вороного методом 'разделяй и властвуй'. Релаксация Ллойда

5 min

25K

C++*Algorithms*

Tutorial

Недавно, на хабрахабре была опубликована статья, целиком и полностью посвященная диаграммам Вороного. В статье автор подробно описывает алгоритм Форчуна, применяемый для построения Диаграммы Вороного за O(n*log(n)). Стоит отметить, что описание этого алгоритма не раз появлялось в рунете, в то время как о других алгоритмах (с той же асимптотикой) рассказано ровным счетом ничего. Данная статья исправляет это недоразумение, а также является отличным дополнением к уже опубликованному ранее материалу.

Ниже я расскажу о алгоритме 'разделяй и властвуй' построения диаграммы Вороного за O(n*log(n)), а также, основываясь на своем практическом опыте, о по-настоящему крутых штуках, в которых это применимо. Вообще, алгоритмы типа 'разделяй и властвуй' являются своего рода классикой программирования (думаю, про сортировку данным методом слышал каждый программист), хорошо параллелятся и легко читаются (если, конечно, знать основную идею алгоритма).

+34

mezastel Nov 9 2016 at 16:31

Приемы взятия сложных интегралов

3 min

40K

Mathematics*

Интeгpaлы, чтo мoжeт быть вeceлee? Hу, вoзмoжнo нe для вcex, нo вce жe, я ужe дaвнo ничeгo нe пocтил тaкoгo cугубo мaтeмaтичecкoгo, тaк чтo пoпpoбую. Этoт пocт – пpo тo кaк бpaть «cлoжныe» интeгpaлы. Этoт пocт пoдpaзумeвaeт чтo читaтeль училcя тaки в шкoлe и знaeт тpивиaльныe пoдxoды (нaпpимep, интегрирование по частям). B пocтe мы будeм oбcуждaть тoлькo интeгpaлы Pимaнa, a нe интeгpaлы Лeбeгa-Cтилтьeca, Итo, Cкopoxoдa и тaк дaлee (xoтя я бы c удoвoльcтвиeм, чeccлoвo).

Becь этoт пocт — мaлeнькaя выбopкa peцeптoв или «пaттepнoв» кoтopыe мoжнo взять в кoпилку и пoтoм пpимeнять. Пocт peкoмeндуeтcя читaть нa high-DРI диcплee дaбы пpeдoтвpaтить глaзнoe кpoвoтeчeниe. Я пpeдупpeдил.

Если интересно...

+57

wunder_editor Nov 14 2016 at 22:16

Глубокое обучение для новичков: распознаем изображения с помощью сверточных сетей

27 min

100K

Algorithms*Machine learning*Wunder Fund corporate blog

Tutorial

Translation

Введение

Представляем вторую статью в серии, задуманной, чтобы помочь быстро разобраться в технологии глубокого обучения; мы будем двигаться от базовых принципов к нетривиальным особенностям с целью получить достойную производительность на двух наборах данных: MNIST (классификация рукописных цифр) и CIFAR-10 (классификация небольших изображений по десяти классам: самолет, автомобиль, птица, кошка, олень, собака, лягушка, лошадь, корабль и грузовик).

Читать дальше →

+34

mbureau May 21 2013 at 13:56

Обзор моделей прогнозирования временных рядов: проба пера

4 min

99K

Mathematics*

Tutorial

В рамках своей диссертации «Модель прогнозирования по выборке максимального подобия» мне нужно было делать обзор моделей прогнозирования. Кроме обзора, я сделала вариант классификации, который мне тогда не очень удался. Классификацию уже немного поправила, теперь хочется разобраться в существующих моделях прогнозирования временных рядов. Такие модели называют стохастическими моделями (stochastic models).

По оценке некто Тихонова в его «Прогнозировании в условиях рынка» на сегодняшний день (2006 год) существует около 100 методов и моделей прогнозирования. Эта оценка звучит бредово, я полно разбирала ее! Давайте теперь вместе разберемся, какие же модели прогнозирования временных рядов существуют на сегодняшний день.

Регрессионные модели прогнозирования
Авторегрессионные модели прогнозирования (ARIMAX, GARCH, ARDLM)
Модели экспоненциального сглаживания (ES)
Модель по выборке максимального подобия (MMSP)
Модель на нейронных сетях (ANN)
Модель на цепях Маркова (Markov chains)
Модель на классификационно-регрессионных деревьях (CART)
Модель на основе генетического алгоритма (GA)
Модель на опорных векторах (SVM)
Модель на основе передаточных функций (TF)
Модель на нечеткой логике (FL)
Что еще?...

Разберемся по очереди со всеми

+27

mbureau Apr 23 2013 at 11:08

Классификация методов и моделей прогнозирования

5 min

168K

Mathematics*

Tutorial

From sandbox

Я занимаюсь прогнозированием временных рядов уже более 5 лет. В прошлом году мною была защищена диссертация по теме «Модель прогнозирования временных рядов по выборке максимального подобия», однако вопросов после защиты осталось порядочно. Вот один из них — общая классификация методов и моделей прогнозирования.

Обычно в работах как отечественных, так и англоязычных авторы не задаются вопросом классификации методов и моделей прогнозирования, а просто их перечисляют. Но мне кажется, что на сегодняшний день данная область так разрослась и расширилась, что пусть самая общая, но классификация необходима. Ниже представлен мой собственный вариант общей классификации.

В чем разница между методом и моделью прогнозирования?

Метод прогнозирования представляет собой последовательность действий, которые нужно совершить для получения модели прогнозирования. По аналогии с кулинарией метод есть последовательность действий, согласно которой готовится блюдо — то есть сделается прогноз.

Модель прогнозирования есть функциональное представление, адекватно описывающее исследуемый процесс и являющееся основой для получения его будущих значений. В той же кулинарной аналогии модель есть список ингредиентов и их соотношение, необходимый для нашего блюда — прогноза.

Совокупность метода и модели образуют полный рецепт!

Читать дальше →

alsafr Nov 2 2016 at 11:01

Искусственный интеллект в поиске. Как Яндекс научился применять нейронные сети, чтобы искать по смыслу, а не по словам

12 min

131K

Search engines*Semantics*Яндекс corporate blogMachine learning*

Сегодня мы анонсировали новый поисковый алгоритм «Палех». Он включает в себя все те улучшения, над которыми мы работали последнее время.

Например, поиск теперь впервые использует нейронные сети для того, чтобы находить документы не по словам, которые используются в запросе и в самом документе, а по смыслу запроса и заголовка.

Уже много десятилетий исследователи бьются над проблемой семантического поиска, в котором документы ранжируются, исходя из смыслового соответствия запросу. И теперь это становится реальностью.

В этом посте я постараюсь немного рассказать о том, как у нас это получилось и почему это не просто ещё один алгоритм машинного обучения, а важный шаг в будущее.

Читать дальше →

+129

130

OBR1 Oct 12 2016 at 15:47

Рассказ о том, как быть количественным аналитиком

15 min

14K

OBR Forex corporate blogFinance in IT

Translation

После того, как я сдал экзамен CFA 1-го уровня, мне часто писали те, кто хотел узнать, как стать количественным аналитиком. В определённой степени данный материал отвечает на этот вопрос. Однако, здесь я расскажу скорее не о том, как стать аналитиком, а о том, как им быть в любой отрасли индустрии финансовых услуг, в которой вы работаете. «Быть аналитиком», в моём понимании, означает скорее следовать определённой идеологии, нежели ориентироваться на некий формальный набор знаний, навыков и правил.

Читать дальше →

+15

Arnis71 Oct 12 2016 at 15:48

Нейронные сети для начинающих. Часть 1

7 min

1.5M

Machine learning*

From sandbox

Привет всем читателям Habrahabr, в этой статье я хочу поделиться с Вами моим опытом в изучении нейронных сетей и, как следствие, их реализации, с помощью языка программирования Java, на платформе Android. Мое знакомство с нейронными сетями произошло, когда вышло приложение Prisma. Оно обрабатывает любую фотографию, с помощью нейронных сетей, и воспроизводит ее с нуля, используя выбранный стиль. Заинтересовавшись этим, я бросился искать статьи и «туториалы», в первую очередь, на Хабре. И к моему великому удивлению, я не нашел ни одну статью, которая четко и поэтапно расписывала алгоритм работы нейронных сетей. Информация была разрознена и в ней отсутствовали ключевые моменты. Также, большинство авторов бросается показывать код на том или ином языке программирования, не прибегая к детальным объяснениям.

Поэтому сейчас, когда я достаточно хорошо освоил нейронные сети и нашел огромное количество информации с разных иностранных порталов, я хотел бы поделиться этим с людьми в серии публикаций, где я соберу всю информацию, которая потребуется вам, если вы только начинаете знакомство с нейронными сетями. В этой статье, я не буду делать сильный акцент на Java и буду объяснять все на примерах, чтобы вы сами смогли перенести это на любой, нужный вам язык программирования. В последующих статьях, я расскажу о своем приложении, написанном под андроид, которое предсказывает движение акций или валюты. Иными словами, всех желающих окунуться в мир нейронных сетей и жаждущих простого и доступного изложения информации или просто тех, кто что-то не понял и хочет подтянуть, добро пожаловать под кат.

Читать дальше →

+50

anvaka Oct 6 2016 at 07:13

Я тут это… Трекалку для времени написал. За 628 минут

2 min

35K

Website development*JavaScript*

Привет, Друзья! Пару недель назад я подумал: «А можно ли использовать гугловые таблицы (Google Sheets), как простое и безопасное хранилище данных?». О, а еще мне давно хотелось написать трекалку времени.

И вот что получилось:

Код + Сайт

А деталей немножко под катом.

+52

Anatoliy_Karpov Sep 29 2016 at 19:38

О степенях свободы в статистике

8 min

219K

Data Mining*R*Stepik.org corporate blogMachine learning*

В одном из предыдущих постов мы обсудили, пожалуй, центральное понятие в анализе данных и проверке гипотез — p-уровень значимости. Если мы не применяем байесовский подход, то именно значение p-value мы используем для принятия решения о том, достаточно ли у нас оснований отклонить нулевую гипотезу нашего исследования, т.е. гордо заявить миру, что у нас были получены статистически значимые различия.

Однако в большинстве статистических тестов, используемых для проверки гипотез, (например, t-тест, регрессионный анализ, дисперсионный анализ) рядом с p-value всегда соседствует такой показатель как число степеней свободы, он же degrees of freedom или просто сокращенно df, о нем мы сегодня и поговорим.

Читать дальше →

+30

EliteForce Sep 29 2016 at 15:00

Искусственный Интеллект в Excel предсказывает обладателя золотой медали в мужском турнире на Рио 2016

6 min

14K

Research and forecasts in IT*

From sandbox

Каждый раз, когда мы используем сложные математические алгоритмы и современные методы машинного обучения, мы ставим задачу получить тренд, понять внутренние зависимости, и в конечном счете произвести предсказания. Более точные результаты можно получить, если алгоритм может быть адаптирован под имеющиеся знания, под имеющуюся модель процесса. Одним из направлений в машинном обучении, которое позволяет создавать и обучать модели для получения предсказаний, является «порождающее (или Байесовское) моделирование» (в отличие от «дискриминативного» моделирования, например, нейронных сетей). Для создания вероятностных моделей и работы с ними существуют платформы, которые в последнее время относятся к направлению «вероятностным программированием». Более подробно о вероятностном программировании можно почитать в других статьях на Хабрахабре: «Вероятностное программирование», «Вероятностное программирование – ключ к искусственному интеллекту?» и «Вероятностное программирование».

Совсем недавно появился стартап Invrea, который в качестве вероятностного языка программирования предлагает использовать Excel: вероятностная модель может быть создана в Экселе и предсказания могут быть получены там же. Ниже находится перевод одной из статьи с сайта стартапа (перевод выполнен исключительно в образовательных целях). В статье авторы рассматривают пример «бытовой» ситуации. Им интересно понять, кто победит в теннисном турнире на Олимпийских играх 2016. Они производят предсказания о том, кто наиболее вероятный кандидат на победу. Статья была написана 7 августа, во время игр, после завершения всех игр первого тура.

+19

SLY_G Aug 3 2016 at 15:01

Загляните в будущее, чтобы понять прошлое

9 min

29K

Popular sciencePhysics

Translation

Альтернатива ньютоновскому взгляду на мир обещает объяснить странности квантовой физики

Судя по лучшим из физических теорий, вы неправильно представляете себе время. В эйнштейновской ОТО нет разницы между прошлым и будущим, не говоря уже о понятии «сейчас». Также там нет направления, в котором «течёт» время; вместо этого пространство и время просто существуют в некоей четырехмерной структуре. Более того, все фундаментальные законы физики работают одинаково как вперёд по времени, так и назад.

Эти факты нелегко принять, поскольку они противоречат нашему субъективному восприятию времени. Но не расстраивайтесь: их нелегко принять даже физикам и это напряжение приводит физику в противоречие не только со здравым смыслом, но и с самой собой. И хотя физики много говорят о симметрии времени, они позволяют себе искать причины явлений, происходящих в мире, только в прошлом, а не в будущем.

Читать дальше →

+15

57uff3r Jul 29 2016 at 08:18

Кривая обучения и кривые руки: неуемная фантазия + исследования физика Джеффри Уэста

6 min

17K

Self Promo

Люди прекрасно живут, не зная английского. Без английского легко можно сходить в магазин, провести диванную аналитическую консультацию, оплатить счета и высказаться о достоинствах мамки вашего оппонента.

Под катом — несколько интересных графиков и эволюция сложных систем. И что с этим делать.

+15

mephistopheies Aug 2 2013 at 16:04

Решение задачи кластеризации методом градиентного спуска

6 min

26K

Data Mining*Algorithms*

Привет. В этой статье будет рассмотрен способ кластеризации данных, используя метод градиентного спуска. Честно говоря данный способ носит больше академический характер, нежели практический. Реализация этого метода мне понадобилась в демонстрационных целях для курса по машинному обучению, что бы показать как одинаковые задачи можно решить различными способами. Хотя конечно если вы планируете осуществить кластеризацию данных, используя дифференцируемую метрику, для которой вычислительно труднее найти центроид, нежели подсчитать градиент на некотором наборе данных, то этот метод может быть полезным. Итак если вам интересно как можно решить задачу k-means кластеризации с обобщенной метрикой используя метод градиентного спуска, прошу под кат. Код на языке R.

Читать дальше →

+46

kokorins Jul 30 2013 at 01:30

Скрытые цепи Маркова, алгоритм Баума-Велша

4 min

24K

Algorithms*

Скрытые модели/цепи Маркова одни из подходов к представлению данных. Мне очень понравилось как обобщается множество таких подходов в этой статье.

В продолжение же моей предыдущей статьи описания скрытых моделей Маркова, задамся вопросом: откуда взять хорошую модель? Ответ достаточно стандартен, взять неплохую модель и сделать из нее хорошую.

Напомню пример: нам нужно реализовать детектор лжи, который по подрагиванию рук человека, определяет, говорит он правду или нет. Допустим, когда человек лжет, руки трясутся чуть больше, но нам не известно на сколько именно. Возьмем модель наобум, прогоним алгоритм Витерби из предыдущей статьи и получим довольно странные результаты:

Читать дальше →

+36

kokorins May 18 2013 at 09:38

Скрытые цепи Маркова, алгоритм Витерби

5 min

59K

Algorithms*R*

Нам нужно реализовать детектор лжи, который по подрагиванию рук человека, определяет, говорит он правду или нет. Допустим, когда человек лжет, руки трясутся чуть больше. Сигнал может быть таким:

Исходный сигнал

Интересный метод, описан в статье «A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition» L.R. Rabiner, которая вводит модель скрытой цепи Маркова и описывает три ценных алгоритма: The Forward-Backward Procedure, Viterbi Algorithm и Baum-Welch reestimation. Несмотря на то, что эти алгоритмы представляют интерес только в совокупности, для большего понимания описывать их лучше по отдельности.

Читать дальше →

+72

yorko Jan 27 2016 at 00:25

Python и красивые ножки: как я бы знакомил сына с математикой и программированием

4 min

109K

Entertaining tasksPython*Programming*Mathematics*

Раньше мы уже искали необычные модели Playboy с помощью библиотеки Python Scikit-learn. Теперь мы продемонстрируем некоторые возможности библиотек SymPy, SciPy, Matplotlib и Pandas на живом примере из разряда занимательных школьных задач по математике. Цель — облегчить порог вхождения при изучении Python библиотек для анализа данных.

Читать дальше →

+50

2 3