Articles / Bookmarks / Profile of Ad_fesha / Habr

How to become an author

Михаил @Ad_fesha

Аналитик

Profile Publications Comments 89Bookmarks 112

nrsharip Apr 11 at 16:06

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Medium

15 min

7.7K

Python*Algorithms*Mathematics*Statistics in ITInfographics

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

Читать далее

+25

badcasedaily1 Feb 20 at 11:28

Обзор библиотеки drake в R

Easy

6 min

579

R*Machine learning*OTUS corporate blog

Review

Drake предлагает систематический подход к построению и управлению зависимостями в проектах, автоматизируя процесс обработки данных и анализа. С помощью drake можно отслеживать изменения в коде и данных, автоматически перезапуская только те части анализа, которые были изменены.

Создатель drake, Уилл Ландау, искал способ улучшить репродуктивность исследований в R, и так родилась библиотека drake. С тех пор она претерпела множество изменений и улучшений.

Читать далее

+7

ANazarov Sep 27 2022 at 16:05

Регрессионный анализ в DataScience. Простая линейная регрессия. Библиотека statsmodels

50 min

53K

Python*Data Mining*Mathematics*Studying in ITStatistics in IT

Tutorial

Data Mining Season

Обзор построения и анализа парной линейной регрессионной модели с использованием библиотеки statsmodels

+9

evaclick Feb 9 at 17:17

Моя большая практическая шпаргалка SQL (SQLite) с готовыми запросами

Medium

54 min

85K

Python*SQL*SQLite*

Translation

Привет, Хабр)

Публикую шпаргалку по SQL, которая долгое время помогала мне, да и сейчас я периодически в неё заглядываю.

Все примеры изначально писались для СУБД SQLite, но почти всё из этого применимо также и к другим СУБД.

Здесь есть и примеры довольно сложных запросов с агрегирующими функциями, триггерами, длинными подзапросами, с оконными функциями. Помимо этого, часть примеров посвящена работе с SQL в Python, используя sqlite3, pandas, polars. Этот список запросов с комментариями можно использовать как наглядное пособие для изучения SQL.

Читать далее

+119

ANazarov Apr 14 2023 at 02:18

Регрессионный анализ в DataScience. Часть 3. Аппроксимация

Medium

72 min

12K

Python*Data Mining*Mathematics*Statistics in IT

Tutorial

В предыдущих обзорах (https://habr.com/ru/articles/690414/, https://habr.com/ru/articles/695556/) мы рассматривали линейную регрессию. Пришло время переходить к нелинейным моделями. Однако, прежде чем рассматривать полноценный нелинейный регрессионный анализ, остановимся на аппроксимации зависимостей.

Про аппроксимацию написано так много, что, кажется, и добавить уже нечего. Однако, кое-что добавить попытаемся.

При выполнении анализа данных может возникнуть потребность оперативно построить аналитическую зависимость. Подчеркиваю - речь не идет о полноценном регрессионном анализе со всеми его этапами, проверкой гипотез и т.д., а только лишь о подборе уравнения и оценке ошибки аппроксимации. Например, мы хотим оценить характер зависимости между какими-либо показателями в датасете и принять решение о целесообразности более глубокого исследования. Подобный инструмент предоставляет нам тот же Excel - все мы помним, как добавить линию тренда на точечном графике:

Читать далее

+14

neoflex Dec 11 2023 at 11:31

Сравнительный анализ методов аппроксимации на основе SQL-запросов

Medium

19 min

6.1K

PostgreSQL*SQL*Neoflex corporate blogStatistics in IT

Tutorial

✏️ Technotext 2023

При работе с данными часто приходится сталкиваться с ситуацией, когда имеется некоторая функциональная зависимость y_i = f(x_i), которая получена в результате эксперимента или сбора статистики. То есть исходные данные представлены набором точек (x₁, y₁), (x₂, y₂) … (x_n, y_n), где n – количество экспериментальных значений. Если аналитическое выражение функции f(x) неизвестно или весьма сложно, то возникает чисто практическая задача: найти такую функцию Y = F(x), значения которой при x=x_i будут близки к экспериментальным данным. Приближение функции f(x_i) к более простой F(x) называется аппроксимацией. Аппроксимация позволяет исследовать числовые характеристики и качественные свойства объекта, сводя задачу к изучению более простых или более удобных объектов. Как правило, выбор модели аппроксимации определяется по минимальному значению погрешности на всем интервале исходных данных. Для расчетов необходимо использовать несколько видов аппроксимаций, чтобы определить более точное описание зависимости экспериментальных данных y = f(x_i).

Читать далее

+8

maratyv Dec 16 2023 at 21:24

АБ тесты и подводные камни при их автоматизации

Medium

14 min

6.8K

Python*Big Data*Mobile App Analytics*Statistics in IT

Задача оценки нововведений в онлайн и мобильных приложениях возникает повсеместно. Один из наиболее надёжных и популярных способов решения этой задачи - двойной слепой рандомизированный эксперимент, также известный как АБ-тест.

На тему АБ-тестирования доступны как статьи на Хабре, так и целые книги (неполный список литературы в конце). В основе АБ-теста лежит следующая идея - случайно разделить пользователей на две или более группы, в одной из которых исследуемая функциональность выключена, а в других - включена. Затем можно сравнить метрики и сделать выводы.

Читать далее

+8

evaclick Dec 28 2023 at 14:28

100 вопросов для подготовки к собесу Data Science

Medium

98 min

62K

Python*SQL*Mathematics*Data visualization*

Доброго времени суток!

Представляю вашему вниманию чек-лист из 100 вопросов по Data Science. Вопросы покрывают 5 областей: SQL, Python, Machine Learning, статистику и собственно саму DS.

Кому это вообще может быть полезно?

Читать далее

+13

KristinaMyLife Feb 28 2020 at 13:39

Оконные функции с «форточкой» или как пользоваться фреймом

5 min

69K

SQL*Microsoft SQL Server*OTUS corporate blog

Всем привет. 26 февраля в OTUS стартовали занятия в новой группе по курсу «MS SQL Server разработчик». В связи с этим я хочу поделиться с вами своей публикацией про оконные функции. Кстати, в ближайшую неделю еще можно записаться в группу ;-).

Оконные функции прочно вошли в нашу практику, но мало кто знает как работают фреймы RANGE и ROWS.

Возможно поэтому они несколько реже встречаются. Цель этой статьи привести примеры использования, чтобы у вас точно не осталось вопросов “Кто есть кто?” и “Как это применять?”. Вопрос “Зачем?” в статье останется не освещенным.

Давайте разберемся что такое фрейм, и как схожего эффекта достичь с помощью ORDER By в предложении OVER().

Для демонстрации будем использовать простую таблицу, чтобы можно было просчитать примеры без использования компилятора. Вообще, очень рекомендую — посмотрите и продумайте, что будет в результате выполнения, а потом проверьте себя — так вы обнаружите белые пятна в восприятии работы оконных функций, которые могут быть совсем не очевидными, когда читаешь уже готовые результаты.

Читать дальше →

+15

rvishnevsky Jul 13 2023 at 14:55

Градиентный бустинг: как подобрать гиперпараметры модели в 5 раз быстрее, чем обычно?

Hard

36 min

4.1K

Data Mining*Apache*Big Data*Росбанк corporate blogData Engineering*

Tutorial

В этой статье я расскажу, как, используя недокументированные возможности фреймворка Apache Spark, качественно подобрать гиперпараметры для модели градиентного бустинга всего за один человеко-день вместо обычных пяти.

Читать далее

+4

MaxRokatansky Aug 2 2023 at 15:24

Создаем конвейер машинного обучения с помощью DBT

Medium

10 min

1.7K

Machine learning*OTUS corporate blog

Tutorial

Translation

Создание хорошего конвейера данных, который способен на конструирование признаков (feature engineering), обучение и формирование прогнозов на основе ваших данных, может оказаться довольно сложной задачей. Может, но это совсем не обязательно. В этой статье проведу вас по этому процессу шаг за шагом.

Для обучения и прогнозирования непосредственно в нашей базе данных, будем использовать BigQuery ML. Затем я покажу вам, как мы можем использовать такой инструмент, как DBT, для создания конвейера данных, который конструирует признаки, обучает модель, делает прогнозы, и все это без необходимости извлечения данных из нашей базы данных.

Без лишних отлагательств, давайте разбираться!

Читать далее

+4

badcasedaily1 Aug 24 2023 at 12:55

Статистические тесты и проверка гипотез в R

15 min

6.3K

R*OTUS corporate blog

Современный мир насыщен данными, анализ информации становится критически важным инструментом для принятия обоснованных решений. Однако просто иметь данные не достаточно – необходимо извлечь из них ценную информацию. В этом процессе статистические тесты и проверка гипотез играют важнейшую роль. Они позволяют нам сделать выводы на основе данных, опираясь на строгие методы анализа, и тем самым способствуют принятию обоснованных решений.

Статистические тесты – это мощный инструмент, который позволяет провести объективную оценку данных и проверить гипотезы, основанные на этой информации. Они позволяют определить, насколько вероятно, что наблюдаемые различия или закономерности случайны, а не реально существующие в популяции. Статистические тесты позволяют избежать ошибок и предоставляют научно обоснованный подход к анализу данных.

Читать далее

+11

kirillkosolapov Aug 21 2023 at 10:23

Виды баз данных. Большой обзор типов СУБД

21 min

79K

Database Administration*Data storage*Data storages*Amvera corporate blog

Review

Часто, в обзорах видов баз данных упоминают реляционные и “другие”, “NoSQL” и т.д., либо приводят самые основные типы СУБД (базы данных), забывая о редких. В данной статье я постараюсь описать максимально полно виды баз данных и привести примеры конкретных реализаций. Разумеется, статья не претендует на всеохватность и классифицировать базы данных можно по разному, в том числе по типам оптимальной нагрузки и т.д., но надеюсь, она даст базовое представление о видах СУБД и принципах их работы.

В статье мы рассмотрим следующие типы баз данных:

Читать далее

+38

aio350 Aug 21 2023 at 10:15

Как работает компьютер: глубокое погружение (на примере Linux)

Hard

48 min

137K

Configuring Linux*System administration*Development for Linux*Computer hardware

Review

Translation

Введение

Я делала много вещей с компьютерами, но в моих знаниях всегда был пробел: что конкретно происходит при запуске программы на компьютере? Я думала об этом пробеле — у меня было много низкоуровневых знаний, но не было цельной картины. Программы действительно выполняются прямо в центральном процессоре (central processing unit, CPU)? Я использовала системные вызовы (syscalls), но как они работают? Чем они являются на самом деле? Как несколько программ выполняются одновременно?

Наконец, я сломалась и начала это выяснять. Мне пришлось перелопатить тонны ресурсов разного качества и иногда противоречащих друг другу. Несколько недель исследований и почти 40 страниц заметок спустя я решила, что гораздо лучше понимаю, как работают компьютеры от запуска до выполнения программы. Я бы убила за статью, в которой объясняется все, что я узнала, поэтому я решила написать эту статью.

И, как говорится, ты по-настоящему знаешь что-то, только если можешь объяснить это другому.

Более удобный формат статьи.

Читать дальше →

+152

yorko Mar 20 2017 at 19:38

Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии

30 min

522K

Python*Algorithms*Mathematics*Machine learning*Open Data Science corporate blog

Всем привет!

Сегодня мы детально обсудим очень важный класс моделей машинного обучения – линейных. Ключевое отличие нашей подачи материала от аналогичной в курсах эконометрики и статистики – это акцент на практическом применении линейных моделей в реальных задачах (хотя и математики тоже будет немало).

Пример такой задачи – это соревнование Kaggle Inclass по идентификации пользователя в Интернете по его последовательности переходов по сайтам.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Все материалы доступны на GitHub.
А вот видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017). В ней, в частности, рассмотрены два бенчмарка соревнования, полученные с помощью логистической регрессии.

Читать дальше →

+50

Margaret1618 Jan 30 2023 at 14:33

Что такое мат.анализ и с чем его едят?

5 min

23K

Давайте знакомиться: я Меликян Маргарита, кандидат физико-математических наук, уже 4й год работаю на мехмате МГУ и кафедре высшей математики МФТИ, а также несколько лет как преподаю в ШАД Helper. Преподаю я как разнообразные курсы из блока анализа, так и вероятностного блока, и сегодня я хочу немного поговорить о том, каково это – осваивать математический анализ и каких ошибок следует избегать, какие лайфхаки применить.

Первая препона, с которой сталкивается человек в самом начале освоения новой дисциплины, даже если он это делает “под присмотром” преподавателя – это литература. На что нужно обращать внимание и ориентироваться при выборе?

Читать далее

+38

Margaret1618 Aug 2 2023 at 14:05

Как понять (и простить) теорию вероятностей?

Easy

6 min

6.8K

Всем привет! На связи вновь Меликян Маргарита, мы уже знакомились в статье, где поговорили немного о математическом анализе, а теперь (после принятых зачётов и экзаменов) захотелось сказать пару слов и по поводу курса теории вероятностей.

Общие проблемы, возникающие у неофитов высшей математики, уже были рассмотрены мною в статье про мат.анализ, поэтому их я опускаю (ознакомьтесь с вышеуказанной статьёй, если ещё не), и сразу приступаю к подсвечиванию специфичных для тервера проблемных мест.

Читать далее

+10

polina_ok Sep 6 2022 at 16:37

Продвинутые методы Uplift-моделирования

8 min

6.8K

Data Mining*Machine learning*GlowByte corporate blog

Data Mining Season

Всем привет! Меня зовут Окунева Полина, я ведущий аналитик компании GlowByte. Сегодня я хочу рассказать о задаче Uplift-моделирования — частном случае такой большой сферы как Causal Inference, или причинно-следственный анализ, — и методах ее решения. Задачи такого типа важны во многих областях. Если вы сотрудник, например, продуктовой компании, то причинно-следственный анализ поможет сократить издержки на коммуникации с людьми, на которых она не повлияет. Если вы врач, то такой анализ подскажет, выздоровел пациент благодаря лекарству или из-за удачного стечения обстоятельств.

Какого-то полноценного гайда по продвинутым методам Uplift-моделирования я не встретила ни в русско-, ни даже в англоязычном интернете, поэтому было огромное желание структурировать информацию и поделиться ею с интересующимися.

Читать далее

+13

badcasedaily1 Jul 27 2023 at 11:52

Профилирование производительности R-скриптов

Medium

13 min

1K

R*OTUS corporate blog

Review

Когда мы занимаемся анализом данных, каждая миллисекунда имеет значение. Профилирование производительности - это мощный инструмент, который позволяет нам выявлять узкие места в нашем коде, те самые места, где программа затрачивает больше всего времени. Понимание этих моментов позволяет нам сосредотачиваться на оптимизации и сделать нашу работу более быстрой и эффективной.

Цель этой статьи - рассмотреть методы профилирования производительности и оптимизации для повышения эффективности R-скриптов. Мы поговорим о встроенных инструментах R, которые помогают нам профилировать код, а также о том, как правильно анализировать результаты профилирования.

Читать далее

+8

vladjong May 24 2022 at 16:51

Генерация лабиринтов: алгоритм Эллера

6 min

25K

C++*Algorithms*

Привет, Хабр!

Сегодня я хотел бы рассказать о генерации идеального лабиринта - алгоритмом Эллера. Статья подойдёт всем любителям алгоритмов.

Читать далее

+51

1