X5Tech Aug 2 2022 at 16:59

Бутстреп и А/Б тестирование

10 min

50K

X5 Tech corporate blogPython*Mathematics*Statistics in IT

+12

Comments 9

AlexBream Aug 3 2022 at 14:08

Небесполезно, обстоятельно, аккуратно. Но вопрос - только одного меня анноит написание "бутстреп" для bootstrap?! Который и в британском, и в американском английском произносится совершенно одинаково в обсуждаемом моменте, как [ˈbuːt.stræp], и "е" там нет совсем никак

karmapol1ce Aug 4 2022 at 14:02

Это особенность всего русскоязычного сообщества. Так удобней. Люди чаще видят слово, а не слышат. И произносят как могут, а не как надо. Надо смириться. Я забил на это, когда в доте тиммейты просили меня сделать "свап" на венге, а в университете просили написать "свап" для сортировки. А по факту "своп".

grigorynikitin Aug 4 2022 at 15:38

Так работают заимствования в русском языке. Например, пюрЕ или кафЕ

AlexBream Aug 9 2022 at 12:48

Да, но
> Бутстрэп (англ. bootstrap) в статистике — практический компьютерный метод исследования распределения статистик вероятностных распределений

и "667 тыс. результатов" для "бутстреп", которому сразу был найден синоним "бутстрэп"

и "616 тыс. результатов" для "бутстрап"

Что делает решения как минимум равнозначными

пюрЕ или кафЕ

Неудачные примеры, потому как источники - французские, и оба

purеe
сafе

на хвосте имеют тот же звук (и букву), что и русское заимствование, а у бутстрапа по тем же признакам - "а". Вот "словотворчество" и шокирует

yorko Aug 5 2022 at 12:46

Спасибо за статью!

Вопрос: почему мы стандартное отклонение в самом начале поделили на sqrt(n)? Как-то слишком низким получается стандартное отклонение. В формуле несмещенной оценки под корнем в знаменателе должно быть просто (n-1), а не n(n-1)?

В numpy – np.std(ddof=1) для несмещенной оценки

X5Tech Aug 5 2022 at 16:38

@yorko, здравствуйте.

Потому что мы исследуем не стандартное отклонение выборки, как в вашем примере, а стандартное отклонение выборочного среднего. Дисперсия выборочного среднего в раз меньше дисперсии случайной величины.

$Var(\overline{X}) = Var(\dfrac{1}{n} \sum_{i=1}^n X_i) = \dfrac{1}{n^2}Var(\sum_{i=1}^n X_i) = \dfrac{n}{n^2}Var(X_1) = \dfrac{Var(X_1)}{n}$

соответственно стандартное отклонение будет в $\sqrt{n}$ раз меньше

Hadron_coll Aug 5 2022 at 16:04

Спасибо за статьи в цикле аб тестов, обе полезные!
А можно ли использовать бутстреп вкупе со стратифицированным средним?

X5Tech Aug 5 2022 at 16:46

@Hadron_coll, здравствуйте.

Бутстреп и стратификация решают две разные задачи. С помощью стратификации мы снижаем дисперсию, что приводит к увеличению чувствительности тестов, а с помощью бутстрепа оцениваем стандартное отклонение и строим доверительные интервалы.

Да, эти методы могут использоваться вместе, но стоит обратить внимание, что если вы используете бутстреп для стратифицированной выборки, то и бутстрепить следует стратифицированно.

Hadron_coll Aug 5 2022 at 17:03

Спасибо за ответ.
Я руководствуюсь следующей логикой: бутстреп на шумных данных дает сильную разбежку и широкий доверительный интервал, и лучше как-то работать с распределением перед тем, как использовать бутстреп. При уменьшении дисперсии имеем сужение доверительного интервала, а значит, показатели бутстрепа улучшатся, если считать его на стратифицированном среднем по сравнению с обычным.