Pull to refresh
50
0
Антон Сердюк @m00t

Software Engineer

Send message
Просто в hosts низя, если https.
Кто-то еще спорит об этом? Разве есть разница объективная между этими двумя подходами? Договорились один раз вначале (проголосовали, взяли готовый гайдлайн, лидер зафорсил) и все. Че тут разводить холиворы?
Слишком все сложно у них, к сожалению. Всегда пользовался Keeper Classic. Сейчас зашел в их Keeper Standard и увидел только 1 кошелек из своих 4х. Наверняка я просто его когда-то как-то с чем-то расшаривал, но я уже ничего этого не помню. Надеюсь Keeper Standard это первый шаг к убиванию всех остальных киперов, в особенности этого стремного Keeper WinPro.
Раньше нельзя было перенести WMID с Keeper Classic на Keeper Light, можно было зарегистрировать новый. Уже можно?
К сожалению, не обладаю нужной базой, чтобы продолжать адекватную дискуссию о Байесовской вероятности. Ушел читать матчасть.
Выходит, что CTBO это не «1 — значимость» или как? Можете подробнее прокомментировать этот момент?
Вы правы, доверительный интервал не айс решение. Он не просто сложен для работы, но и вообще никак никто не доказал, что он лучше простого «посмотрим на цифры через неделю и выберем бОльшую».

CTBA не уверен, но CTBO математически точен. Он как-раз выдает цифру «1 — коэфициент значимости». Другое дело, что мы забываем про мощность, которая там тоже есть, как и в любом критерии. А эту мощность в зависимости от размера выборки нам может посчитать функция R power.prop.test, например. Ну и нельзя забывать про (не уверен как правильно по-русски сказать) т.н. ошибку постоянной проверки статистической значимости — нельзя держать тест, пока результат не станет статистически значимым, нужно сначала определиться с размером выборки при помощи той же power.prop.test (при этом точно так же выбрав субъективно необходимые значимость и мощность), а потом прогнать нужного размера выборку через наш тест.
По каким-то непонятным причинам я решил, что это комментарий от автора статьи. Прошу прощения
У вас есть две константы, коэффициент значимости и мощность, которые нужно выбирать субъективно

Совершенно верно. Но я не понял, что вы имеете ввиду в первом предложении.
Если говорить точнее, задача A/B тестов это фактически проверка гипотезы о равенстве двух случайных величин при неизвестных дисперсиях, раздел 3.5.5 этого учебника, стр 82.
Не знаю, к какому комментарию это написать, поэтому напишу отдельно. Я, наверное, понял, откуда взялась ваша ошибка с интервалами. Очень похоже, что это со страницы 75 учебника Бородич С.А. Эконометрика. И там даже на стр 76-77 есть примеры, где попадание наблюдаемого значения в доверительный интервал используется как критерий. Но. Это все работает, когда мы говорим о известной дисперсии случайной величины. В реальных задачах, какой являются A/B-тесты дисперсию случайной величины, на равенство которой мы проверяем нашу выборку, мы не знаем. И тут уже надо читать раздел 3.5.2 на стр 77. И тут мы уже вместо интервалов видим использование t-критерия Стюьдента.
Неизвестно, лучше ли будет просто на глаз посмотреть, больше ли конверсия, или считать доверительные интервалы как делали вы. Надо доказывать, что второе лучше (и не факт, что это на самом деле так). Вы понимаете, что ваша фраза «И не дает математически точного результата» полностью сводит на нет полезность статьи, т.к. всю статью вы пытались вроде математически обосновать свои решения, которые вы принимаете на основе результатов A/B тестов, а тут вдруг оказывается, что это не то чтобы математически точные решения. Окей, можно сказать «они не совсем точны, но лучше чем никакие», но опять же, то что они лучше и ближе к точными, надо доказать. Может так получиться, что критерий, который используете вы (сравнение доверительных интервалов), работает, скажем, со статистической значимостью 0.01% (вероятность ошибки 1го рода, т.е. вероятность найти результат там где его нету), но с мощностью 30% (вероятность ошибки 2го рода, т.е. вероятность не найти результат там где он есть, 70%).
Нет! Формула (1) рассчитывает порядок необходимых цифр для получения значимного результата по критерию с заданными статистической значимостью и мощностью. Константа 16 содержит в себе статистическую значимость 5% и мощность 80%. Когда вы внезапно меняете критерий на свой с неизвестными статистической значимостью и мощностью, результаты, которые дает эта формула, становятся совершенно бесполезны.
Сначала вы говорите, что взяли с этих ссылок, теперь что из учебника. Окей, в таком случае поделитесь номерами страниц этого учебника, где вы это взяли.
Вычисления доверительного интервала по формуле (2) показывают, что реальное значение конверсии с вероятностью 95% лежит внутри этого интервала от 1,72% до 2,28%. Откуда вы взяли утверждение о значимости отклонения повторного проведения теста? Это совершенно неверно. Доверительные интервалы двух измерений могут пересекаться (это совершенно точно), даже частота одного из измерений может быть внутри доверительного интервала другого измерения (если не может, то это надо сначала доказать, либо привести ссылки где это доказано, прежде чем использовать), но при этом нуль-гипотеза о том, что реальных различий между конверии нету, может быть отвергнута с заданными статистической значимостью и мощностью.
Ну и еще один момент. Ни в коем случае нельзя ждать, пока критерий сработает с нужной статистической значимостью, как вы это делали, пусть и со странным критерием. Это подробно описано в той статье, из которой вы, видимо, брали формулу (1). Правильно будет сначала определить необходимый размер данных, провести тест на этих данных и потом интерпретировать результат, для чего, собственно, формула (1) и приведена в той статье, или использована функция power.prop.test в этой статье
У вас, как и в статье, по которой вы это все делали (A/B Testing Tech Note: determining sample size), есть проблема. Критерии, по которым проверяются гипотезы о случайных величинах (а A/B тест есть не что иное, как проверка гипотезы), не формулируются простыми условиями вида «если наблюдаемая частота величины B не попала в доверительный интервал величины A». Вот пример критерия: t-критерий Стьюдента. Формула номер (1) действительно показывает кол-во необходимых данных в каждой выборке, чтобы результат проверки гипотезы соответствовал выбранным статистической значимости и мощности критерия (ваши «95% доверительный интервал, статистическая мощность 80%»). Но. Самого теста на верность гипотезы нету ни у вас, ни в той статье. Та функция power.prop.test, которая юзается в статье вместо вашей формулы (1), на самом деле дополняется еще функцией prop.test, которая уже и говорит нам о том, верна ли наша гипотеза (обычно это гипотеза о том, что две величины никак не различаются) с заданной статистической значимостью, или нет. А мощность этого критерия позволяет вычислить функция power.prop.test.
Может существовать: изменение конверсии на 17% с доверительным интервалом 10%(в этом случае — изменение — значимое).

А может быть и так: изменение конверсии на 17% с доверительным интервалом в 20%(в этом случае — изменение — незначимое).

Нет, не может. Может существовать «с уровнем доверия 5% (ваша „точность“ 95%) вариант А имеет конверсию 2% ± 0,28%, а вариант B имеет конверсию 2.3% ± 0,29%». Поэтому непонятно, каким образом вы формулировали критерий того, что вариант B (новый) лучше варианта A (старого), если конверсия варианта A это не константа, а такая же случайная величина, как и конверсия варианта B. Откуда взялся этот интервал от 1,72% до 2,28% у вас под катом и какое значение должно не попасть в этот интервал? 2%, от которых отсчитывается этот интервал это что, средняя конверсия сайта за последние пол-года или конверсия варианта А? Какое значение не должно попасть в этот интервал, конверсия варианта B?
Хотя нет, не бред. Биномиальное распределение аппроксимируется нормальным вполне себе. Прошу прощения, я тут сам с собой немного поговорю, пока вспоминаю тервер. Я просто некоторое время назад тоже занимался математическим обоснование A/B тестов, и цифры у меня получились тогда совершенно не такие как у автора.

Information

Rating
Does not participate
Date of birth
Registered
Activity