GolovinDS May 12 2023 at 17:19

Дизайн А/В-теста: пошаговая инструкция с теоретическими основами

Easy

7 min

9.3K

OTUS corporate blogProduct Management*

Tutorial

Автор статьи: Кристина Курдюмова

Кристина Курдюмова - ментор продактов, product manager Avito, стрим активация новых пользователей

Что такое АВ тест

АВ-тест (или A/B-тест) - это метод экспериментального исследования, используемый в маркетинге и продуктовом менеджменте для сравнения двух или более вариантов одного элемента или стратегии с целью определения наиболее эффективного решения. В А/В-тесте обычно сравниваются две версии (варианта A и варианта B) одного и того же элемента, такого как веб-страница, рекламный баннер, электронное письмо и т.д., чтобы определить, какой из них приводит к лучшим результатам или большей конверсии.

Принцип А/В-теста заключается в том, что случайно выбранная аудитория делится на две группы: одна группа видит вариант A, а другая группа - вариант B. Затем собираются данные о поведении и реакции пользователей на каждый вариант. Сравнивая результаты двух групп, можно определить, какой вариант более успешный или эффективный.

А/В-тесты позволяют проводить эксперименты с минимальными рисками, так как изменения применяются только к выбранным группам пользователей. Они могут помочь в оптимизации веб-сайтов, улучшении пользовательского опыта, повышении конверсии и максимизации эффективности маркетинговых кампаний и продуктовых стратегий.

Данному типу тестирования уже много лет. Инструмент еще в начале 20 века применял математик Вильям Госсет на производстве пива Guinness. Он использовал в производстве продукции разные виды ячменя, чтобы определить наиболее лучшее сочетание, которое понравится потребителю больше всего.

Еще один пример — тестирование 41 оттенка синего в поисковой выдачи Google в начале 2000-х годов. Специалисты компании вывели гипотезу: существует оттенок синего, который воспринимается человеческим глазом лучше остальных и это может повысить кликабельность.

Технологические компании, такие как Google, Amazon, Facebook, Airbnb, Netflix выстроили непрерывный процесс экспериментирования. Количество экспериментов в единицу времени - поражает: Airbnb 700 проверяет гипотез в неделю, Uber, Amazon проверяют 1200 гипотез в неделю.

Как сделать дизайн АВ? - давайте разбираться.

Как сделать дизайн АВ

Дизайн АВ тестирования состоит из нескольких шагов:

Формулируем гипотезу.
Выбираем целевую, прокси и контр-метрики.
Определяем сегмент АВ теста.
Запускаем эксперимент.

Формулируем гипотезу

В основе любого A/B теста лежит проблема (ситуация), которую нам надо решить (разрешить) или некое поведение пользователя, которое нам нужно изменить или, наоборот, закрепить. Выявив проблему, продакт менеджер формулирует гипотезу — предположение, которое либо подтверждается, либо опровергается в результате эксперимента.

Для правильной оценки результатов выделяют два типа гипотез:

Нулевая. Изменения ни к чему не приведут, конверсия остается прежней (задача — опровергнуть гипотезу).
Альтернативная. Изменения приведут к повышению метрики до х%.

Если с нулевой все понятно, то альтернативную необходимо сформулировать по правилам:

Используем “Если мы сделаем…то это приведет…”.
Определяем целевую метрику и направление (рост / падение / на месте).

Примеры продуктовых гипотез из моей практики:

если мы сделаем таббар в мобильной веб. версии, то у нас увеличатся контакты с избранного на 10%.
если мы поменяем мотивацию о скачивании предложения на баннере, то увеличим конверсию в скачивание приложения на 15% .
если мы закроем в онбординге для новых пользователей барьер о том, что в продукте “не безопасно”, то увеличим конверсию в контакт на 5% .

Выбираем целевую, прокси и контр метрики

Целевая метрика — метрика, на которую вы намерены позитивно повлиять.

Целевая метрика должна быть:

простая, интерпретируемая.
стабильная.

Прокси метрика — это косвенная мера целевой метрики, с которой она сильно коррелирует.

Прокси метрика должна:

коррелировать с целевой.
быть чувствительной (то есть способна реагировать на изменения в продукте).

Контр метрики — те метрики, которые вы можете подвергнуть падению в вашем АВ тесте.

Чтобы подобрать контр-метрики, можно задать себе вопросы:

Что я могу упустить из вида, если буду смотреть только на целевые метрики?
С какими рисками мы можем столкнуться при оптимизации целевых метрик?

Если у вас есть трудности с определением метрик или проведением АВ тестов - приходите на менторство - пишите в telegram @product_kris.

Определяем сегмент АВ теста

Определение сегмента для А/В теста - это важный шаг, который может влиять на точность и репрезентативность результатов тестирования. Поэтому важно тщательно подходить к этому процессу.

Размер выборки для А/В тестирования можно рассчитать с помощью специальных калькуляторов, например

Некоторые из них:

https://socioline.ru/rv.php
Optimizely Sample Size Calculator: https://www.optimizely.com/sample-size-calculator/
VWO A/B Test Duration Calculator: https://vwo.com/ab-test-duration/
AB Testguide Sample Size Calculator: https://www.abtestguide.com/ab-test-sample-size-calculator/
AB Tasty Sample Size Calculator: https://www.abtasty.com/sample-size-calculator/
Evan Miller Sample Size Calculator: https://www.evanmiller.org/ab-testing/sample-size.html

В этих калькуляторах вы можете ввести значения уровня значимости, мощности теста, ожидаемого эффекта и стандартного отклонения, чтобы получить размер выборки для А/В тестирования.

Определяем важные нюансы

Определяем допустимый уровень значимости

Допустимый уровень значимости (α - Альфа) - это вероятность того, что мы ошибочно отклоняем нулевую гипотезу, то есть гипотезу о том, что между двумя группами не существует статистически значимых различий. Обычно допустимый уровень значимости для А/В тестирования составляет 0,05 (или 5%). Это означает, что если у нас есть статистически значимый результат с уровнем значимости 0,05, то вероятность того, что мы сделали ошибку и нулевая гипотеза на самом деле верна, составляет 5%.

Считаем Minimum Detectable Effect

MDE (Minimum Detectable Effect) - это минимальный обнаруживаемый эффект, т.е. минимальное изменение метрики, которое вы сможете обнаружить с заданной вероятностью и статистической значимостью в А/В тесте.

Считать MDE необходимо ДО эксперимента - чтобы понять заранее, сможем ли мы прокрасить метрику или нам не хватит объема аудитории.

Определяем продолжительность тестирования

Для получения достоверных результатов рекомендуется проводить тестирование минимум 7 дней. За 7 дней ваша аудитория проходит и будни и выходные дни и устраняется сезонность. Сезонность в данном случае, это когда аудитория может активнее использовать ваш продукт в выходные дни или, наоборот, в будние.

Запуск эксперимента

Несколько советов перед запуском:

За несколько дней необходимо уведомить customer support об эксперименте для того, чтобы они могли помочь пользователям, которые обращаются в поддержку.

Рекомендую:

уведомить заранее (минимум 1 неделя).
предоставить UX/UI наглядные иллюстрации типа “ДО/ПОСЛЕ”.
подготовить вопросы, которые могут возникнуть у пользователей и сразу предоставить ответ тех поддержке.

Чтобы понять, будут ли баги при полной раскатке на весх пользователей - раскатывайте изменения плавно на трафик. Сначала запустите изменения на 5% трафика => 10% трафика => 50% => 100%.
Поместите себя в группу

Продакт должен быть в курсе всего, что он делает. В некоторых компаниях продакт подключается на этапе тестирования, чтобы заранее понять как новый функционал будет на продакшене выглядеть.

После запуска - тестируйте самостоятельно, попробуйте выполнить разные кейсы с новым функционалом, это поможет вам в интерпретации результатов.

Расслабьтесь и наблюдайте

Не стоит в первый день анализировать результаты - данные могут быть не стат значимы.

Иногда на начальных этапах можно увидеть подтверждение альтернативной гипотезы. И в этом случае новички допускают ошибку: прекращают тестирование раньше намеченного срока. Да, сначала изменения могут положительно повлиять на ключевую метрику, но уже в конце эксперимента может быть выявлено реальное отсутствие эффекта (если вообще не отрицательный результат). Поэтому ждите строго до конца запланированного периода.

Или наоборот, видите негативный эффект ключевой метрики и завершаете АВ тест. В некоторых АВ тестах с сильными изменениями, такой как наш пример - необходимо больше времени, для получения реальной картины. В Авито, называют это “дождаться привыкания” - то есть +7/14 дней для того, чтобы посмотреть на поведение пользователей с новым UX.

Всех обобщенных нюансов здесь не написать, так как в вашей компании и для каждого теста есть свои особенности, узнать которые помогает лишь опыт.

Анализ результатов

Анализ результатов A/B-теста включает несколько этапов:

Проверка статистической значимости: необходимо убедиться, что различия между контрольной и тестовой группами не являются случайными. Для этого используются статистические тесты, такие как t-тест или z-тест. Если различия статистически значимы, то можно считать, что изменения, внесенные в тестовую группу, действительно влияют на показатели.
Анализ ключевых метрик: необходимо определить, какие метрики были затронуты изменениями в тестовой группе. Если изменения положительно повлияли на ключевые метрики (например, увеличили конверсию), то можно считать, что изменения успешны.
Анализ поведения пользователей: необходимо изучить, как пользователи взаимодействуют с продуктом после внесенных изменений. Если пользователи начали чаще использовать новые функции или продукт стал более удобным в использовании, то можно считать, что изменения были успешны.
Анализ побочных эффектов: необходимо изучить, как изменения повлияли на другие аспекты продукта или бизнеса. Например, изменения могут повлиять на время загрузки страницы или количество обращений в службу поддержки. Если изменения не вызвали негативных побочных эффектов, то можно считать, что они успешны.

Принятие решения

На основе результатов анализа необходимо принять решение о том, следует ли внедрять изменения в продукт или нет. Если изменения были успешны и не вызвали негативных побочных эффектов, то их можно внедрить. Если изменения не были успешны, то можно провести новый A/B-тест, чтобы определить, какие изменения могут быть более эффективными.

Важно помнить, что результаты A/B-теста могут быть различными в зависимости от выбора метрик, контрольной и тестовой групп, продолжительности тестирования и других факторов. Поэтому необходимо проводить A/B-тестирование с учетом всех этих факторов и применять наиболее подходящие методы анализа результатов.

Дополнительные вопросы про АВ тесты:

Какие ошибки самые популярные в АВ тестировании:

Наличие нереалистичной гипотезы.
Запуск слишком большого количества сравнений одновременно.
Тестирование с неправильными аудиториями (например, трафику из Google показывать 1 кнопку , трафику из Яндекса другую кнопку).
Запуск слишком короткий или слишком длинный.

Делитесь этой статьей с коллегами, друзьями и партнерами. Пишите отзывы - мне будет приятно получить от вас обратную связь.

Также хочу порекомендовать вам бесплатный вебинар "Лайфхаки трудоустройства продакт-менеджера". Вы узнаете как оформить резюме и выбирать вакансии, как подготовиться к интервью. Поймете, как правильно оформить резюме и сопроводительное письмо, узнаете, как готовиться к интервью и увидите разборы резюме.

Зарегистрироваться на бесплатный вебинар

Подписывайтесь на меня в других соц.сетях и получайте больше пользы:

Tags:

Hubs: