Что такое A/B-тестирование и как провести первый тест?

Михаил Карпов – Что такое A/B-тестирование и как провести первый тест?

Михаил Карпов

Founder & CEO ProductStar
ex-Product Director Skyeng

14.04.2022 / Время чтения: 4 мин.

Время на прочтение: 4 минут(ы) A/B-тестирование помогает отсеивать неудачные гипотезы и проверять хорошие. Как правильно провести тест, расскажет Михаил Карпов, CEO & Founder ProductStar

Что такое A/B-тестирование и как провести первый тест?
Время на прочтение: 4 минут(ы)

Что такое А/Б-тест или сплит-тест?

A/B-тестирование или сплит-тестирование — эксперимент, который проводят продакты (и не только) для проверки гипотез. Чтобы понять, принесет ли пользу конкретное изменение, нужно на практике сравнить первоначальный вариант с модифицированным и проанализировать результаты.

Все продакты (и не только) любят A/B-тесты!

Зачем нужен сплит-тест?

Представим, что вы продакт компании, которая занимается разработкой приложения сервиса стриминга музыки. У вас большая команда и вы каждый день ищите пути улучшения вашего сервиса. Улучшать что-то без достаточных оснований — глупо, мы же помним, что продукт должен решать определенную проблему (правда помним?). Любые изменения вносятся в продукт с конкретной целью, она либо помогает пользователю, либо решает бизнес задачи (супер, если все сразу). В нашем случае поступает задача от старшего продакта: увеличить число активных пользователей. Команда начинает генерировать гипотезы, как нам добиться желаемой цели. Здесь на сцену и выходят сплит-тесты.

Продакты не любят неопределенность
Во время генерации гипотез мы делаем предположения, которые требуют доказательств. Гипотезы могут основываться на нашем личном опыте, статистических данных или исследовании наших пользователей. Иногда кажется, что из 10 гипотез к успеху могут привести все. Что делать? Скрестить пальцы и запустить А/Б-тест!

Решения из воздуха
Соблазн сразу выдать готовое решение всегда мешает продакту. Представим, что в нашем кейсе мы предположили, что поиск по текстам песен с большой вероятностью повысит количество пользователей. Реализовать такую фичу — трудоемкая работа целой команды, но что, если мы ошиблись? Новых пользователей не привлекли, а драгоценное время потрачено. Чтобы такого не случалось, сперва MVP новой фичи следует прогнать через А/Б тест, на основе которого можно будет принимать решение: делать ли фичу и насколько много ресурсов

Как провести A/B-тестирование на примере?

Шаг 1. Сначала прицелиться

Прежде чем проводит тест, задайте себе простой вопрос: “Зачем?” Физики ставят эксперименты, чтобы больше узнать о больше узнать о явлениях природы, а продакты — чтобы решить задачу или достичь определенной цели: улучшить конверсию в покупку, повысить LTV и т.д.

Пример
В видеосервисе ВКонтакте одна из ключевых метрик это «число просмотров». Простая, понятная цель, но как ее достичь? Сперва подумаем, с какими другими метриками может быть связано число просмотров?

Шаг 2. Метрики всему голова

А/Б-тестирование — количественное исследование, оно отражает изменение того, что можно измерить. Поэтому нужно понять, какие показатели будем считать или, говоря языком продактов — определить метрики. Лучше всего выбрать 1-3 метрики, изменения которых будем отслеживать. Если метрик будет много, то точно определить эффект теста будет проблематично.

Допустим, для нашего примера с Видеосервисом можно выделить следующие метрики:

  1. число просмотров
  2. средняя длительность просмотра
  3. количество лайков на видеозаписях

Важно следить за всеми ключевыми метриками сервиса, так как в результате внедрения изменений бывает, что одна метрика вырастет, а несколько других наоборот снизятся (и тут уже продакту необходимо принимать бизнес решение: оставлять внедрение или откатывать к первоначальному варианту)

Шаг 3. Мыслим гипотетически

Нашли цель, двигаемся к гипотезе, именно ее мы будем проверять. Лучше всего представить ее по формуле:

“если произойдет событие А, то с метрикой
произойдет событие Б”

Для нашего примера это выглядит следующий образом:

«Если человек досмотрит видео до конца и мы покажем 10-секундный таймер обратного отчёта, а после него включим следующее видео, то на 10% увеличится общее число просмотров видео»

Это большое изменение и его стоит проверить в A/B-тесте (чтобы точно понимать что мы улучшим, а не ухудшим нашу метрику). Мы имеем здесь два возможных развития событий:

Нулевая гипотеза: изменения нет, событие А происходит, а метрика не изменяется
Альтернативная гипотеза: подтверждение нашего предположения, метрика меняется, когда происходит событие А.

Шаг 4. Найти испытуемых

У эксперимента всегда есть пользователи, на которых мы его проводим, наша задача определить, кто нам подходит: из какой страны, все пользователи или только новые, иными словами — выделить группу испытуемых.

Затем нам стоит определить, сколько пользователей мы должны протестировать. А/Б тесты тесно связаны со статистикой, и часто случается, что малое количество пользователей не даст вам определить, есть ли зависимость изменения метрики от ваших нововведений. Проще всего это сделать с помощью специальных сервисов-калькуляторов, например Driveback или Optimizely.

Когда мы проводим эксперимент, мы также должны не попасть в ловушку статистики и предусмотреть все случайные совпадения. Когда мы тестируем большое количество пользователей, простые совпадения не редкость, по-умному это называется “определение уровня статистической значимости”. Обычно, берется значение в 5%, это значит что в 5% случаев совпадения допустимы и являются случайными, поэтому мы не будем обращать на них особого внимания.

Последнее – устанавливаем дедлайн. Мы же не можем проводить эксперимент бесконечно, чаще всего для проверки гипотезы достаточно одной или двух недель.

Шаг 5. Провести А/А тест

Прежде чем проводить A/B-тест, необходимо проверить сами группы испытуемых на идентичность. Эти группы должны показать одинаковый результат на А/А тесте (т.е. обеим группам показываем версию продукта без изменений). Если этого не сделать, изменения на А/Б-тесте можно списать на то, что пользователи у нас изначально отличались. А/А тест ликвидирует такую вероятность.

Шаг 6. Запускаем и не торопимся

Настал самый сложный для продакта этап – не торопится. После запуска эксперимента важно проверить, все ли работает (особенно если изменения метрик уж слишком неожиданные). Еще раз проверить корректность настроек, после чего следует дать тесту “доработать”.

Частая ошибка — сделать вывод раньше времени, когда видна победа альтернативной гипотезы (т.е. положительное изменение метрики на варианте Б). К концу эксперимента результаты могут изменится на противоположные, поэтому всегда доводите эксперимент до конца.

Шаг 7. Анализируем результаты

Когда эксперимент закончен, нужно обработать полученные данные. Возможно два исхода:

Победила нулевая гипотеза, то есть изменений нет. В этом случае полезно будет понять, почему гипотеза не сработала:

Пример
Мы добавили автовключение видео, но метрика изменилась только на 0,02%, что по информации от команды аналитиков является статистически незначимым в нашем случае.

Значит наше изменение нам не помогло и важно изучить из-за чего такое произошло (это может быть ошибка в дизайне, может мы что-то не поняли в поведении пользователей и стоит провести качественное исследование и пообщаться с ними вживую)

Победила Альтернативная гипотеза. Тест подтвердил наше предположение, событие А привело к изменению метрики Б.

Пример

Мы добавили автовключение видео и метрика «число просмотров» изменилась на 2%, что по информации от команды аналитиков является статистически значимым в нашем случае.

Для проверки результатов важно запустить повторное тестирование, либо распространить тест на всех пользователей, после чего уже делать решение о внедрении полноценной версии фичи.

Частые ошибки при проведении сплит-тестов

Мы задали Михаилу частый вопрос наших студентов: Какие ошибки допускают новички?

  • Неоднородная аудитория.

Если мы тестируем гипотезу на разных пользователях, то делать выводы о ее работе не можем. Чтобы не экспериментировать впустую, всегда проверяйте пользователей на А/А тестах

  • Игнорирование незначительных результатов

Во время теста обнаруживается рост отслеживаемой метрики, но ниже ожидаемого. К примеру мы ожидали роста в 7-10%, а метрика выросла на 2-3%. Мы получили ценную информацию, которая может вывести нас на новую гипотезу или проблему, игнорировать ее – значит упустить возможность

  • Игнорирование других показателей

Вполне может быть, что эксперимент действительно показывает рост нужной нам метрики, но другие показатели снижаются. Нужно проводить дополнительные исследования и строить гипотезы для решения проблемы, но ни в коем случае не опускать рук

Но не стоит забывать и о глобальных ошибках:

Ошибка I рода. Так в статистике называется ситуация, когда складывается иллюзия результата. К примеру, наша гипотеза работает, хотя на самом деле эффекта нет.
Ошибка II рода. Обратная ситуация, когда мы не видим реальных изменений. Часто бывает, что метрика просто реагирует на изменения недостатка данных (т.е. мало пользователей для анализа).

Как избежать этих ошибок?

Для этого и проводятся повторные тестирования, тестирования на всех пользователях, качественные исследования. Как врач никогда не спешит ставить поспешный диагноз, так и вы не должны делать поспешных выводов. Сомнения — ключ к поиску работающих гипотез.

Подпишись на нашу рассылку и получай свежие полезные материалы каждую неделю

Какой-то текст ошибки
Какой-то текст ошибки

Нас читает 11 000 человек

Научитесь A/B-тестированию и другим инструментам продакт-менеджера

На курсе "Профессия: Продакт-менеджер" вы освоите все необходимые навыки для создания и развития продуктов. Андрей Менде, Product Manager в Booking покажет на примере как правильно провести A/B-тест и анализировать результаты. Наш Карьерный Центр гарантирует трудоустройство и поможет начать карьеру в IT.

Посмотреть