Как определить размер выборки для A/B-тестирования и временные рамки

Создадим сайт под ключ и продвинем его
A/B-тестирование - это метод маркетинговых исследований, при котором сравнивают эффективность двух вариантов какого-либо объекта для продвижения товаров или услуг. Сравнивать могут страницы сайта, рекламные баннеры, приветствие электронного письма и др, чтобы выбрать лучший вариант, при котором продвижение будет максимально эффективным.
Многие часто задаются вопросом о том, как определить объем выборки и сроки проведения A/B-тестирования.
Приведем пример:
Конверсия в заявку со страницы сайта составляет X%. Маркетолог считает, что, если поменять размер и форму кнопки “Купить”, конверсия вырастет до Y%. Тогда он начинает A/B-тестирование: одной части пользователей показывают старый вариант страницы, другой части - новый. Через какое-то время результаты эксперимента сравнивают и делают вывод, эффективнее новый вариант или нет.
Как правильно провести A/B-тестирование? Общую схему проведения подобных тестов мы описывали ранее в блоге, вы можете прочитать об этом здесь.
Объем выборки и временные рамки A/B-тестирования
В теории, чтобы провести идеальный A/B-тест и определить лучший вариант (А или В), нужно дождаться получения результатов, чтобы увидеть, есть ли весомая разница между ними.
Получение статистически значимых результатов может занять часы, дни или недели, а может и месяцы. Это зависит от самой гипотезы, размера выборки и того, как вы проводите A/B—тест.
Но некоторые аспекты маркетинга требуют сокращения сроков проведения A/B-тестирования. Возьмем в качестве примера рассылку по электронной почте. В случае с электронной почтой ожидание завершения A/B-тестирования может быть проблемой, потому что:
1. У каждой рассылки есть ограниченная аудитория.
Когда вы проводите A/B-тест с e-mail рассылкой (например, сравниваете два варианта текста или заголовка), у вас есть ограниченное количество людей, которым вы можете отправить это письмо. Это ваша "аудитория" — список адресов, которые вы используете для рассылки.
В отличие от сайта, где вы можете тестировать изменения бесконечно (потому что на сайт заходят новые люди), с письмом так не получится. Как только вы отправили письмо, вы не можете добавить больше получателей в этот тест. То есть, если вы отправили письмо 1000 людям, это всё — больше никого не добавить.
Поэтому важно максимально эффективно использовать эту ограниченную аудиторию.
Обычно для этого требуется отправить A/B-тест наименьшей части списка, чтобы получить статистически значимые результаты, выбрать победителя и отправить лучший вариант остальным участникам списка.
2. Отправка электронных писем должна быть своевременной.
Маркетинговые электронные письма оптимизированы для доставки в определенное время суток. Возможно, они соответствуют срокам запуска новой кампании и/или попадают в почтовые ящики получателей в то время, когда они хотели бы их получить.
Но, если вы потратите слишком много времени на ожидание и сбор результатов тестирования, вы можете пропустить отправку следующего электронного письма, что может привести к нарушению медиаплана, снижению вовлеченности аудитории, потерю возможностей для продаж и др.
Из этого можно сделать вывод: чтобы провести A/B-тесты рассылки и улучшить отправляемые сообщения для достижения наилучших результатов, нужно учитывать как размер выборки для A/B-тестирования, так и своевременность отправки писем.
Как определить размер выборки для A/B-теста
Для определения размера выборки для A/B-теста можно воспользоваться онлайн-калькулятором. В нем нужно указать базовый коэффициент конверсии, минимальный обнаруживаемый эффект и статистическую значимость, ниже разберем каждое понятие подробнее.
- Базовый коэффициент конверсии (BCR) - это процент людей, которые выполнили желаемое действие в контрольной группе. Например: если сайт был посещен 1000 раз, и из этих посещений было совершено 50 покупок, то коэффициент конверсии (BCR) составит 5%.
- Минимальный обнаруживаемый эффект (MDE) - это минимальное изменение в коэффициенте конверсии (эффективности), которое мы хотим заметить между контрольной группой (исходным или контрольным образцом) и экспериментальной группой (новым вариантом). Это самый маленький результат, который вы хотите увидеть от своих изменений, чтобы они имели смысл.
MDE влияет на количество людей в выборке и времени проведения эксперимента.
Проще говоря, MDE помогает понять, стоит ли игра свеч: если изменение слишком маленькое, возможно, лучше потратить ресурсы на что-то более значимое.
- Статистическая значимость показывает, насколько мы можем доверять результатам исследования. Это вероятность, что результат эксперимента получился случайно. Другими словами, это риск, что тест покажет взаимосвязь, которой на самом деле нет.
Например, нужно изменить дизайн интерфейса продукта. Дизайнер предлагает внести несколько доработок в навигацию, цветовую палитру и алгоритм взаимодействия с вкладками. Проведённое A/B-тестирование показало, что при сравнительном тесте конверсия у первого варианта на 12,4% выше, чем у второго. Означает ли это, что изменения можно внедрять? Нет, сначала необходимо рассчитать статистическую значимость и убедиться, что результаты не случайны и могут быть достоверными.
Для полного понимания того, как рассчитать размер выборки, приведем пример.
Предположим, что из 1000 посетителей сайта по тестируемому рекламному баннеру на главной странице кликают 200 человек, то есть 20%.
Далее нужно указать минимальный обнаруживаемый эффект (например, 10%). Чем больше этот показатель, тем больше понадобится времени и трафика на тест.
Затем следует ввести статистическую значимость теста (её можно также рассчитать в калькуляторе, обычно она равна 5%) и ожидаемый прирост конверсии (насколько нужно увеличить конверсию).
В зависимости от используемой платформы для тестирования, может потребоваться рассчитать процентное соотношение объема выборки ко всему трафику сайта. Для этого нужно разделить количество пользователей в выборке на общее количество посетителей сайта за выбранный период.
Наши другие материалы по теме:
Выберите правильные временные рамки для A/B-теста
Проводя A/B-тест на сайте, важно заранее определить, сколько времени он будет длиться, чтобы понять, когда можно внедрить выигрышную версию для всех пользователей. Хотя сроки теста не всегда зависят от статистики, данные предыдущих тестов помогут принять более обоснованное решение.
Если у вас нет жестких временных ограничений, начните с анализа данных — это ускорит процесс. Следите за ключевыми показателями, такими как количество посещений страницы, конверсии или другие метрики. Как только вы заметите, что результаты стабилизировались или начали снижаться, это сигнал к завершению теста.
Чтобы точнее определить сроки, проанализируйте данные прошлых A/B-тестов на вашем сайте. Это поможет понять, как долго обычно длится рост показателей и когда стоит остановиться. Главное — не затягивать тестирование слишком долго, чтобы не упустить возможность улучшить сайт и повысить его эффективность.
Что ещё можно тестировать таким способом?
В рекламных материалах можно экспериментировать с заголовком, текстом, иллюстрациями, форматами и т.д.. Например, можно сравнить два баннера с одинаковой аудиторией, текстом и прочими настройками, но с отличающимися иллюстрациями.
Маркетологи используют А/В-тестирование, чтобы найти наиболее эффективный вариант текста объявления, призыва к действию на странице сайта и т.д.
Дизайнеры используют А/В-тестирование, чтобы улучшать интерфейс приложений, сайтов и сервисов. Например, с помощью данного метода можно понять, какой дизайн корзины или карточек товаров приносит больше продаж.
Также можно тестировать составляющие сайта: интерфейс, текст, количество информации на странице, описание продукта, оформление карточек товаров, форма и цвет кнопки, призыв к действию, расположение блоков, типографика, стиль. Например, если нужно протестировать, какое рекламное предложение вызовет наибольший отклик у пользователей, создают два варианта посадочной страницы с разными вариантами рекламы.
Типичные ошибки при проведении А/В тестов
1. Слишком много изменений сразу
Представьте, что вы решили улучшить форму обратной связи на сайте. Вы меняете текст, цвет кнопки, убираете лишние поля и добавляете новые. А потом смотрите на результаты и понимаете: что-то сработало, а что-то нет. Но что именно? Из-за такого "микса" изменений результаты становятся неясными. Один элемент мог улучшить конверсию, а другой — ухудшить. Вывод: тестируйте по одному изменению за раз, чтобы точно знать, что работает.
2. Копирование чужих идей без адаптации
"У конкурентов это сработало, значит, и у нас сработает!" — звучит логично, но на практике так бывает не всегда. У каждого бизнеса своя аудитория, свои особенности сайта и свои цели. То, что принесло успех одному, может провалиться у другого. Поэтому всегда адаптируйте чужие идеи под свои условия.
3. Неправильный срок тестирования
Слишком короткий тест не даст достоверных данных, а слишком долгий может устареть еще до завершения. Оптимальный срок для проверки небольшой гипотезы — от двух недель до месяца. Этого обычно достаточно, чтобы собрать данные, но не затянуть процесс до бесконечности.
4. Одноразовое тестирование
Исследование — это не разовое мероприятие, а процесс. Провели тест, получили результаты, внесли изменения — и снова тестируйте. Так можно постепенно улучшать сайт, опираясь на реальные данные, а не на догадки.
5. Игнорирование внешних факторов
Поведение пользователей может меняться в зависимости от времени года, праздников или акций, действий ваших конкурентов и многих других факторов. Например, в период распродаж люди чаще оставляют заявки, но это не значит, что ваш новый дизайн кнопки так хорош. Проводите тесты в "спокойные" периоды, чтобы результаты были объективными.
6. Узкий взгляд на метрики
Если вы следите только за одним показателем (например, количеством заявок), то можете упустить важные детали. Например, пользователи стали чаще оставлять заявки, но при этом выросли отказы. Это может говорить о том, что изменения работают не так, как вы ожидали. Следите за несколькими метриками, чтобы получить полную картину.
Вывод
Определение размера выборки и временных рамок для A/B-тестирования — это ключевые шаги для получения достоверных результатов. Использование калькуляторов размера выборки помогает упростить этот процесс и избежать ошибок.
Временные рамки теста должны быть достаточно длительными для сбора данных, но не настолько, чтобы затянуть процесс и упустить важные моменты.
Следуя этим рекомендациям, вы сможете проводить A/B-тесты эффективно, получая точные данные для улучшения своих маркетинговых стратегий.
A/B-тестирование — это не разовое мероприятие, а постоянный процесс. Регулярно анализируйте результаты, вносите изменения и тестируйте снова, чтобы постепенно оптимизировать свои кампании и достигать лучших результатов.
Нужно создать сайт, запустить интернет-рекламу
или SEO-продвижение? Обращайтесь в «Синапс»!
Разберемся в задаче и найдем рабочее решение,
которое подходит именно вашему бизнесу!