Вебинар eLama и Андата: Повышение эффективности рекламных кампаний в Яндекс Директ с помощью ИИ | 21 июня
  • /
  • /
08.06.2022
Материал обновлён: 03.06.2024

Сэмплирование данных: чем плохо для маркетинга и как избежать

Игнат Сатирский
Автор блога Андата
Когда маркетологи работают в Google Analytics* и в Яндекс Метрике, они замечают, что при анализе используется не 100% данных, а только часть. Это действительно возможно: такой метод составления отчетности существует и получил название сэмплирования.

Маркетологи часто задаются вопросом, как обойти сэмплирование, чтобы получить максимально точные данные. В этой статье мы рассматриваем, что из себя представляет сэмплирование, в чем его опасность и как его избежать в практике.
Содержание

Что такое сэмплирование

Термин «сэмплирование» пришел в маркетинг из математики, где под ним подразумевается выбор подмножества некоторых величин из определенного множества с целью выявления значимых характеристик.

В аналитике сэмплирование представляет собой такой процесс обработки данных, при котором общее представление об информации выстраивается на основе некоторой её части — из небольшой выборки.
Немного забегая вперёд, отметим, что такой подход ускоряет работу с большими массивами, но при этом может значительно исказить результаты анализа. В маркетинге и рекламной аналитике при сэмплировании часто делаются ошибочные выводы. Это может привести к потере денег из-за принятия неверных решений.
К примеру, Google Analytics* может взять определенное количество данных, скажем, 10%, умножить их на 10 и отчитаться о том, что эти данные характерны для всех 100% выборки.

Представьте, что вы хотите узнать, какие страницы на вашем сайте наиболее популярны. Без сэмплирования вы видите, что страницу «О нас» посетило 10 000 человек, а страницу «Контакты» — 8 000 человек. Если применяется сэмплирование и анализируется только 10% данных, результаты могут показать, что страницу «О нас» посетило 1 000 человек, а страницу «Контакты» — 800 человек. А это будут уже совсем другие цифры, верно?

Google* и Яндекс используют методику сэмплирования при анализе большого массива данных. Так, Google Analytics* переходит к сэмплированию при достижении лимита в 500 тысяч сеансов на один ресурс за конкретный период.

В Яндексе сэмплинг данных применяется при анализе более полутора миллионов визитов на страницы ресурса за период.
Сэмплинг технически снижает нагрузку на серверы. Он помогает сбалансировать скорость загрузки отчета, но цена тут — снижение точности данных.
Как решить эту проблему и не жертвовать большей частью данных рассказываем дальше.

Как заметить сэмплирование в интерфейсе Яндекс Метрики и Google Analytics*

Системы аналитики сами уведомляют пользователей, что при составлении отчета использовался сэмплинг. Пользователи могут заметить и обойти семплинг в Google Analytics*, если увидят иконку жёлтого щита, которая появляется рядом с названием отчёта. Тут же выставляются и цифры процента выборки.
Увидеть сэмплирование можно на соответствующих плашках отчетов в Google Analytics и Яндекс.Метрике - блог ANDATA
Пользователи часто ищут способы обойти сэмплинг в Яндекс Метрике для более точного анализа данных. Сэмплирование можно заметить при просмотре элемента «точность» на вкладке отчета «Источники, сводка».
Увидеть сэмплирование можно на соответствующих плашках отчетов в Google Analytics и Яндекс.Метрике - блог ANDATA
Увидеть сэмплирование можно на соответствующих плашках отчетов в Google Analytics* и Яндекс Метрике
Увеличить точность данных и обойтись без сэмплинга в Яндекс Метрике можно в с помощью настройки — в этом преимущество Яндекса перед Google Analytics*, где доступ к управлению процентом выборки часто закрыт.

Причины возникновения сэмплирования

Рассмотрим логику и правила Google Analytics* и Яндекс Метрики отдельно. В Google Analytics* при составлении отчетов происходит сбор необработанных данных, которые сохраняются по умолчанию.

Всего в GA* есть пять групп стандартных отчетов:
  1. Данные, собранные в реальном времени.
  2. Данные об аудитории.
  3. Данные об источнике трафика.
  4. Данные о поведении пользователя.
  5. Данные по конверсии.
Вся эта информация изначально не подвергается сэмплированию. Однако иногда пользователю требуется изменить какой-либо отчет по умолчанию, чтобы получить больше информации, или добавить новый фильтр, какую-нибудь специфическую метрику.

В каждом таком случае Google Analytics* проверяет сначала возможность получения данных из стандартных отчетов. И если данные недоступны, анализирует количество сеансов — при их значительном объеме для отчета берутся выборочные данные, то есть происходит сэмплирование.

Соответственно, можно выделить несколько причин сэмплирования:
• Превышение определенного показателя обрабатываемых данных.
• Необходимость создания индивидуального пользовательского отчета (Custom Reports).
• Использование расширенного сегмента (Advanced Segments).
• Добавление в отчет дополнительных переменных/параметров (Secondary Dimensions).
• Превышение лимита по количеству строк (свыше миллиона) или количеству пользовательских сессий на уровне веб-ресурса (более пятисот тысяч).

Стоит отметить, что для каждой версии Google Analytics есть свои ограничения по тому количеству сеансов, при котором используется сэмплинг:

500 тысяч — в Universal Analytics* сэмплирование производится при превышении пятисот тысяч сеансов в выбранном диапазоне дат на одном интернет-ресурсе.

100 миллионов — В Google Analytics 360* порог повышен до ста миллионов сеансов.

10 миллионов — В Google Analytics 4* процесс сэмплирования запускается в категории «Исследование» в случае выхода количества данных о событиях за десять миллионов.

Сэмплирование в Яндекс Метрике тоже возникает при выгрузке в отчеты большого количества данных:
  1. В случае превышения количества визитов на один ресурс (свыше полутора миллионов визитов).
  2. В случае превышения в отчете количества элементов на странице выдачи (более ста тысяч).
Чем больше информации выгружается при отчете, тем выше риск столкнуться с сэмплированием.

Что плохого в сэмплировании данных

Сэмплированный результат может отличаться от реального довольно сильно. Поскольку при сэмплинге используется выборка из определенного массива данных, в отчете выводятся приблизительные цифры. К примеру, если в отчете показываются 2000 сеансов, а доля выборки составляет 1%, можно сделать вывод, что результаты сформированы на основе 20 сеансов — картина отчета будет некорректна.
Неверные данные отчета могут привести к потере денег, если, например, на основе сэмплирования анализируется финансовая эффективность рекламной кампании.
Примеры сэмплирования и его негативных последствий:

  • Оценка охвата рекламы
Маркетолог проводит рекламную кампанию и хотите оценить, сколько пользователей пришло на сайт через конкретную рекламу. В полном наборе данных видно, что реклама привлекла 50 000 пользователей. При сэмплировании (например, анализе только 10% данных) может оказаться, что реклама привлекла только 5 000 пользователей.
А ведь зная реальный охват, можно было бы иначе распределить бюджет.

  • Анализ конверсий
Или во время анализа воронки продаж тот же маркетолог заметил, что из 100 000 посетителей 5 000 совершили покупку, что составляет 5% конверсии. Если брать результат на основе сэмплированных данных, покажется, что из 10 000 посетителей магазина 500 человек совершили покупку.
Отталкиваясь от «упрощённых» чисел, можно прийти к неверной оценке в эффективности текущей стратегии и не внести необходимые изменения.

Нужно также понимать, что для более или менее объективной картины, выборка данных не должна содержать математических аномалий — числовых провалов и выбросов. Однако этого гарантировать невозможно.

Как избежать сэмплирования данных в отчетах Яндекс. Метрики и Google Analytics

Хорошая новость состоит в том, что обойти семплинг в Google Analytics* при построении отчётов можно избежать. Вот что для этого можно сделать:
1. Сократить временную выборку представления данных.
При уменьшении диапазона снижается количество данных, которые обрабатывает аналитическая система - блог ANDATA
При уменьшении диапазона снижается количество данных, которые обрабатывает аналитическая система
Можно разбить большой период на несколько интервалов, — к примеру, год разбить на месяцы. Затем понадобится соединить информацию по разным периодам в одно целое в Excel или Google Sheets*.

2. Увеличить точность данных в выборке.
Параметр точности выставляется в настройках Google Analytics* в момент формирования отчета. Для этого можно использовать инструменты «Быстрая обработка» или «Более точные результаты».
В этом случае выбранный размер выборки сохраняется для всех отчетов до тех пор, пока пользователь не вышел из GA - блог ANDATA
В этом случае выбранный размер выборки сохраняется для всех отчетов до тех пор, пока пользователь не вышел из GA*
3. Использовать в работе Google Analytics 360 Suite*.
Этот сервис был специально разработан для корпоративных клиентов: платная версия аналитической системы позволяет обрабатывать до ста миллионов сеансов и до одного миллиарда обращений в месяц, обычно этого хватает. Google Analytics 360 Suite* стоит 4 тысячи долларов в месяц.

4. Воспользоваться различными расширениями, которые работают по аналогии аддона Google Analytics* для ручного извлечения в Google Sheets*.

5. Обратиться за трекингом и аналитикой к тем сервисам, которые в своей работе точно не используют сэмплирование.

Получайте полные данные с помощью Андата

Сервис Андата, в отличие от Google Analytics* и Яндекс Метрики, строит отчеты на полных объемах данных, что позволяют при анализе обнаруживать зависимости и находить специфические аномалии. В качестве аналитических инструментов мы используем Elastic Stack, а визуализируем информацию с помощью Kibana.

Хотите получать максимально точный анализ данных, без использования сэмплинга? Подключайтесь к сервису Андата и пользуйтесь всеми преимуществами, которые предоставляют наши инструменты.
Протестировать отчеты на собственных данных можно сразу после подключения.
*Использование Google Analytics подпадает под требование об уведомлении о трансграничной передаче данных. Роскомнадзор может запретить или ограничить такую передачу данных в страны, не обеспечивающие адекватный уровень защиты персональных данных, в том числе в США, где расположены сервера Google.
Читайте также