• /
  • /
06.04.2022

Сэмплирование данных: чем плохо для маркетинга и как избежать

Когда маркетологи работают в Google Analytics и в Яндекс. Метрике, они замечают, что при анализе используется не 100% данных, а только часть. Это действительно возможно: такой метод составления отчетности существует и получил название сэмплирования.

В этой статье мы рассматриваем, что из себя представляет сэмплирование, в чем его опасность и как его избежать в практике.
Содержание

Что такое сэмплирование

Термин «сэмплирование» пришел в маркетинг из математики, где под ним подразумевается выбор подмножества некоторых величин из определенного множества с целью выявления значимых характеристик.

В аналитике сэмплирование представляет собой такой процесс обработки данных, при котором общее представление об информации выстраивается на основе некоторой ее части — из небольшой выборки.

К примеру, Google Analytics может взять определенное количество данных, скажем, 10%, умножить их на 10 и отчитаться о том, что эти данные характерны для всех 100% выборки.

Google и Яндекс используют методику сэмплирования при анализе большого массива данных. Так, Google Analytics переходит к сэмплированию при достижении лимита в 500 тысяч сеансов на один ресурс за конкретный период. В Яндексе сэмплинг данных применяется при анализе более полутора миллионов визитов на страницы ресурса за период.
Сэмплинг технически снижает нагрузку на серверы. Он помогает сбалансировать скорость загрузки отчета, но цена тут — снижение точности данных.

Как заметить сэмплирование в интерфейсе Яндекс. Метрики и Google Analytics

Системы аналитики сами уведомляют пользователей, что при составлении отчета использовался сэмплинг. Google Analytics уведомляет с помощью иконки желтого щита, которая появляется рядом с названием отчета. Тут же выставляются и цифры процента выборки.

В Яндекс. Метрике сэмплирование можно заметить при просмотре элемента «точность» на вкладке отчета «Источники, сводка».
Увидеть сэмплирование можно на соответствующих плашках отчетов в Google Analytics и Яндекс.Метрике - блог ANDATA
Увидеть сэмплирование можно на соответствующих плашках отчетов в Google Analytics и Яндекс.Метрике - блог ANDATA
Увидеть сэмплирование можно на соответствующих плашках отчетов в Google Analytics и Яндекс. Метрике
В Яндекс. Метрике точность данных при сэмплировании можно настроить — в этом преимущество Яндекса перед Google Analytics, где доступ к управлению процентом выборки часто закрыт.

Причины возникновения сэмплирования

Рассмотрим логику и правила Google Analytics и Яндекс. Метрики отдельно.

В Google Analytics при составлении отчетов происходит сбор необработанных данных, которые сохраняются по умолчанию.

Всего в GA есть пять групп стандартных отчетов:
  1. Данные, собранные в реальном времени.
  2. Данные об аудитории.
  3. Данные об источнике трафика.
  4. Данные о поведении пользователя.
  5. Данные по конверсии.
Вся эта информация изначально не подвергается сэмплированию. Однако иногда пользователю требуется изменить какой-либо отчет по умолчанию, чтобы получить больше информации, или добавить новый фильтр, какую-нибудь специфическую метрику.

В каждом таком случае Google Analytics проверяет сначала возможность получения данных из стандартных отчетов. И если данные недоступны, анализирует количество сеансов — при их значительном объеме для отчета берутся выборочные данные, то есть происходит сэмплирование.

Соответственно, можно выделить несколько причин сэмплирования:
  • Превышение определенного показателя обрабатываемых данных.
  • Необходимость создания индивидуального пользовательского отчета (Custom Reports).
  • Использование расширенного сегмента (Advanced Segments).
  • Добавление в отчет дополнительных переменных/параметров (Secondary Dimensions).
  • Превышение лимита по количеству строк (свыше миллиона) или количеству пользовательских сессий на уровне веб-ресурса (более пятисот тысяч).

Стоит отметить, что для каждой версии Google Analytics есть свои ограничения по тому количеству сеансов, при котором используется сэмплинг:
500 тысяч — в Universal Analytics сэмплирование производится при превышении пятисот тысяч сеансов в выбранном диапазоне дат на одном интернет-ресурсе.
100 миллионов — В Google Analytics 360 порог повышен до ста миллионов сеансов.
10 миллионов — В Google Analytics 4 процесс сэмплирования запускается в категории «Исследование» в случае выхода количества данных о событиях за десять миллионов.

Сэмплирование в Яндекс.Метрике тоже возникает при выгрузке в отчеты большого количества данных:
  1. В случае превышения количества визитов на один ресурс (свыше полутора миллионов визитов).
  2. В случае превышения в отчете количества элементов на странице выдачи (более ста тысяч).
Чем больше информации выгружается при отчете, тем выше риск столкнуться с сэмплированием.

Что плохого в сэмплировании данных

Сэмплированный результат может отличаться от реального довольно сильно. Поскольку при сэмплинге используется выборка из определенного массива данных, в отчете выводятся приблизительные цифры. К примеру, если в отчете показываются 2000 сеансов, а доля выборки составляет 1%, можно сделать вывод, что результаты сформированы на основе 20 сеансов — картина отчета будет некорректна.

Неверные данные отчета могут привести к потере денег, если, например, на основе сэмплирования анализируется финансовая эффективность рекламной кампании.

Нужно также понимать, что для более или менее объективной картины, выборка данных не должна содержать математических аномалий — числовых провалов и выбросов. Однако этого гарантировать невозможно.

Как избежать сэмплирования данных в отчетах Яндекс. Метрики и Google Analytics

Хорошая новость состоит в том, что сэмплирования при построении отчетов можно избежать. Вот что для этого можно сделать:
1. Сократить временную выборку представления данных.
При уменьшении диапазона снижается количество данных, которые обрабатывает аналитическая система - блог ANDATA
При уменьшении диапазона снижается количество данных, которые обрабатывает аналитическая система
Можно разбить большой период на несколько интервалов, — к примеру, год разбить на месяцы. Затем понадобится соединить информацию по разным периодам в одно целое в Excel или Google Sheets.

2. Увеличить точность данных в выборке.
Параметр точности выставляется в настройках Google Analytics в момент формирования отчета. Для этого можно использовать инструменты «Быстрая обработка» или «Более точные результаты».
В этом случае выбранный размер выборки сохраняется для всех отчетов до тех пор, пока пользователь не вышел из GA - блог ANDATA
В этом случае выбранный размер выборки сохраняется для всех отчетов до тех пор, пока пользователь не вышел из GA
3. Использовать в работе Google Analytics 360 Suite.
Этот сервис был специально разработан для корпоративных клиентов: платная версия аналитической системы позволяет обрабатывать до ста миллионов сеансов и до одного миллиарда обращений в месяц, обычно этого хватает. Google Analytics 360 Suite стоит 4 тысячи долларов в месяц.

4. Воспользоваться различными расширениями, которые работают по аналогии аддона Google Analytics для ручного извлечения в Google Sheets.

5. Обратиться за трекингом и аналитикой к тем сервисам, которые в своей работе точно не используют сэмплирование.

Получайте полные данные с помощью Andata

Сервис Andata, в отличие от Google Analytics и Яндекс. Метрики, строит отчеты на полных объемах данных, что позволяют при анализе обнаруживать зависимости и находить специфические аномалии. В качестве аналитических инструментов мы используем Elastic Stack, а визуализируем информацию с помощью Kibana.

Хотите получать максимально точный анализ данных, без использования сэмплинга? Подключайтесь к сервису Andata и пользуйтесь всеми преимуществами, которые предоставляют наши инструменты.

Протестировать отчеты на собственных данных можно сразу после подключения.

Посмотреть пример отчета можно тут.
Читайте также