Рассмотрим логику и правила Google Analytics и Яндекс. Метрики отдельно.
В Google Analytics при составлении отчетов происходит сбор необработанных данных, которые сохраняются по умолчанию.
Всего в GA есть пять групп стандартных отчетов:
- Данные, собранные в реальном времени.
- Данные об аудитории.
- Данные об источнике трафика.
- Данные о поведении пользователя.
- Данные по конверсии.
Вся эта информация изначально не подвергается сэмплированию. Однако иногда пользователю требуется изменить какой-либо отчет по умолчанию, чтобы получить больше информации, или добавить новый фильтр, какую-нибудь специфическую метрику.
В каждом таком случае Google Analytics проверяет сначала возможность получения данных из стандартных отчетов. И если данные недоступны, анализирует количество сеансов — при их значительном объеме для отчета берутся выборочные данные, то есть происходит сэмплирование.
Соответственно, можно выделить несколько причин сэмплирования:
- Превышение определенного показателя обрабатываемых данных.
- Необходимость создания индивидуального пользовательского отчета (Custom Reports).
- Использование расширенного сегмента (Advanced Segments).
- Добавление в отчет дополнительных переменных/параметров (Secondary Dimensions).
- Превышение лимита по количеству строк (свыше миллиона) или количеству пользовательских сессий на уровне веб-ресурса (более пятисот тысяч).
Стоит отметить, что для каждой версии Google Analytics есть свои ограничения по тому количеству сеансов, при котором используется сэмплинг:
500 тысяч — в Universal Analytics сэмплирование производится при превышении пятисот тысяч сеансов в выбранном диапазоне дат на одном интернет-ресурсе.
100 миллионов — В Google Analytics 360 порог повышен до ста миллионов сеансов.
10 миллионов — В Google Analytics 4 процесс сэмплирования запускается в категории «Исследование» в случае выхода количества данных о событиях за десять миллионов.
Сэмплирование в
Яндекс.Метрике тоже возникает при выгрузке в отчеты большого количества данных:
- В случае превышения количества визитов на один ресурс (свыше полутора миллионов визитов).
- В случае превышения в отчете количества элементов на странице выдачи (более ста тысяч).
Чем больше информации выгружается при отчете, тем выше риск столкнуться с сэмплированием.