Рассмотрим логику и правила Google Analytics* и Яндекс Метрики отдельно. В Google Analytics* при составлении отчетов происходит сбор необработанных данных, которые сохраняются по умолчанию.
Всего в GA* есть пять групп стандартных отчетов:
- Данные, собранные в реальном времени.
- Данные об аудитории.
- Данные об источнике трафика.
- Данные о поведении пользователя.
- Данные по конверсии.
Вся эта информация изначально не подвергается сэмплированию. Однако иногда пользователю требуется изменить какой-либо отчет по умолчанию, чтобы получить больше информации, или добавить новый фильтр, какую-нибудь специфическую метрику.
В каждом таком случае Google Analytics* проверяет сначала возможность получения данных из стандартных отчетов. И если данные недоступны, анализирует количество сеансов — при их значительном объеме для отчета берутся выборочные данные, то есть происходит сэмплирование.
Соответственно, можно выделить несколько причин сэмплирования:
• Превышение определенного показателя обрабатываемых данных.
• Необходимость создания индивидуального пользовательского отчета (Custom Reports).
• Использование расширенного сегмента (Advanced Segments).
• Добавление в отчет дополнительных переменных/параметров (Secondary Dimensions).
• Превышение лимита по количеству строк (свыше миллиона) или количеству пользовательских сессий на уровне веб-ресурса (более пятисот тысяч).
Стоит отметить, что для каждой версии Google Analytics есть свои ограничения по тому количеству сеансов, при котором используется сэмплинг:
500 тысяч — в Universal Analytics* сэмплирование производится при превышении пятисот тысяч сеансов в выбранном диапазоне дат на одном интернет-ресурсе.
100 миллионов — В Google Analytics 360* порог повышен до ста миллионов сеансов.
10 миллионов — В
Google Analytics 4* процесс сэмплирования запускается в категории «Исследование» в случае выхода количества данных о событиях за десять миллионов.
Сэмплирование в Яндекс Метрике тоже возникает при выгрузке в отчеты большого количества данных:
- В случае превышения количества визитов на один ресурс (свыше полутора миллионов визитов).
- В случае превышения в отчете количества элементов на странице выдачи (более ста тысяч).
Чем больше информации выгружается при отчете, тем выше риск столкнуться с сэмплированием.