Решения

Тарифы

Блог

Кейсы

О компании

Дашборды, анализ, решения

AI Аналитика

Дата Хаб

Хранение и работа с данными

Баннерокрутилка

Управление показами баннеров
на сайтах

Бизнес-терминал

Управление Директом, Метрикой, CRM, отчётами - в одном месте

Тег Менеджер

Управление тегами

AI Агенты

Автономные цифровые помощники и ассистенты

Доступные стратегии:

Сценарные воронки на основе событий

I am ready for a long road flight for work with a week- or months-long projects.

Начать бесплатно

Войти

I am ready for a long road flight for work with a week- or months-long projects.

Начать бесплатно

Войти

Блог
/
Данные
/
Сэмплирование данных: чем это плохо для маркетинга и как его избежать

Алексей Бирюков

CEO Андата

08.06.2022

Сэмплирование данных: чем плохо для маркетинга и как избежать

Алексей Бирюков
CEO Андата

Когда маркетологи работают в Google Analytics* и в Яндекс Метрике, они замечают, что при анализе используется не 100% данных, а только часть. Это действительно возможно: такой метод составления отчетности существует и получил название сэмплирования.

Маркетологи часто задаются вопросом, как обойти сэмплирование, чтобы получить максимально точные данные. В этой статье мы рассматриваем, что из себя представляет сэмплирование, в чем его опасность и как его избежать в практике.

Содержание

Что такое сэмплирование
Как заметить сэмплирование в интерфейсе Яндекс Метрики и Google Analytics*
Причины возникновения сэмплирования
Что плохого в сэмплировании данных
Как избежать сэмплирования данных в отчетах Яндекс Метрики и Google Analytics*
Получайте полные данные с помощью Андата

Что такое сэмплирование

Термин «сэмплирование» пришел в маркетинг из математики, где под ним подразумевается выбор подмножества некоторых величин из определенного множества с целью выявления значимых характеристик.

В аналитике сэмплирование представляет собой такой процесс обработки данных, при котором общее представление об информации выстраивается на основе некоторой её части — из небольшой выборки.

Немного забегая вперёд, отметим, что такой подход ускоряет работу с большими массивами, но при этом может значительно исказить результаты анализа. В маркетинге и рекламной аналитике при сэмплировании часто делаются ошибочные выводы. Это может привести к потере денег из-за принятия неверных решений.

К примеру, Google Analytics* может взять определенное количество данных, скажем, 10%, умножить их на 10 и отчитаться о том, что эти данные характерны для всех 100% выборки.

Представьте, что вы хотите узнать, какие страницы на вашем сайте наиболее популярны. Без сэмплирования вы видите, что страницу «О нас» посетило 10 000 человек, а страницу «Контакты» — 8 000 человек. Если применяется сэмплирование и анализируется только 10% данных, результаты могут показать, что страницу «О нас» посетило 1 000 человек, а страницу «Контакты» — 800 человек. А это будут уже совсем другие цифры, верно?

Google* и Яндекс используют методику сэмплирования при анализе большого массива данных. Так, Google Analytics* переходит к сэмплированию при достижении лимита в 500 тысяч сеансов на один ресурс за конкретный период.

В Яндексе сэмплинг данных применяется при анализе более полутора миллионов визитов на страницы ресурса за период.

Сэмплинг технически снижает нагрузку на серверы. Он помогает сбалансировать скорость загрузки отчета, но цена тут — снижение точности данных.

Как решить эту проблему и не жертвовать большей частью данных рассказываем дальше.

Читать статью

Как заметить сэмплирование в интерфейсе Яндекс Метрики и Google Analytics*

Системы аналитики сами уведомляют пользователей, что при составлении отчета использовался сэмплинг. Пользователи могут заметить и обойти семплинг в Google Analytics*, если увидят иконку жёлтого щита, которая появляется рядом с названием отчёта. Тут же выставляются и цифры процента выборки.

Увидеть сэмплирование можно на соответствующих плашках отчетов в Google Analytics и Яндекс.Метрике - блог ANDATA

Пользователи часто ищут способы обойти сэмплинг в Яндекс Метрике для более точного анализа данных. Сэмплирование можно заметить при просмотре элемента «точность» на вкладке отчета «Источники, сводка».

Увидеть сэмплирование можно на соответствующих плашках отчетов в Google Analytics* и Яндекс Метрике

Увеличить точность данных и обойтись без сэмплинга в Яндекс Метрике можно в с помощью настройки — в этом преимущество Яндекса перед Google Analytics*, где доступ к управлению процентом выборки часто закрыт.

Читать статью

Причины возникновения сэмплирования

Рассмотрим логику и правила Google Analytics* и Яндекс Метрики отдельно. В Google Analytics* при составлении отчетов происходит сбор необработанных данных, которые сохраняются по умолчанию.

Всего в GA* есть пять групп стандартных отчетов:

Данные, собранные в реальном времени.
Данные об аудитории.
Данные об источнике трафика.
Данные о поведении пользователя.
Данные по конверсии.

Вся эта информация изначально не подвергается сэмплированию. Однако иногда пользователю требуется изменить какой-либо отчет по умолчанию, чтобы получить больше информации, или добавить новый фильтр, какую-нибудь специфическую метрику.

В каждом таком случае Google Analytics* проверяет сначала возможность получения данных из стандартных отчетов. И если данные недоступны, анализирует количество сеансов — при их значительном объеме для отчета берутся выборочные данные, то есть происходит сэмплирование.

Соответственно, можно выделить несколько причин сэмплирования:
• Превышение определенного показателя обрабатываемых данных.
• Необходимость создания индивидуального пользовательского отчета (Custom Reports).
• Использование расширенного сегмента (Advanced Segments).
• Добавление в отчет дополнительных переменных/параметров (Secondary Dimensions).
• Превышение лимита по количеству строк (свыше миллиона) или количеству пользовательских сессий на уровне веб-ресурса (более пятисот тысяч).

Стоит отметить, что для каждой версии Google Analytics есть свои ограничения по тому количеству сеансов, при котором используется сэмплинг:

500 тысяч — в Universal Analytics* сэмплирование производится при превышении пятисот тысяч сеансов в выбранном диапазоне дат на одном интернет-ресурсе.

100 миллионов — В Google Analytics 360* порог повышен до ста миллионов сеансов.

10 миллионов — В Google Analytics 4* процесс сэмплирования запускается в категории «Исследование» в случае выхода количества данных о событиях за десять миллионов.

Сэмплирование в Яндекс Метрике тоже возникает при выгрузке в отчеты большого количества данных:

В случае превышения количества визитов на один ресурс (свыше полутора миллионов визитов).
В случае превышения в отчете количества элементов на странице выдачи (более ста тысяч).

Чем больше информации выгружается при отчете, тем выше риск столкнуться с сэмплированием.

Подробнее в статье "CDP (платформа клиентских данных) – что это такое и для чего она нужна"

Читать статью

Что плохого в сэмплировании данных

Сэмплированный результат может отличаться от реального довольно сильно. Поскольку при сэмплинге используется выборка из определенного массива данных, в отчете выводятся приблизительные цифры. К примеру, если в отчете показываются 2000 сеансов, а доля выборки составляет 1%, можно сделать вывод, что результаты сформированы на основе 20 сеансов — картина отчета будет некорректна.

Неверные данные отчета могут привести к потере денег, если, например, на основе сэмплирования анализируется финансовая эффективность рекламной кампании.

Примеры сэмплирования и его негативных последствий:

Оценка охвата рекламы

Маркетолог проводит рекламную кампанию и хотите оценить, сколько пользователей пришло на сайт через конкретную рекламу. В полном наборе данных видно, что реклама привлекла 50 000 пользователей. При сэмплировании (например, анализе только 10% данных) может оказаться, что реклама привлекла только 5 000 пользователей.
А ведь зная реальный охват, можно было бы иначе распределить бюджет.

Анализ конверсий

Или во время анализа воронки продаж тот же маркетолог заметил, что из 100 000 посетителей 5 000 совершили покупку, что составляет 5% конверсии. Если брать результат на основе сэмплированных данных, покажется, что из 10 000 посетителей магазина 500 человек совершили покупку.
Отталкиваясь от «упрощённых» чисел, можно прийти к неверной оценке в эффективности текущей стратегии и не внести необходимые изменения.

Нужно также понимать, что для более или менее объективной картины, выборка данных не должна содержать математических аномалий — числовых провалов и выбросов. Однако этого гарантировать невозможно.

Как избежать сэмплирования данных в отчетах Яндекс. Метрики и Google Analytics

Хорошая новость состоит в том, что обойти семплинг в Google Analytics* при построении отчётов можно избежать. Вот что для этого можно сделать:
1. Сократить временную выборку представления данных.

При уменьшении диапазона снижается количество данных, которые обрабатывает аналитическая система

Можно разбить большой период на несколько интервалов, — к примеру, год разбить на месяцы. Затем понадобится соединить информацию по разным периодам в одно целое в Excel или Google Sheets*.

2. Увеличить точность данных в выборке.
Параметр точности выставляется в настройках Google Analytics* в момент формирования отчета. Для этого можно использовать инструменты «Быстрая обработка» или «Более точные результаты».

В этом случае выбранный размер выборки сохраняется для всех отчетов до тех пор, пока пользователь не вышел из GA*

3. Использовать в работе Google Analytics 360 Suite*.
Этот сервис был специально разработан для корпоративных клиентов: платная версия аналитической системы позволяет обрабатывать до ста миллионов сеансов и до одного миллиарда обращений в месяц, обычно этого хватает. Google Analytics 360 Suite* стоит 4 тысячи долларов в месяц.

4. Воспользоваться различными расширениями, которые работают по аналогии аддона Google Analytics* для ручного извлечения в Google Sheets*.

5. Обратиться за трекингом и аналитикой к тем сервисам, которые в своей работе точно не используют сэмплирование.

Читать статью

Получайте полные данные с помощью Андата

Сервис Андата, в отличие от Google Analytics* и Яндекс Метрики, строит отчеты на полных объемах данных, что позволяют при анализе обнаруживать зависимости и находить специфические аномалии. В качестве аналитических инструментов мы используем Elastic Stack, а визуализируем информацию с помощью Kibana.

Хотите получать максимально точный анализ данных, без использования сэмплинга? Подключайтесь к сервису Андата и пользуйтесь всеми преимуществами, которые предоставляют наши инструменты.

Протестировать отчеты на собственных данных можно сразу после подключения.

*Использование Google Analytics подпадает под требование об уведомлении о трансграничной передаче данных. Роскомнадзор может запретить или ограничить такую передачу данных в страны, не обеспечивающие адекватный уровень защиты персональных данных, в том числе в США, где расположены сервера Google.

Читайте также