Николай Беспалов

Последние несколько лет набор доступных аналитических инструментов на российском фармрынке стремительно эволюционирует. Один из ключевых продуктов ‒ аудиты розничных продаж: синдикативные проекты, позволяющие проводить оценки в разных сегментах рынка.

Способы оценки объема розничного рынка

Многообразие методов количественных оценок ситуации на рынке в целом сводится к двум подходам: экстраполяционные модели и статистические базы данных. Вторые активно используются в отношении сегментов рынка с госфинансированием, где собирается массив всех заключенных контрактов. Для розничного рынка это было недостижимой мечтой.

Здесь до недавнего времени существовали только экстраполяционные модели, все четыре существовавших на российском фармрынке поставщика подобных информационных решений использовали одну и ту же технологическую платформу. При этом подходе аналитические компании собирают данные с определенной выборки аптек, в интервале от 30 до 60%. При этом если компания собирает данные с 50% точек, то ей, чтобы получить полную картину на рынке, нужно, условно говоря, умножить имеющиеся данные на коэффициент 2.

В теории звучит просто, но в реальности все сложнее. Выборка варьируется в зависимости от регионов, аптеки тоже неоднородны. Например, есть дискаунтеры с десятком работающих касс. А какая-то сеть аптек может просто не предоставить данные за определенный период времени, так что система коэффициентов меняется с периодичностью до нескольких раз в месяц.

Развитие технологии шло по консервативному пути, предполагающему расширение объема выборки и совершенствование методов экстраполяции. Часто аналитические компании, что называется, «меряются выборками», считая, что чем она больше, тем данные получаются лучше. На деле достоверность предоставляемой на выходе информации зависит скорее от качества этой выборки. Так что зачастую, даже собирая данные о 60% операций на рынке, отдельные аналитические компании демонстрируют очень посредственное качество клиентских данных.

Новые технологии анализа данных: статистические методы

На розничном рынке с недавних пор существует техническая возможность производства статистических продуктов, которые не требуют экстраполяции. Прежде всего речь идет про возможность получать информацию из системы МДЛП с определенными ограничениями. Второй доступный инструмент – данные кассового оборудования. В 2018 году в нашей стране сформировался институт операторов фискальных данных (ОФД), и именно обезличенные данные по совершенным транзакциям самым серьезным образом изменили возможности анализа данных на российском фармрынке. Вместе с тем в среднем по компаниям объем выборки составляет 50-60%.

В конце 2024 года стартовала коммерческая эксплуатация нового для рынка аналитических исследований продукта – статистического аудита розничных продаж. Проект революционный, поскольку оперирует данными о 100% операций на розничном рынке и не нуждается в методиках восстановления (экстраполяции).

В отношении лекарственного ассортимента ежемесячно обрабатывается информация примерно о 330 млн чеков, это порядка 4 млрд операций в год. Такой объем данных можно обработать только с помощью технологий автоматизированной обработки данных с использованием методов machine learning (ML). Этот подход позволяет свести к абсолютному минимуму вероятность ошибок, обеспечивает возможность беспрецедентной гранулярности по периодам анализа (по конкретным дням) и географии, которая ограничена только списком регионов, где в принципе работают аптечные учреждения. Мы работаем именно с этим механизмом.

Почему различаются данные аналитических компаний

Когда на конференциях речь заходит об оценках российского фармрынка, аналитические компании предоставляют схожие показатели как с точки зрения оценок суммарного объема рынка, так и в отношении динамических показателей. Отклонения в основном укладываются в пределы статистической погрешности. Но, как говорится, «дьявол кроется в деталях», общие сходства в оценках макропоказателей скрывают колоссальные различия даже при более-менее глубоком погружении в результаты анализа.

Основные особенности разных провайдеров связаны с географической гранулярностью – набором доступных для анализа регионов. К тому же размер выборки по ним чаще всего различается, что сказывается на размере погрешности. В регионах она, как правило, выше, чем на федеральном уровне. Второй блок различий связан с периодичностью обновлений, некоторые провайдеры предоставляют данные раз в месяц, другие еженедельно. Наконец, различия могут быть и менее фундаментальными, связанными с особенностями классификации данных или группирования производителей в корпорации.

Достоверно оценить качество продуктов можно, только проводя сравнение с неким эталонным набором данных. И в абсолютном большинстве случаев таким образцом служат внутренние данные компаний-производителей по собственному ассортименту. Эти данные компании получают или из отчетов партнерских аптечных сетей и фармдистрибьюторов, или в рамках системы МДЛП.

В профессиональной среде процесс сопоставления данных обозначают термином «кросс-чек», и продвинутыми пользователями аналитических решений он используется не только в моменты принятия решений о смене провайдера, но и с определенной периодичностью в процессе использования. Итоги кросс-чеков достаточно часто передаются аналитическим компаниям либо готовятся при непосредственном участии специалистов по выпуску баз данных, в итоге провайдеры получают возможность ознакомиться с величинами расхождений и оценивать сильные и слабые стороны своих и конкурирующих аналитических решений. Для нас ключевым показателем оценки качества являются сверки с информацией системы МДЛП. Даже для очень специфичных продуктов погрешность не превышает 1-2%, но чаще она составляет лишь доли процента.