Александр Гусев

В российском здравоохранении накоплено огромное количество данных. Все государственные медицинские организации используют медицинские информационные системы, в которых данные копятся в огромных объемах. При этом они крайне мало используются повторно. Хотя потенциальных возможностей для их применения очень много, отрасль еще только начинает учиться с ними работать. И причин этому несколько.

Компания Webiomed накапливает данные на собственной платформе. Там уже собрано более 50 млн пациентов и несколько терабайт разных архивов. К нам часто приходят запросы от партнеров, клиентов, научных центров, которым нужны большие массивы информации для исследований. Самый частый запрос – предоставление доступа к популяционным наборам данных, поскольку исследования на малых выборках, собранных в пределах одной клиники, дают слишком высокий уровень bias и не позволяют делать масштабные выводы. Чтобы получить действительно репрезентативные данные, необходимы большие массивы реальной клинической практики.

Еще один большой пласт запросов касается предоставления данных для развития искусственного интеллекта. Машинное обучение, внешняя валидация, пострегистрационный мониторинг – все это требует качественных массивов медицинских данных. Особенно остро такие данные необходимы фармацевтической отрасли. Уже сейчас рассматривается возможность использования данных реальной клинической практики не только для поддержки регуляторных решений, но и для ускоренного вывода новых лекарств на рынок, механизмов риск-шеринга и других инновационных подходов.

Однако это в теории. На практике работа с данными сталкивается с рядом серьезных проблем. Первая – это юридические ограничения. Существует мнение, что использование архивных данных предельно просто: достаточно их обезличить и применить для исследований. Однако при взаимодействии с юридическими службами заказчиков и регуляторами неизменно возникает одно и то же возражение: данные, собранные в цифровых платформах, могут использоваться только для целей, изначально прописанных в системе, например, для оказания медицинской помощи. Если попытаться применить их для научных исследований, это уже формальное нарушение, так как у пациента не было согласия на такие действия. А получить его задним числом невозможно – для этого пришлось бы ждать еще 10 лет, пока накопится новый массив данных. Единственный выход – запуск экспериментально-правового режима, обсуждение которого идет в настоящее время между регуляторами.

Вторая проблема – это технические ограничения. Даже если архив данных есть, даже если удастся решить юридические вопросы, остается базовый вопрос: кто и как технически будет передавать эти данные? Компании, разрабатывающие медицинские информационные системы, напрямую не заинтересованы в передаче данных кому-либо еще. Если обратиться к разработчикам, то типичный ответ будет один: «Мне это зачем?» А так как бизнес прежде всего ориентирован на коммерческую эффективность, без финансовой мотивации сдвинуть этот вопрос крайне сложно. Даже если удастся договориться с разработчиком, включаются жесткие регуляторные требования в сфере информационной безопасности. Например, в одном из случаев, чтобы просто принять один байт информации, потребовалось около 2 лет подготовки, включая получение полного комплекта разрешительной документации, сертификаций и аттестаций.

Третья сложность – обезличивание данных. В теории это кажется простым процессом: достаточно убрать Ф. И. О., полисы, даты рождения. Однако на практике обезличивание медицинских данных – это не просто удаление явных идентификаторов. Проблема в том, что указание на персональные данные может встречаться в текстах медицинских записей. Например, врач может написать «Гражданка Петрова Мария Ивановна обратилась с жалобами…», и стандартные алгоритмы не смогут автоматически удалить эту информацию. Более того, известны случаи, когда даже дата рождения в небольшом поселке, где проживают всего три человека, может стать теоретически вполне достаточным идентификатором, позволяющим понять, о каком конкретном пациенте идет речь.

Мы разработали целый комплекс алгоритмов и моделей машинного обучения для обработки естественного языка, которые позволяют надежно обезличить данные. Но тем не менее мы все равно исходим из реальности, в которой регуляторы продолжают считать обезличенные медицинские данные персональными, и полностью опровергнуть этот аргумент пока невозможно. Если речь идет о данных из Единой государственной информационной системы в сфере здравоохранения (ЕГИСЗ), они уже проходят этап обезличивания. Однако если используются данные из локальных медицинских информационных систем (МИС), обезличивание должно проходить дополнительную верификацию, для обеспечения необходимого уровня доверия за защищенность и конфиденциальность таких данных необходимо использовать доверенные средства и алгоритмы обезличивания.

Если юридические, технические и регуляторные вопросы решены, остается последняя, но, возможно, самая критичная проблема – качество самих данных. Популярное утверждение о том, что данные – это «новая нефть», в случае с медицинскими информационными системами не работает. На практике это скорее смесь глины и чернозема, а не готовый ресурс для анализа. Причина в том, что электронные медицинские карты содержат неструктурированные и разрозненные записи. Исследования показывают, что почти половина всех данных в медицинских архивах – это только регистрационные сведения о пациенте, но без клинической информации.

Заполнять осмотры в структурированном виде сложно: на это требуется минимум 30-40 минут, у врачей просто нет этого времени. Как следствие, основная масса записей ведется в текстовом формате, который сложно обработать автоматически. Даже если данные есть, в них часто отсутствуют критически важные параметры: жалобы, анамнез, результаты обследований. Поэтому при планировании исследований приходится учитывать, что только небольшой процент медицинских записей содержит клинически значимую информацию.

Таким образом, весь наш опыт убедительно показывает, что работа с медицинскими данными – это сложный и трудоемкий процесс. Для того чтобы построить на их основе действительно ценный продукт, необходимо несколько последовательных этапов: сначала получить доступ к источникам, затем пройти юридические и технические согласования, провести корректное обезличивание, устранить ошибки и противоречия, провести валидацию и только после этого использовать данные для научных или аналитических задач. Только после всех этих шагов данные могут стать основой для принятия решений.

Медицинские данные – это не нефть, а скорее производство парфюмерии. Чтобы получить каплю ценного экстракта, приходится переработать тонны исходного материала. Но в результате компании, которые научатся правильно работать с данными, смогут не просто анализировать информацию, а строить на ее основе новые цифровые экосистемы, трансформирующие здравоохранение.