Российские ученые составили базу русскоязычных твитов с упоминанием побочных действий лекарств для участия в международных соревнованиях SMM4H Shared Task 2020. Благодаря полученным данным можно будет анализировать побочные эффекты от приема лекарственных препаратов и другую важную для медицины информацию, передает ТАСС со ссылкой на пресс-службу Российского научного фонда.
Огромный объем текстовых данных в соцсетях можно использовать в разных сферах, в том числе и в здравоохранении. Через интернет люди могут обмениваться мнениями и получают почти неограниченный доступ к информации о фармацевтическом рынке и сведениях медицинской направленности. Кроме того, клинические испытания не всегда позволяют обнаружить полный перечень побочных эффектов, например, в случае длительного приема препарата или у определенной группы пациентов, не участвовавшую в клинических испытаниях.
Решать эти проблемы ученые предлагают с помощью интеллектуального анализа отзывов пользователей о лечении. Чтобы облегчить и ускорить разработку автоматических методов сбора, извлечения, представления и анализа данных социальных сетей по теме здоровья научная группа из Пенсильванского университета запустила инициативу #SMM4H. В этом году она проводилась в пятый раз и первый раз включала в себя данные на русском языке.
Ученые из Казанского федерального университета и Пенсильванского университета в этом году провели открытое соревнование по выявлению упоминаний о побочных эффектах от приема лекарств из текстов твитов на русском языке. Для этого были подобраны 9,5 тысяч русскоязычных твитов о 70 антидепрессантах, противовирусных, бронхорасширяющих и противодиарейных препаратах.
Твиты были разделены на две группы: одни содержали информацию о побочных эффектах лекарств, другие – названия заболеваний и симптомов, но не побочных эффектов. Командам необходимо было предложить, как лучше автоматизировать такую классификацию, используя современные языковые модели и методы машинного обучения. Эту задачу выполняли семь команд из России, Финляндии, США, Хорватии и Великобритании.
Полученные классифицированные данные – размеченные корпуса твитов на русском языке – в дальнейшем можно будет использовать для обучения моделей на основе машинного обучения. А эти модели можно будет применять для автоматической разметки текстов и других задач программистов и исследователей, что поможет анализировать побочные эффекты от приема лекарственных препаратов и другую важную для медицины информацию.
«Проведенные исследования позволяют сделать важный шаг для дальнейшей разработки автоматических систем для задачи извлечения побочных эффектов из текстов социальных медиа на русском языке. В будущем планируется продолжать проведение трека в рамках симпозиума SMM4H. В частности, в следующем году мы хотели бы рассмотреть твиты о лекарствах, применяемых при лечении коронавирусной инфекции», – прокомментировала Елена Тутубалина, один из организатор соревнования, старший научный сотрудник Казанского федерального университета.