Невысокая точность ответов больших языковых моделей на вопросы о медицине и здоровье связана с патологической склонностью этих систем к услужливости, выяснили американские ученые. Исправление этого недостатка значительно повысило точность работы медицинских ИИ-помощников, сообщает пресс-служба Массачусетской больницы общего профиля.
«Системы ИИ рассуждают совсем не так, как люди, и нам удалось показать, что большие языковые модели чаще отдают предпочтение ублажению желаний пользователя, чем критическому мышлению», — отметила доцент Гарвардской медицинской школы Даниэлль Биттерман, чьи слова приводит пресс-служба (цитата по ТАСС).
В последние годы многие люди стали пользоваться большими языковыми моделями для рекомендаций медицинского характера, однако ответы ИИ здесь часто бывают бесполезными и даже вредными. Чтобы изучить механизмы возникновения медицинской дезинформации, американские ИИ-специалисты и их коллеги-медики провели серию экспериментов с пятью продвинутыми формами больших языковых моделей, в том числе с ChatGPT и LLaMA. Исследователи спрашивали ИИ о нескольких популярных лекарствах, причем вопросы противоречили логике и здравому смыслу.
Все модели активно отвечали и выдавали такие же алогичные ответы. Особенно отличился ChatGPT, «проглотивший» 100% некорректных запросов, тогда как версия LLaMA, специально оптимизированная для борьбы с дезинформацией, ответила только на 42%. Это указывает на то, что стремление угодить пользователю мешает ИИ распознавать потенциально опасные для здоровья запросы, считают ученые. По итогам эксперимента они перенастроили системы таким образом, чтобы те опирались исключительно на медицинские сведения и отклоняли запросы, не соответствующие нормам медицины и логики. Это должно обезопасить пользователей от причинения вреда своему здоровью, считают исследователи.


