В последние годы ИИ все чаще используется в здравоохранении для облегчения работы врачей путем создания медицинских резюме. Однако отрасль все еще испытывает опасения по поводу галлюцинаций, которые возникают,когда ИИ модель выдает ложную или вводящую в заблуждение информацию.
Исследователи из Университета Массачусетса Амхерст опубликовали статью, в которой изучается, как часто большие языковые модели склонны к галлюцинациям при создании медицинских резюме.
Для этого исследования исследователи собрали 100 медицинских резюме от GPT-4o OpenAI и Llama-3 – двух современных проприетарных и открытых ИИ моделей. Команда наблюдала галлюцинации в «почти всех резюме», как утверждает Пратикша Румале, один из авторов исследования.
В 50 резюме, созданных GPT-4o, исследователи выявили 327 случаев несоответствий медицинских событий, 114 случаев неправильного рассуждения и 3 случая хронологических несоответствий.
50 резюме, созданные Llama-3, были короче и менее всеобъемлющими, чем те, что созданы ChatGPT, отметила Румале. В этих резюме исследовательская группа обнаружила 271 случай несоответствий медицинских событий, 53 случая неправильного рассуждения и 1 случай хронологической несоответствия.
«Наиболее частые галлюцинации были связаны с симптомами, диагнозом и медицинскими инструкциями, что подчеркивает тот факт, что медицинские знания остаются сложными для современных языковых моделей», – объяснила Румале.
Теджас Найк, другой из авторов исследования, отметил, что сегодняшние ИИ модели могут генерировать плавные и правдоподобные предложения, даже проходя тест Тьюринга.
В то время как эти ИИ модели могут ускорить рутинные задачи обработки языка, такие как суммирование медицинских записей, создаваемые ими резюме могут быть потенциально опасными, особенно если они не соответствуют исходным медицинским записям.
«Представьте себе, что в медицинской записи упоминается, что у пациента заложен нос и болит горло из-за Covid-19, но модель галлюцинирует, что у пациента инфекция горла. Это может привести к тому, что медицинские работники пропишут неправильные лекарства, а пациент пропустит опасность заражения пожилых членов семьи и людей с основными заболеваниями», – объяснил Найк.
Кроме того, ИИ может пропустить аллергию на лекарство, которая задокументирована в записи пациента, что может привести к тому, что врач пропишет лекарство, которое вызовет тяжелую аллергическую реакцию, добавил он.
Исследование показывает, что отрасль здравоохранения нуждается в лучшей системе обнаружения и классификации галлюцинаций ИИ. Таким образом, лидеры отрасли могут лучше сотрудничать для повышения надежности ИИ в клинических условиях, говорится в статье.