ChatGPT провалил экзамен по польскому языку по внутренним болезням

Даже самые сложные алгоритмы и технологии не могут диагностировать и лечить заболевания без вмешательства человека, - заявили ученые из Collegium Medicum Университета Николая Коперника после того, как ChatGPT «провалил» экзамен по внутренним болезням в разработанном ими исследовании.

Огромный прогресс, достигнутый в последние годы в области искусственного интеллекта, означает, что многие задачи, ранее предназначенные для людей, теперь могут выполняться с помощью моделей и алгоритмов. Современная медицина также начинает использовать возможности ИИ. Продолжаются исследования по его использованию для разработки новых лекарств, поддержки врачей в диагностическом процессе, прогнозирования пандемий или замены хирургов во время операций. В последнее время мы все чаще слышим об экспериментах, в которых модели искусственного интеллекта успешно проходят медицинские осмотры и дают «пациентам» более точные и чуткие советы, чем врачи. Однако, как показали результаты последнего исследования экспертов Collegium Medicum. Людвика Ридигера в Быдгоще, как сообщил Марцин Берендт на сайте Университета Николая Коперника, еще не настал тот момент, когда мы сможем доверить искусственному интеллекту полный уход за пациентами, особенно в области внутренних болезней, то есть внутренней медицины. . "Внутреннюю медицину называют королевой медицинских наук. От врачей, специализирующихся на внутренних заболеваниях, требуются обширные знания, а также большая концентрация и самодисциплина", - написали авторы рассматриваемого исследования в "Польском архиве внутренней медицины". (https://dx.doi.org/10.20452/pamw.16608). «Согласно польскому законодательству, врач может стать специалистом по внутренним болезням после прохождения специальной подготовки и сдачи сертификационного экзамена. Экзамен состоит из 2 элементов: теста с несколькими вариантами ответов, состоящего из 120 вопросов с 5 возможными ответами, только 1 из которых является правильным, и устный экзамен, который можно сдать только после успешной сдачи письменного теста (...)", - пояснили они. Поскольку знаменитый ChatGPT прошел такие тесты, как Американский медицинский лицензионный экзамен (USMLE), Европейский базовый экзамен по кардиологии и экзамен Программы оценки офтальмологии (OKAP), польские ученые решили выяснить, сможет ли эта модель пройти польский экзамен, необходимый для получение звания специалиста по внутренним болезням. Как они подчеркивают, их исследование стало первым в мире, оценивающим ИИ в области внутренней медицины. Семья Чат представила в общей сложности 1191 вопрос, появившийся на сертификационных экзаменах в 2013–2017 годах. Были удалены только те задачи, которые по техническим причинам (например, содержащие изображения) пользователь не смог бы решить. Авторы разделили их на разные категории, классифицируя по уровню сложности (один правильный ответ или несколько), степени сложности и продолжительности. Оказалось, что процент правильных ответов, полученных ChatGPT, колебался от 47,5 процентов. до 53,33 процента (медиана 49,37%). Так что для сдачи экзамена этого было явно недостаточно. "Во всех сеансах результаты ChatGPT были значительно хуже результатов обследованных людей, чьи результаты колебались в пределах от 65,21% до 71,95%", - отмечают ученые из Быдгощи. (Минимальное требование — 60 процентов правильных ответов). Результаты языковой модели показали значительные различия в зависимости от длины вопроса. Лучше всего чат работал с самыми короткими вопросами, затем следовали длинные, очень длинные и, наконец, короткие и средней длины вопросы. Интересно, что у людей это выглядело очень похоже. Что касается сложности вопроса, было обнаружено, что правильность ответов ChatuGPT постепенно снижалась по мере увеличения сложности задания, что также согласуется с поведением человека. Дополнительно была проверена эффективность ИИ при ответе на вопросы из конкретных областей внутренней медицины. Лучше всего он справился с работами в области аллергологии (71,43%), за ней следовали инфекционные болезни (55,26%), эндокринология (54,64%), нефрология (53,51%), ревматология (52,83%), гематология (51,51%). ), гастроэнтерология (50,97%), пульмонология (46,71%) и диабетология (45,1%), а хуже всего - кардиология (43,72%). «За последние годы искусственный интеллект добился значительного прогресса и приобрел значительную популярность в различных областях, — пишут авторы в аннотации к своей публикации. — Его предыдущие применения в здравоохранении включали, например, каталогизацию и интерпретацию больших наборов данных. или разработка и внедрение диагностических и терапевтических алгоритмов представляется очень полезным, учитывая недофинансирование систем здравоохранения, проблему выгорания среди медицинского персонала и нехватку кадров». Однако, как они подчеркнули, их исследование (как и несколько подобных) показывает, что возможности искусственного интеллекта все еще очень ограничены и ему в настоящее время сложно конкурировать с опытом подготовленных работников здравоохранения, особенно в области внутренние заболевания. «Однако медицина по-прежнему остается областью, в которой использование языковых моделей может оказаться полезным», — добавили они. В качестве примера они привели чуткое поведение ChatGPT по отношению к пациентам. Недавнее исследование, сравнивающее ответы врачей и чат-ботов на медицинские вопросы, размещенные на общественных форумах, показало, что 79 процентов пациенты находили ответы, предоставленные ИИ, более чуткими и полными, чем ответы, полученные от экспертов-людей. «Поэтому, несомненно, стоит следить за развитием искусственного интеллекта, особенно ChatuGPT, чтобы иметь возможность извлечь выгоду из его быстрого прогресса. Но маловероятно, что искусственный интеллект сможет заменить работников здравоохранения в ближайшем будущем, особенно в этой области». внутренней медицины даже самые сложные алгоритмы и технологии, поддерживаемые искусственным интеллектом, не способны диагностировать и лечить заболевания без вмешательства человека», — заключили ученые. Исследователи также отметили, что их эксперимент имел несколько ограничений. Во-первых, экзамен проводился на польском языке, а сам ChatGPT был разработан на английском языке. Кроме того, эта модель регулярно обновляется, поэтому использованная в исследовании версия не была последней на момент публикации. (ПАП) Катажина Чехович кап/зан/

Beterhealth.info

ChatGPT провалил экзамен по польскому языку по внутренним болезням

Beterhealth.info