Просто добавьте людей: Оксфордское медицинское исследование подчеркивает недостающую ссылку в тестировании чат -ботов

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше

Заголовки распыляли его в течение многих лет: модели крупных языков (LLMS) могут не только сдавать медицинские лицензионные экзамены, но и превосходить людей. GPT-4 мог бы правильно ответить на вопросы о лицензировании медицинского обследования США в 90% случаев, даже в доисторические дни AI 2023 года. С тех пор LLMS стали лучшими жителями, сдав эти экзамены и лицензированные врачи.

Перейдите, доктор Google, упустите место для Chatgpt, MD, но вы можете захотеть больше, чем диплом от LLM, который вы развертываете для пациентов. Как и студент -медик ACE, который может набрать название каждой кости в руке, но обморок на первом виде настоящей крови, мастерство медицины LLM не всегда переводится непосредственно в реальный мир.

Документ исследователей из Оксфордского университета показал, что, хотя LLMS может правильно идентифицировать соответствующие условия в 94,9% случаев, когда они непосредственно представлены с тестовыми сценариями, участники человека, использующие LLMS для диагностики тех же сценариев, выявили правильные условия менее 34,5% времени.

Возможно, даже более примечательно, что пациенты, использующие LLMS, выполняли даже хуже, чем контрольная группа, которая была просто указала диагностировать себя, используя «любые методы, которые они обычно используют дома». Группа, оставленная на своих собственных устройствах, была на 76% чаще выявлять правильные условия, чем группа, которым помогает LLMS.

Оксфордское исследование поднимает вопросы о пригодности LLM для медицинских советов и критериях, которые мы используем для оценки развертывания чат -ботов для различных приложений.

Угадай, твоя болезнь

Во главе с доктором Адамом Махди исследователи из Оксфорда наняли 1298 участников, чтобы представить себя пациентами в LLM. Им было поручено, что они пытались выяснить, что их способствовало, и соответствующим уровням заботы о том, чтобы искать его, начиная от самообслуживания до вызова машины скорой помощи.

Каждый участник получил подробный сценарий, представляющий условия от пневмонии до простуды, наряду с деталями общей жизни и историей болезни. Например, в одном сценарии описывается 20-летний инженерный студент, у которого на ночь наносит ужесточительную головную боль с друзьями. Он включает в себя важные медицинские детали (больно смотреть вниз) и красные сетью (он обычный пьющий, разделяет квартиру с шестью друзьями и только что закончил несколько стрессовых экзаменов).

Исследование проверило три разных LLM. Исследователи выбрали GPT-4O из-за его популярности Llama 3 за его открытые веса и командование R+ для его способностей поиска-аугментированного поколения (RAG), которые позволяют ему поискать в открытом Интернете.

Участникам было предложено взаимодействовать с LLM, по крайней мере, один раз, используя предоставленные детали, но они могли использовать их столько раз, сколько они хотели бы прийти к их самодиагностике и предполагаемым действиям.

За кулисами команда врачей единогласно определила условия «золотого стандарта», которые они искали в каждом сценарии, и соответствующий курс действий. Например, наш инженерный студент страдает от субарахноидального кровоизлияния, которое должно повлечь за собой немедленное визит в отделение скорой помощи.

Игра по телефону

Хотя вы можете предположить, что LLM, который может получить медицинское обследование, будет идеальным инструментом, чтобы помочь обычным людям самодиагностировать и выяснить, что делать, это не сработало. «Участники, использующие LLM, выявили соответствующие условия менее последовательно, чем в контрольной группе, выявляя по меньшей мере одно соответствующее условие не менее 34,5% случаев по сравнению с 47,0% для контроля», — говорится в исследовании. Они также не смогли вывести правильный курс действий, выбрав его всего 44,2% времени, по сравнению с 56,3% для LLM, действующего независимо.

Что пошло не так?

Оглядываясь назад на стенограммы, исследователи обнаружили, что участники предоставили неполную информацию LLMS, и LLMS неверно истолковали свои подсказки. Например, один пользователь, который должен был проявлять симптомы желчных камней, просто сказал LLM: «У меня сильные боли в животе, длившие до часа, это может заставить меня рвать и, кажется, совпадает с выводом», опуская местоположение боли, тяжести и частоты. Команда R+ неправильно предположил, что участник испытывал расстройство желудка, и участник неправильно угадал это условие.

Даже когда LLMS предоставила правильную информацию, участники не всегда следовали ее рекомендациям. Исследование показало, что 65,7% разговоров GPT-4O предположили, по крайней мере, одно соответствующее условие для сценария, но каким-то образом менее 34,5% окончательных ответов от участников отражали эти соответствующие условия.

Человеческая переменная

Это исследование полезно, но не удивительно, по словам Натали Волхаймер, специалиста по пользовательским опыту в Институте эпохи эпохи эпохи (RENCI), Университет Северной Каролины в Чапел -Хилл.

«Для тех из нас достаточно взрослых, чтобы вспомнить первые дни поиска в Интернете, это дежавю», — говорит она. «В качестве инструмента, крупные языковые модели требуют, чтобы подсказки были написаны с определенной степенью качества, особенно при ожидании качества выпуска».

Она отмечает, что кто -то, испытывающий ослепительную боль, не предложит отличных подсказков. Хотя участники лабораторного эксперимента не испытывали симптомов напрямую, они не передавали каждую деталь.

«Существует также причина, по которой клиницисты, которые имеют дело с пациентами на линии фронта, обучаются задавать вопросы определенным образом и определенной повторяемости», — продолжает Волкгеймер. Пациенты опускают информацию, потому что они не знают, что актуально или, в худшем случае, лгут, потому что они смущены или стыдно.

Могут ли чат -боты быть лучше разработаны для их решения? «Я бы не стал акцентом на машины», — предупреждает Волкхаймер. «Я бы рассмотрел акцент на взаимодействии с человеческим технологиями». Автомобиль, как она аналогична, была построена, чтобы заставить людей из пункта A до B, но многие другие факторы играют роль. «Речь идет о водителе, дорогах, погоде и общей безопасности маршрута. Это не только до машины».

Лучший критерий

Оксфордское исследование подчеркивает одну проблему не с людьми или даже LLM, а с тем, как мы их иногда измеряем — в вакууме.

Когда мы говорим, что LLM может сдать медицинский лицензированный тест, экзамен по лицензированию на недвижимость или экзамен по состоянию на государственный банк, мы расследуем глубину ее базы знаний, используя инструменты, предназначенные для оценки людей. Тем не менее, эти меры очень мало рассказывают нам о том, как успешно эти чат -боты будут взаимодействовать с людьми.

«Подсказки были учебником (как подтверждено источником и медицинским сообществом), но жизнь и люди не являются учебником», — объясняет доктор Волхаймер.

Представьте себе предприятие, которое собирается развернуть вспомогательный чат -бот, обученный ее внутренней базе знаний. Один, казалось бы, логичный способ проверить, что бот может просто провести тот же тест, который компания использует для стажеров поддержки клиентов: отвечать на предварительные вопросы поддержки «клиента» и выбор ответов с несколькими вариантами ответов. Точность 95%, безусловно, будет выглядеть довольно многообещающей.

Затем приходит развертывание: реальные клиенты используют расплывчатые термины, выражают разочарование или описывают проблемы неожиданным образом. LLM, одержимый только по четким вопросам, запутывается и предоставляет неверные или бесполезные ответы. Он не был обучен и не оценивался по деэскаляции ситуаций или эффективно разъяснения. Сердитые отзывы накапливаются. Запуск является катастрофой, несмотря на то, что LLM плыл через тесты, которые казались надежными для его человеческих коллег.

Это исследование служит критическим напоминанием для инженеров ИИ и специалистов по оркестровке: если LLM предназначен для взаимодействия с людьми, полагаясь исключительно на неинтерактивные критерии, может создать опасное ложное чувство безопасности о своих возможностях реального мира. Если вы проектируете LLM для взаимодействия с людьми, вам нужно проверить его с людьми, а не тесты для людей. Но есть ли лучший способ?

Использование ИИ для тестирования ИИ

Оксфордские исследователи набрали почти 1300 человек для своего исследования, но у большинства предприятий нет места испытаний, сидящих вокруг, ожидая, чтобы играть с новым агентом LLM. Так почему бы просто не заменить тестеров искусственного интеллекта для человеческих тестеров?

Махди и его команда тоже попробовали это с моделируемыми участниками. «Вы пациент», — побудили они LLM, отделенную от того, который даст советы. «Вы должны самостоятельно оценить свои симптомы из данного случая виньетки и помощи из модели ИИ. Упростить терминологию, используемую в данном параграфе к языку непрофессионала, и сохранить ваши вопросы или заявления разумно короткими». LLM также был проинструктирован не использовать медицинские знания и не создавать новые симптомы.

Эти моделируемые участники затем болтали с теми же LLMS, которые использовали участники человека. Но они выступили намного лучше. В среднем моделируемые участники, использующие те же инструменты LLM, прибили соответствующие условия в 60,7% времени по сравнению с менее 34,5% у людей.

В этом случае оказывается, что LLMs играют лучше с другими LLM, чем люди, что делает их плохим предиктором реальной работы.

Не вините пользователя

Учитывая, что результаты LLM могут достичь самостоятельно, может быть заманчиво обвинить участников здесь. В конце концов, во многих случаях они получали правильные диагнозы в своих беседах с LLMS, но все же не смогли правильно угадать. Но это было бы безрассудным выводом для любого бизнеса, предупреждает Волхеймер.

«В каждой среде клиента, если ваши клиенты не делают то, что вы хотите, последнее, что вы делаете, это вините клиента», — говорит Волкхеймер. «Первое, что вы делаете, это спросите, почему. А не« почему »вне вашей головы: но глубокий следственный, конкретный, антропологический, психологический, изученный« почему ». Это ваша отправная точка ».

Польхеймер предполагает, что вам нужно понять свою аудиторию, их цели и качество обслуживания клиентов, прежде чем развернуть чат -бот. Все это проинформирует тщательную, специализированную документацию, которая в конечном итоге сделает LLM полезной. Без тщательно кураторских учебных материалов, «он выплюнет какой -то общий ответ, который ненавидят, которые ненавидят, поэтому люди ненавидят чат -ботов», — говорит она. Когда это происходит, «это не потому, что чат -боты ужасны или потому, что с ними что -то технически что -то не так. Это потому, что вещи, которые в них вошли, плохо».

«Люди, разрабатывающие технологии, разрабатывая информацию, чтобы прийти туда, и процессы и системы, ну, в общем, люди», — говорит Волхеймер. «У них также есть фон, предположения, недостатки и слепые пятна, а также сильные стороны. И все эти вещи могут быть встроены в любое технологическое решение».

Источник

Угадай, твоя болезнь

Игра по телефону

Человеческая переменная

Лучший критерий

Использование ИИ для тестирования ИИ

Не вините пользователя

Как прокачать безопасность Discord

Как ИИ может лучше понять людей? Просто: задавая нам вопросы

Рекомендуем

Оставить комментарий Отменить ответ