Dr.AI 업데이트

블로그

홈페이지홈페이지 / 블로그 / Dr.AI 업데이트

Jun 27, 2023

Dr.AI 업데이트

새로운 트랜스포머 AI 기술이 전문의료시스템으로 자리잡을 가능성에 대해 글을 쓴 지 6개월이 지났습니다. 그 이후로 의 능력을 테스트하는 수많은 연구가 있었습니다.

새로운 트랜스포머 AI 기술이 전문의료시스템으로 자리잡을 가능성에 대해 글을 쓴 지 6개월이 지났습니다. 그 이후로 진단이나 임상 결정을 내리거나 표준화된 의료 시험을 통과하는 ChatGPT 및 유사 시스템의 능력을 테스트하는 수많은 연구가 있었습니다. 결과는 대부분 긍정적이었습니다. 예를 들어, 올해 초 Kung 외 연구진은 ChatGPT가 미국 의료 면허 시험(USMLE)의 세 부분을 모두 60%의 경계선 합격률로 통과할 수 있다는 연구 결과를 발표했습니다. 수많은 전문 위원회 시험 연구에서도 결과가 엇갈렸지만 ChatGPT가 대부분을 통과했습니다.

최근 연구에서는 의학적 지식뿐만 아니라 의학적 의사결정을 살펴봄으로써 이 연구를 확장했습니다. 연구를 위해 그들은 Merck Sharpe & Dohme(MSD) 임상 매뉴얼에서 발표된 36개의 임상 삽화를 사용하고 초기 감별 진단을 생성하고 임상 관리 결정(예: 주문할 연구)을 권장하는 ChatGPT의 기능을 테스트했습니다. 이 정보를 바탕으로 최종 진단을 내립니다. 그들은 발견했다:

“ChatGPT는 36개 임상 비네트 전체에서 71.7%(95% CI 69.3%-74.1%)의 전체 정확도를 달성했습니다. LLM은 최종 진단 정확도 76.9%(95% CI 67.8%~86.1%)로 가장 높은 성능을 보였으며, 초기 감별진단 정확도 60.3%(95% CI 54.2%~)로 가장 낮은 성능을 보였다. 66.6%). ChatGPT는 일반적인 의학 지식에 대한 질문에 답하는 것과 비교하여 감별진단(β=–15.8%; P<.001) 및 임상 관리(β=–7.4%; P=.02) 질문 유형에서 낮은 성능을 보였습니다."

이는 인상적이며 ChatGPT 유형 시스템의 강점과 약점에 대한 이전 연구와 일치합니다. 검토해 보면 ChatGPT는 LLM(대형 언어 모델)의 오픈 소스 버전입니다. 핵심 인공 지능(AI) 기술을 변환기라고 합니다. "GPT"는 Generative Pre-trained Transformer를 의미합니다. 단순히 일부 소스에서 텍스트를 복사하는 것이 아니라 예측 모델을 기반으로 텍스트를 생성하기 때문에 생성적입니다. 인터넷에서 수집된 방대한 텍스트를 기반으로 사전 훈련되었습니다.

이러한 LLM 시스템은 생각하지 않으며, 인간 지능을 시뮬레이션하는 일반 AI로 가는 길도 아닙니다. 이는 정말 훌륭한 자동 완성과 비교되었습니다. 인터넷에서 수십억 개의 사례를 기반으로 가장 가능성이 높은 다음 단어 세그먼트를 예측하는 방식으로 작동합니다. 그럼에도 불구하고 그들의 결과는 상당히 인상적일 수 있습니다. 그들은 자연스럽게 들리는 언어를 생산할 수 있고 인상적인 지식 기반을 생성할 수 있습니다.

그러나 그러한 좁은 AI 시스템이 부서지기 쉬운 것처럼 그들은 여전히 ​​부서지기 쉽습니다. 즉, 밀어 넣으면 부서질 것입니다. 이러한 LLM의 주요 약점은 소위 환각에 취약하다는 것입니다. 이것은 그들이 물건을 만들 수 있다는 것을 의미합니다. 기억하세요 – 그들은 실제로 사실을 확인하거나 정확한 지식을 반영하는 것이 아니라 확률을 기반으로 텍스트를 생성하고 있습니다. 따라서 예를 들어 통계적으로 두 가지 항목이 함께 언급될 가능성이 있는 경우 ChatGPT는 직접적으로 관련된 것처럼 보이게 하는 텍스트를 생성합니다. 또한 참조와 유사한 구조를 생성하고 통계적으로 결정되었지만 가짜 세부 정보로 채워서 그럴듯해 보이는 참조를 완전히 만들 수도 있습니다.

이는 전문가 시스템의 심각한 결함이다. 최근 연구에 대한 ChatGPT의 성과를 맥락에 비추어 보면, 평균적인 신규 의과대학 졸업생과 동등한 수준의 지식을 거의 통과하지 못했지만 노련한 임상의는 통과하지 못했습니다. 그러므로 아직 의료행위를 할 수 있는 수준은 아닙니다. 두 가지 질문이 있습니다. 과연 그럴 것인가, 그리고 그동안 유용할 것인가입니다.

두 번째 질문을 먼저 생각해보면 현재 ChatGPT와 같은 일반 LLM 애플리케이션은 전문가 시스템으로서 다소 유용할 수 있다고 생각합니다. 즉, 전문가가 기능을 수행하는 데 도움이 되는 도구로 사용한다는 의미입니다. 그러나 그 유용성에는 몇 가지 중요한 주의 사항과 주의 사항이 따릅니다. ChatGPT가 생성하는 결과는 신뢰할 수 없습니다. 비록 그렇게 들리더라도 권위 있는 것으로 받아들여서는 안 됩니다. 그러나 임상의가 생각하지 못했던 가능한 진단을 제안하기 위해 아이디어 생성기로 사용될 수 있습니다.