"의사 임상 판단 시험에선 딥시크가 챗GPT보다 열세"
기사 작성일 : 2025-02-05 08:00:34

딥시크


(로이터=

김태균 기자 = 중국의 고성능 AI(인공지능) '딥시크'가 의사 면허증 시험에서는 미국의 대표 AI 챗GPT보다 뒤떨어지는 성적을 냈다는 연구 결과가 나왔다.

지난 달 말 공개된 딥시크는 애초 개발·운영 비용이 훨씬 낮은 상황에도 수학 등 고급 지적 작업에서 챗GPT와 실력이 비슷하거나 소폭 앞서는 것으로 알려졌는데, 반대의 결과가 나온 것이다.

의사 면허증 시험은 특정 환자 사례를 주고 진단과 치료 조처에 관한 판단을 묻는다. 복잡한 의학 지식을 논리적으로 적용해 결론을 내야 해 고급 AI 역량을 측정하는 가늠자로 종종 쓰인다.

5일 AI 업계에 따르면 이탈리아 반비텔리대 연구진은 통제된 환경에서 '딥시크 R1'과 '챗GPT o1' 모델에게 미국 의사 면허증 시험의 객관식 문제 500개를 풀게 한 결과를 최근 논문으로 공개했다.

이 테스트에서 딥시크 R1은 500점 만점에 435점(정답률 87.0%)을 받았고 챗GPT o1은 464점(92.8%)을 받았다. 챗GPT가 딥시크보다 정답률이 약 5%포인트 앞섰다.

두 AI는 모두 고급 추론에 특화한 제품이다. 논리적 단계에 따라 결론을 정리하는 '생각의 고리'(CoT)라는 방식을 쓰기 때문에 말의 상호연관성과 맥락만 고려하는 언어 AI보다 답변의 정확도와 신뢰성이 훨씬 높다.

연구진은 테스트 결과를 토대로 딥시크와 챗GPT가 서로 잘하는 대목이 달랐다고 분석했다. 실제 두 AI가 모두 오답을 낸 문항은 14개에 불과했으나 챗GPT는 맞추고 딥시크는 틀린 문제는 51개에 달했다. 챗GPT가 틀리고 딥시크는 정답을 쓴 문항은 22개였다.

연구진은 "임상 보조 도구로는 챗GPT가 진단 오류를 최소화할 수 있다는 점에서 더 적합한 AI로 판단된다. 특히 신생아 치료 같은 급박한 상황에서는 챗GPT가 훨씬 더 나은 옵션이 될 것"이라고 설명했다.

연구진은 그러나 딥시크의 장점도 뚜렷하다고 진단했다.

정답률이 87%로 챗GPT에 크게 밀리지 않는 데다, 무료 오픈소스(개방형 소프트웨어)로서 경제성이나 적용 유연성이 뛰어나 재원이 부족한 환경 등에서 유용하게 쓸 수 있다는 것이다.

연구진은 "두 AI가 차이가 뚜렷한 만큼 챗GPT와 딥시크를 혼용하는 '통합 접근'을 검토할 만하다. 오류 리스크를 최소화해야 하는 민감한 분야에는 챗GPT를 쓰고, 딥시크는 난도가 상대적으로 낮고 끊임없는 운영이 필요한 분야에 기용하는 아이디어 등이 가능해 보인다"고 설명했다.

이번 테스트는 미국 의사 자격시험의 객관식 문제를 모은 데이터인 '메드QA'(MedQA)에서 소아과 문항만을 뽑아 썼다.

딥시크는 챗GPT와 구글 제미나이 등 주요 AI를 빠르게 대체하고 AI 하드웨어 투자를 위축시킬 수 있다는 우려에 불을 붙이면서 최근 미국과 한국 증시를 크게 요동치게 했다.

딥시크 '충격'에 최대 AI 칩 업체인 미국 엔비디아는 지난 달 27일 하루에만 주가가 17% 폭락해 시가총액 846조원이 사라졌다.

댓글