본문 바로가기

FINANCE SCOPE

구독하기
인공지능

아크릴 의료 AI '아름.H', 의사국시 벤치마크 정답률 96.78% 기록

윤영훈 기자

입력 2026.04.14 09:59

숏컷

X

'KorMedMCQA Doctor Test'서 Claude Opus 4·GPT-5.1 등 제쳐…연세의료원·경북대학교병원 등에서 실증 돌입 예정

아크릴 CI. (사진=아크릴)

국내 인공지능 기업 아크릴이 개발한 경량 의료 특화 인공지능(AI) 모델이 글로벌 빅테크의 일부 모델을 뛰어넘는 성능을 입증하며 의료 현장 도입에 청신호를 켰다.

아크릴은 자체 개발한 의료 특화 파운데이션 모델 '아름.H(ALLM.H)'가 한국 의사 국가시험(KMLE) 기출문항 기반 의료 AI 평가 벤치마크인 'KorMedMCQA Doctor Test'에서 96.78%의 정답률을 기록했다고 14일 밝혔다.

이 정답률은 앤트로픽의 'Claude Opus4(96.55%)', 오픈AI의 'GPT-5.1(90.11%)', 구글의 'Gemini 2.5 Pro(90.8%)'를 모두 웃도는 수치다. 또한 서울대병원이 개발한 오픈소스 의료 모델 'HARI(89.2%)'보다 7.58%p 앞선다. K-Med.ai가 실제 KMLE에서 달성한 96.4%에 비견되는 수준이기도 하다.

ALLM.H는 구글의 최신 오픈소스 모델 'Gemma 4(31B)'를 기반으로 국내 최초 파인튜닝을 거쳐 개발됐다. 아크릴은 72B 이상의 초대형 모델이 아닌 31B 규모의 경량 오픈소스 모델로 이 성능을 구현했으며, 고품질 데이터 구성과 정교한 학습·추론 파이프라인 설계를 적용했다. 테스트에 사용된 KorMedMCQA Doctor Test는 2022년부터 2024년까지의 KMLE 공식 기출 435문항으로 구성됐다.

ALLM.H와 ALLM.H 패밀리 모델은 현재 아크릴이 수행 중인 보건복지부·과학기술정보통신부 주관 '닥터앤서 3.0' 및 'K-ARPA' 사업을 기반으로 국내 대형 병원에서 실증에 돌입할 예정이다. 연세의료원, 경북대학교병원 등 협력 병원을 중심으로 의료진의 임상 의사결정 지원, 의료 데이터 분석, 전문 진료과 상담 보조 등에 활용된다. 모델은 온프레미스 방식으로 배포돼 환자 데이터 보안을 확보한다. 아크릴은 이를 통해 연구실 수준의 데모를 넘어 실제 임상 환경에서 작동하는 의료 AI로 검증하겠다는 방침이다.

아크릴은 ALLM.H를 진료과별 특성을 반영한 패밀리 구조로 확장할 계획이다. 각 전문 진료과에 최적화된 AI 생태계를 구축하고, 후속 모델들의 성능과 벤치마크 결과도 순차적으로 공개할 예정이다. ALLM.H는 아크릴이 독자 개발한 산업 특화 파운데이션 모델 패밀리 ALLM(Acryl LLM)의 첫 번째 결과물이다. 아크릴은 2024년 Weights & Biases(W&B)가 운영하는 한국어 LLM 리더보드 '호랑이 벤치(Open Ko-LLM Leaderboard)'에서 오픈소스 부문 1위를 기록하며 파인튜닝 역량을 입증한 바 있다.

박외진 아크릴 대표는 "ALLM.H는 아크릴이 보유한 대규모 모델 학습·평가 인프라와 LLM 평가 플랫폼 '조나단(Jonathan)'을 통해 축적한 모델 최적화 노하우가 결합된 결과물"이라며 "31B 규모 모델로 Claude Opus 4와 GPT-5.1을 넘어서는 성능을 달성한 것은 모델의 크기보다 데이터 전략과 학습 파이프라인 설계가 핵심이라는 점을 보여준다"고 말했다.

이어 박 대표는 "이번에 검증된 특화 파인튜닝 기술은 향후 조나단 플랫폼에 탑재돼 의료뿐 아니라 금융, 법률, 제조 등 다양한 산업 도메인으로 확장될 예정"이라며 "고객이 자체 도메인 데이터만 보유하면 특화 모델의 학습부터 평가, 배포까지 가능한 엔드투엔드 파이프라인을 제공해 산업별 AI 내재화를 앞당길 것"이라고 덧붙였다.


윤영훈 기자 jihyunengen@finance-scope.com

섹터 VIEW