GIST, LLM 추론 능력 정량적 평가 방법 개발
논리적 일관성 부문 정확도 평균 18.2%에 불과
논리적 일관성 부문 정확도 평균 18.2%에 불과

[파이낸셜뉴스] 광주과학기술원(GIST) AI융합학과 김선동 교수팀이 거대언어모델(LLM)의 추론 능력을 평가한 결과 인공지능(AI)의 논리적 사고와 문제를 해결하는 능력이 아직 인간 수준에 미치지 못하고 있다는 것을 밝혀냈다.
김선동 교수팀은 거대언어모델(LLM)의 추론 능력을 정량적으로 측정할 수 있는 새로운 평가 방법을 개발했다고 13일 밝혔다. 인간의 인지 과정이 '사고 언어'로 매개된다는 인지심리학의 '사고 언어 가설(LoTH)'을 기반으로 LLM의 추론 과정을 평가하는 방법을 제시했다.
김선동 교수는 "이전의 LLM 평가 방식이 특정 벤치마크에 의한 성능 측정에 치중한 반면, 이번 연구는 LLM의 추론 과정과 인간의 차이를 분석한 것이 특징"이라며, "향후 인공지능(AI) 로봇을 비롯한 AI 시스템이 인간 수준의 추론 능력을 갖추는 데 기여할 것"이라고 말했다.
연구진이 주목한 사고 언어 가설에 따르면, 인간의 추론 과정은 논리적 일관성, 구성성(조합 능력), 생성성의 세 가지 특징을 가진다.
먼저, 논리적 일관성을 측정하기 위해 LLM이 문제를 해결할 때 일관된 정답을 도출하는지를 실험했다. 연구진은 동일한 문제를 변형한 '증강 문제'를 만들어 LLM이 변형된 문제에서도 동일한 논리를 유지하는지를 분석했다. 그결과, LLM의 논리적 일관성이 프롬프팅 방법에 따라 차이를 보였다.
또 구성성(조합 능력)을 평가하기 위해 LLM이 문제를 해결하는 데 필요한 개념들을 얼마나 효과적으로 조합하는지를 실험했다. 그결과, 인간은 전체 과정을 고려해 개별 개념을 조합하지만, LLM은 조합해야 할 단계가 많아질수록 정확도가 떨어졌다.
마지막으로 LLM의 생성성을 평가하기 위해 제약 조건에 맞는 유효한 결과를 얼마나 많이 생성하는지를 실험했다. LLM의 추론 능력을 정량적으로 측정한 결과, 논리적 일관성 부문에서 증강(변형) 문제에 대해 평균 18.2%의 정확도를, 구성성 부문에서 조합 과제에 대해 5~15%의 정확도를, 생성성 부문에서는 17.12%의 생성 타당도를 보였다.
연구진은 연구 결과에 대해 "LLM이 일부 추론 능력을 보이지만 계획 단계가 길고 입출력 이미지가 복잡해지면 단계적인 추론을 거치지 못해 논리적 일관성, 구성성, 생성성 등에서 한계를 보이며, 인간과 비교했을 때 추론 능력은 여전히 뒤처져 있다"고 설명했다.
monarch@fnnews.com 김만기 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지