QANDA’s MathGPT (Kor)

<aside> 💡 아시아 최고의 교육 플랫폼 업체인 콴다는 다년간 축적된 수학 데이터와 기술력을 바탕으로 수학 특화 거대언어모델(LLM)인 MathGPT를 개발했습니다. 'MATH' (12,500개의 고난도 수학 경시 문제)와 'GSM8K' (8,500개의 초등학교 수학 문제) 등, 수학 능력을 평가하는 여러 벤치마크에서 마이크로소프트의 'ToRA 13B'를 넘어서는 성과를 보여, 13B 이하 모델 중에서 1위를 달성했습니다. 앞으로는 MathGPT의 정확도를 더욱 향상시키고 다양한 언어로 확장하여 모델을 고도화할 계획이며, 이를 자체 제품에 적용하는 것은 물론 교육에 특화된 모델이 필요한 고객에게도 제공할 예정입니다.

</aside>

세부 정보

개발 방법론

데이터 중심적 접근 방법을 통해 MathGPT를 개발하였고, 최고의 성능(SOTA)을 달성했습니다.

수학 데이터 수집
- 수학 분야에서 다양한 형식의 방대한 양의 데이터를 수집하여 사용했습니다.주요 데이터 소스는 질문/답변 및 검색 기능을 제공하는 콴다 앱을 통해 수집된 콴다의 데이터베이스입니다.
프로그래밍적인 방법인 Programming of Thoughts (PoT) 사용
- 수식을 풀어가는 과정에서 발생할 수 있는 오류를 최소화하기 위해, LLM(Large Language Models)을 통해 프로그램을 생성하고 실행하는 PoT 방법론을 사용했습니다.
합성 데이터(Synthetic data) 생성
- LLM을 활용해 인간의 단계별 문제 풀이 방법을 모사하거나, 앞서 언급한 프로그래밍 방법론을 포함한 합성 데이터를 생성하여 학습에 활용했습니다.
데이터 선택을 통한 성능 향상
- 해설 품질이 낮거나 관련성이 낮은 데이터를 필터링하여 모델의 성능을 개선했습니다.

성능 평가

MathGPT의 성능 평가를 위해, 콴다는 수학 문제 풀이 능력을 평가하는 데 주로 사용되는 MATH 및 GSM8K 등의 다양한 데이터셋을 사용했습니다. MATH 데이터셋은 미국 고등학교 수준의 대수, 정수론, 확률, 기하학 등으로 구성되어 있으며, GSM8K는 초·중등학생 수준의 서술형 문제로 이루어져 있습니다. MathGPT는 평가 대상이 된 모든 데이터셋에서 기존 모델들을 뛰어넘는 성능을 보였습니다. 이는 MathGPT가 다양한 수학 영역에서 뛰어난 문제 풀이 능력을 보유하고 있음을 증명합니다.

Untitled

기타

MathGPT의 기술적인 측면에 대한 논문이 현재 출판을 위해 검토 중에 있습니다.

향후 개발 목표

콴다는 MathGPT의 정확도와 성능을 지속적으로 향상시켜, 최종적으로 콴다의 제품과 합하여 AI 기반의 보조 교사, 즉 AI 튜터를 구현하는 것을 목표로 하고 있습니다. 이 AI 튜터 서비스를 모든 교육 현장과 교육 솔루션에 도입하여, 교육 시장에서 글로벌 AI 튜터로서의 혁신을 이루고자 합니다.

또한, MathGPT가 지원하는 언어 범위를 확장하는 것도 계획 중입니다. 현재는 영어만 지원되지만, 향후 콴다가 보유한 방대한 다국어 수학 데이터를 이용해 다양한 언어로의 지원을 확대할 예정입니다.