본 연구의 모델 학습 및 실험은 다음과 같은 환경에서 진행되었다. 총 실제 sample 수 5995 명 중 당뇨병 유병 환자로 분류된 sample은 1913명이었다. 단, 당뇨병 유병 판단 변수 HE_DM은 국민보건영양조사의 기준에서 변경하였다. 0: 정상, 1: 공복혈당장애, 2: 당뇨병 유병 으로 분류되던 것을 이진화 하여 0: 당뇨병 비유병 1: 당뇨병 유병의 형태로 분류하였다. 또한 Sklearn 라이브러리의 데이터 분할, 가공 등의 함수를 사용하였다.
본 연구에서 학습시킨 분류 모델의 정확도를 평가하기 위해 Accuracy(분류 성공률) 와 AUC(Area Under the Curve)를 판단 준거로 삼았다. K-fold 기법을 활용하여 TEST : TRAIN 의 비율은 0.2:0.8 로 설정되었다. 사이킷런 라이브러리의 셔플을 하지 않아, 각 폴드별로 분류의 Accuracy 및 AUC의 차이가 있으며 최대 Accuracy 92%, 최소 Accuracy 72%, 평균 Accuracy 86.4% , 표준편차 0.083 을 확인할 수 있었다. 또한 최대 AUC 의 경우 최대 0.99, 최소 0.79, 평균 0.92, 표준편차 0.92 를 확인했다.
