서론수정.docx

I. 서론 (서론 내용 보충)

본 연구에서는 당뇨병의 조기 예측을 위한 모델을 설계하고 평가한다. 당뇨병 환자 10명 중 3~4명 꼴의 비율로 당뇨병에 대한 자가 인지가 이루어지지 않는다. [X] 당뇨병의 합병증 확대 가능성과 조기 발견 시 치료효과가 매우 크다는 점에서 조기 인지를 수반한 적절한 대응의 편익이 매우 크다. [X] 따라서 우리는 허들이 높은 병원 방문 및 혈당 검사 이전에, 확인할 수 있는 사용자의 데이터로 당뇨병 유병 여부를 예측할 수 있는 모델을 제작하고자 한다.

우리는 본 연구에서 당뇨병을 췌장이 충분한 인슐린을 만들지 못하거나, 세포가 만들어진 인슐린에 반응하지 못하는 것이 증상이 되는 질병으로 정의한다. 최근 7년간 당뇨병은 지속적으로 높은 유병률을 보이고 있으며 2018년 기준 30세 이상의 경우 12.4%, 65세 이상의 경우 27.6%의 유병률을 보이고 있다. [당뇨FACTSHEET] 하지만 당뇨병은 초기에는 증상이 거의 나타나지 않기 때문에 당뇨병으로 인한 다른 합병증이 발생할 때까지 알아차리기 어렵다.

따라서 본 연구에서는 2018 국민보건영양조사 원시자료를 바탕으로 ML(Machine Learning) 기법들을 이용하여 당뇨병 발생을 초기에 예측할 수 있는 모델을 제작했다. 변수 간의 상관계수(Pearson), VIF(Variance Inflation Factor), 그리고 Random Forest 기반 변수중요도를 기반으로 총 4차례의 단계에 걸쳐 변수를 축소하고, 축소된 데이터셋을 SVM을 비롯한 분류기에 학습시켜 높은 정확도로 당뇨병을 예측할 수 있도록 하였다. Accuracy 수치를 기준으로 선행 연구에서 구축된 예측 모델과 성능 비교를 함으로써 본 연구에서 구축된 모델에서 당뇨병 예측의 정확도가 개선되었음을 확인할 수 있었다.

Naveen의 연구에서는 The National Institute Of Diabetes Andj Digestive Diseases에서 제공된 데이터셋에 SVM, Decision Tree, Logistic Regression 등의 머신러닝 방법론을 적용하여 당뇨병 예측 모델을 구축하였으 나 정확도가 70%대로 비교적 낮은 편이었다. [prediction~]

장진수의 연구에서 한국인유전체역학조사사업(KoGES) 자료를 바탕으로 제2형 당뇨병 예측모델을 구축하여 Accuracy 결과가 우수한 것으로 나타났으나, 해당 데이터셋에는 당뇨병과 관련이 깊은 혈당과 당화혈색소 등의 혈액 검사 수치가 포함되어 있어 예측 모델의 정확도가 높게 나온 것으로 판단할 수 있다.

[RNN을 이용한~] 마찬가지로, PIMA Indian Diabetes Data를 활용하여 당뇨병 유병 여부를 예측한 S.Saru의 연구에서 Decision Tree를 통해 예측을 수행한 결과 정확도가 94.44%로 타 연구들에 비해서 높은 정확도를 보였다. 그러나 해당 데이터셋에는 glucose 수치가 포함되어 있으며, 이는 당뇨병 진단을 위한 지표로 활용되기 때문에 예측의 정확도를 높이는 요인으로 작용할 수 있다. [anaylsis ~ ]

살펴본 선행 연구에서는 예측 모델의 성능이 떨어지거나, 연구에서 설정한 데이터셋에서 당뇨병 혈당 진단의 지표(glucose) 가 되는 변수를 배제하지 않아 정확도가 높게 나오는 요인으로 작용하는 등으로 작용했다. 우리의 연구 방향과 목적, 사용자가 직접 확인할 수 있는 변수를 중심으로 당뇨병을 사전에 예측하는 것과는 다르다는 문제를 확인할 수 있었다.


(한국 학술지에 투고하기 때문에 한국 상황에 맞춘 글 작성)

당뇨병은 한국에서 ~~한 질병이다(통계청 자료를 가져오든지 Factsheet를 사용하던지)[1] 최근 7년간 당뇨병은 지속적으로 높은 유병률을 보이고 있으며 2018년 기준 30세 이상의 경우 12.4%, 65세 이상의 경우 27.6%의 유병률을 보이고 있다. 하지만 당뇨병은 초기에는 증상이 거의 나타나지 않기 때문에 당뇨병으로 인한 다른 합병증이 발생할 때까지 알아차리기 어렵다(레퍼런스가 있는지?).[2]


(why?)

본 연구에서는 당뇨병의 조기 예측을 위한 모델을 설계하고 평가한다. 당뇨병 환자 10명 중 3~4명 꼴의 비율로 당뇨병에 대한 자가 인지가 이루어지지 않는다. 미국당뇨병협회(ADA)에 따르면, 당뇨병의 조기진단과 그에 수반되는 질병 관리는 합병증을 예방하는데 유의미하다고 알려져 있다. [3] 또한 당뇨병의 조기 발견 시 생활 습관 개선 및 혈당 조절이 가능해진다는 점에서 치료효과가 매우크다는 점이 알려져 있다. 따라서 우리는 인구통계학적 데이터로 현재 증상이 발현되지 않은 사람의 잠재적 당뇨병 발현을 예측할 수 있는 모델의 개발을 목표로한다.


American Diabetes Association. (2004). Screening for type 2 diabetes. Diabetes care, 27(suppl 1), s11-s14.

(이 부분에 선행연구 들어가기)

머신러닝이 발전하면서 CT, MRI 영상을 판독해 폐암을 예측하는 S/W가 식약처에 의해 의료기기로 분류되는 등 의사의 진료 보조에 활용되고 있다.[4] 또한 당뇨병 관련해서도 머신러닝 알고리즘에 기반한 당뇨병 예측 모델을 구축한 사례가 있다. 일례로, Naveen의 연구에서는 데이터셋에 SVM, Decision Tree, Logistic Regression 등의 머신러닝 방법론을 적용하여 당뇨병 예측 모델을 구축하였다. 또한 장진수의 연구 에서 LR, KNN, SVM, RNN 등의 분류기를 적용시켜 한국인유전체역학조사(koGES)데이터를 기반으로 제2형 당뇨의 분류를 시도했다.

/하지만 Naveen의 예측 모델은 비교적 낮은 정확도와 AUC 값을 나타냈으며, 장진수의 연구는 당뇨병의 증상에 해당하는 데이터를 종속변수로 예측했다.


따라서 본 연구에서는 한국인 XXXX 명을 대상으로 조사한 2018 국민보건영양조사 원시자료를 바탕으로 ML(Machine Learning) 기법들을 이용하여 당뇨병 발생을 초기에 예측할 수 있는 모델을 제작했다.상관계수(Pearson), VIF(Variance Inflation Factor), 그리고 Random Forest 기반 변수중요도를 기반으로 총 4차례의 단계에 걸쳐 변수를 축소하고, 축소된 데이터셋을 SVM을 비롯한 분류기에 학습시켜 높은 정확도로 당뇨병을 예측할 수 있도록 하였다. (여기에도 워크플로우 간단하게 들어갔으면 좋겠어요. 분석을 위해서 고려된 사항들에 대해서도 좀 들어가면 좋을 듯


마지막으로 이 연구를 진행함으로써 어떤 관점을 고려햇는지, 높은 정확도를 확인했다. 어디에 분야에 기여한다, 향후 연구계획을 제시한다. 등등

(살펴본 선행 연구에서는 예측 모델의 성능이 떨어지거나, 연구에서 설정한 데이터셋에서 당뇨병 혈당 진단의 지표(glucose) 가 되는 변수를 배제하지 않아 정확도가 높게 나오는 요인으로 작용하는 등으로 작용했다. 우리의 연구 방향과 목적, 사용자가 직접 확인할 수 있는 변수를 중심으로 당뇨병을 사전에 예측하는 것과는 다르다는 문제를 확인할 수 있었다.)<- 고려내용에 잘 녹여내면 좋을듯합니다.



GOOD REF

당뇨병은 장기적인 치료가 필요하기 때문에 많은 의료 비와 전문 의료인이 필요한 질병이지만 초기에 잘 관리 하면 치료효과가 매우 큰 질병이다. 하지만 당뇨병은 초 기 단계에 특별한 증상을 보이지 않아서 증상이 악화될 때까지 병원에 가지 않는 경우가 많다. 미국 당뇨병 협회 (American Diabetes Association)에서 발표한 자료에 따르면, 당뇨병을 조기 진단받고 질병관리를 한다면 당뇨 병과 관련된 합병증을 줄이는 데 효과적임을 알 수 있다 [6]. 또한 당뇨병 환자의 조기 진단은 T2DM으로 인한 합병증을 예방하거나 지연시킬 수 있음이 밝혀졌고[7], 최적화된 예측모형을 통해 T2DM을 조기 예측함으로써 생활습관 개선 및 혈당조절이 가능하며, 고위험군의 T2DM 발생률을 낮출 수 있다고 알려져 있다[8]. 이는 당뇨병의 조기발견 및 예측이 당뇨병 치료에 매우 효과 적이라는 것을 보여준다. 현재까지 당뇨병 위험을 예측하 기 위한 전통적인 방법은 인구통계학적 데이터와 임상적 데이터를 사용하여 위험 수준을 파악하는 통계 모델을 구축하는 데 중점을 두었다[