<aside> 💡 본 논문은 2017년 NIPS에서 발표되었고, 모델 해석방법으로 많이 사용되는 SHAP을 제안한 논문입니다. SHAP은 특정 예측값에 대하 각 변수들의 중요도를 정의하고 지금까지 나온 여섯가지의 해석가능한 방법들을 통합하여 하나로 만든 프레임워크 입니다.

</aside>

Introduction

예측모델의 결과를 정확히 해석하는 것은 매우 중요한일이다. 그러나 더 큰 데이터를 사용할 수 있게되면서 점점 복잡한 모델을 사용하게 되었고 결과에 대한 모델의 정확성과 해석가능성 사이의 trade-off가 발생하게되었다.

이후 모델을 해석할 수 있는 다양한 방법들이 나왔지만 각각의 방법을 서로 비교하기는 쉽지않다. 그래서 본 논문에서는 이 방법들을 통합한 새로운 방법을 제안한다. 이 방법은 크게 세 가지 좋은 결과를 나타낸다.

모델 그 자체로 모델의 결과를 해석하는 것이 가능한 the explanation model 이다. 최근에 나온 여섯가지 방법들을 통합하는 클래스로 additive feature attribution methods를 정의한다.
게임이론이 해결책으로서 additive feature attribution methods에 모두 적용됨을 보인다. 그리고 변수 중요도의 통합된 값으로 SHAP value를 제안한다.
새로운 SHAP value를 소개하고 다른 여섯가지 모델들과 비교하며 human study에서 더 나은 결과를 보임을 나타낸다.

Addictive Feature Attribution Methods

간단한 모델의 최고의 해석은 모델 그 자체가 되는 것이다. 복잡한 모델의 결우 결과를 해석하기 위해서 더 간단한 모델이 필요하다.

본 논문에서는 아래 여섯 가지 모델이 모두 같은 설명모델을 사용하는 것을 보여준다. 이 과정은 하나씩 순서대로 살펴보록 한다.

LIME
DeepLIFT
Layer-Wise Relevance Propagation
Shapley regression values
Shapley sampling values
Quentitative Input Influence

여기서 addictive feature attribution method의 수식에 대해 먼저 확인할필요가 있다.