논문 기본 정보
초록
경제학 지식은 조직이 좀 더 데이터 기반의 의사 결정하도록 지원하는 분석, 데이터 마이닝, 데이터 시각화, 데이터 도구, 모델링, 인프라를 모두 포함한다. 빠르게 변해가는 사회에서 좀 더 과학적 방법으로 해답을 제시해줄 수 있다. 본 논문에서는 경제학 논문 텍스트에서 키워드 개체 추출 시스템과 관계 정보를 학습하고 예측할 수 있는 관계 기반 BERT 모델을 제안한다. 관계 기반 BERT 모델을 실험을 통해 검증한 후에 지식 그래프 추출 및 지식 그래프 기반 의미론적 추론을 제시한다. 그래프의 연결성은 직접 연결된 관계 정보뿐 아니라 간접적으로 관련된 개체들을 통해 개념이 연결되어 문서 간의 잠재적인 숨겨진 관계를 드러낼 수 있다. 본 논문은 간접적인 관계 정보의 추출을 통해 새로운 의미 정보, 관계 정보를 추론하는 데 나아가는 연구의 방향성을 제시한다.
1. 서론
- 경제학 지식은 세금, 인플레이션, 불평등, 에너지 등 다양한 사회·경제 문제에 대한 해답을 제공하며, 데이터 기반 의사결정에도 중요한 역할을 한다.
- 하지만 실제 경제사회에서는 다양한 요소가 복잡하게 얽혀 있어, 관계성을 단순히 통계적으로 분석하는 것만으로는 빠르고 정확한 결론을 내리기 어렵다.
- 기존의 연관 관계 분석 방식은 키워드 간의 단편적인 연결만 보여줄 뿐, 전체 구조나 간접적 의미 관계까지는 파악하기 어렵다.
- 이에 본 연구는 경제학 논문 데이터를 기반으로 BERT 관계 추출 모델을 활용하고, 지식 그래프를 구축하여 키워드 간 직접·간접 관계를 시각적으로 드러내는 방법을 제안한다.
2. 관련 연구
- 관계 정보(Relation information)
- 관계 정보 추출 작업: 글에서 개체 쌍의 관계를 추론하는 작업
- 초기 연구에서는 문장 속 개체 관계를 분류하는 작업에 초점을 맞췄다.
- 최근에는 CNN, RNN 기반 방법을 넘어서 , Transformer 기반의 모델이 관계 추출 분야에서 주류로 자리 잡았다.
- 지식 그래프(Knowledge Graph)
- 지식 그래프는 현실 세계의 개체와 관계를 구조화된 형태로 표현한 데이터 그래프로, 자연어 처리, 의료, 법률 등 다양한 도메인에서 정보 검색, 의미 추론, 문서 요약, 의사결정 지원에 활용되고 있다.
- 지식 베이스(Knowledge Base): 현실 세계의 지식을 논리적이고 구조적으로 저장한 데이터 베이스
- 개념과 관계를 통해 의미적 연결성을 가지고 있다.
- wikidata, DBPdia는 지식 그래프 형식으로 저장함.
- 왜 쓰나요?: 고유명사가 포함된 문장의 이해와 생성 능력이 탁월하다.
- 일반적인 자연어처리 모델: 논리적 이해와 통계적 추론이 힘듦 → 이를 지식 그래프를 통해 보완
- BERT 언어 모델
- 양방향 Transformer 인코더 구조를 사용한 모델로, 사전 훈련과 미세조정을 수행하는 전이학습모델이다. BERT의 각 토큰은 단어 세그먼트, 위치 임베딩으로 이루어져 있으며, ‘[CLS]’, ‘[SEP]’와 같은 스페셜 토큰을 사용해 문장 구분이나 분류 작업에 활용된다.