GPT-2

GPT-2는 2019년에 등장한 모델이고 지금의 GPT-3 모델이 나올 수 있게 될 수 있는 근간에 대한 내용이 담겨져 있습니다. GPT-1과 다르게 GPT-2에서는 “Language Models are Unsupervised Multitask Learners”라는 제목으로 언어 모델로 여러 가지 언어 테스크를 할 수 있는 모델로 소개가 되어있는데 당시에 어떤 생각을 가지고 지금의 GPT-3가 나올 수 있었는지 살펴보도록 하겠습니다.

소개

GPT-2 모델은 내용을 주장하고 만들어졌습니다.

이렇게 이야기할 수 있는 것은 다음의 원문에 이렇게 나와있습니다.

    Since the supervised objective is the the same as the unsupervised objective but only evaluated on a subset 
    of the sequence, the global minimum of the unsupervised objective is also the global minimum of the supervised 
    objective.

    번역: supervised objective 는 unsuperviesed objective와 동일하지만 순서의 하위 집합에서만 평가되기 때문에, 
         unsupervised objective의 전역 최소값은 supervised objective 의 전역 최소값이기도 하다.

말인 즉슨, “unsupervised objective를 가지고 모델학습을 하면 supervised objective에 대해서도 만족한다.” 정도로 설명할 수 있을것 같습니다.

논문에서는 이를 가정하고 만든 GPT-2 모델을 통해 언어를 추론하고 NLP 테스크를 설명을 통해 수행할 수 있는 가능성을 확인하고자 했습니다.

접근

제안하는 GPT-2 모델에서는 여러가지 NLP 테스크가 가능해야 합니다. 그렇기 때문에 단순 텍스트 입력만 들어가는 것이 아니라 테스크에 대한 정보도 같이 들어갈 수 있어야 합니다. 만약에 모델에 입력한다면 (테스크 설명, 입력, 출력) 형태로 해서 (번역, 한국어 입력, 영어 출력) 또는 (QA, 컨텍스트, 질문, 답) 이렇게 작성을 할 것입니다. 논문의 예시로 보면 다음과 같이 볼 수 있겠습니다.

”I’m not the cleverest man in the world, but like they say in French: Je ne suis pas un imbecile [I’m not a fool].

In a now-deleted post from Aug. 16, Soheil Eid, Tory candidate in the riding of Joliette, wrote in French: 
”Mentez mentez, il en restera toujours quelque chose,” which translates as, ”Lie lie and something will 
always remain.”

“I hate the word ‘perfume,”’ Burr says. ‘It’s somewhat better in French: ‘parfum.’

If listened carefully at 29:55, a conversation can be heard between two guys in French: 
“-Comment on fait pour aller de l’autre cote ́? -Quel autre cote ́?”, which means 
“- How do you get to the other side? - What side?”.

If this sounds like a bit of a stretch, consider this ques- tion in French: 
As-tu aller au cine ́ma?, or Did you go to the movies?, which literally translates as 
Have-you to go to movies/theater?

“Brevet Sans Garantie Du Gouvernement”, translated to English: “Patented without government warranty”.

예시는 WebText 학습 데이터 셋에서 영어에서 프랑스어로 변환되는 내용입니다. 모델에서 실험을 할 때는 위와 같이 앞에서 번역하고자 하는 문구를 입력하고 “wrote in French”나 “French:”, “English:”와 같이 표기를 해서 변역된 문구가 생성되는 것을 기대할 것입니다.

이와 같은 방식은 McCann et al.(2018) 의 논문에서 MQAN에서 이미 다른 테스크에 대한 예시 포멧을 입력하여 NLU 테스트 수행하는 실험을 진행 했습니다.

데이터

위에서 언급했다시피 자연어의 모든 테스크를 한 모델에서 할 수 있는 general system을 만들려면 아주 다양하고 많은 자연어 데이터를 수집 해야 합니다. 기존에 활용했던 위키피디아 데이터나 fiction books와 같은 소설 데이터를 많이 활용했는데 지금은 이보다 더 많고 다양한 자연어 리소스를 찾아야 합니다.

Common Crawl은 아마도 실험할 당시에 가장 접근하기 쉬운 다양하고 많은 자연어 데이터 중 하나인 듯 합니다. 하지만 이전에 다른 시험들에서 “whose content are mostly unintelligible”이라 불리는 데이터였는데 이러한 이슈를 GPT-2 실험 과정에서도 겪었다고 합니다. 결국 자체적을 WebText라는 데이터셋을 수집 및 구축했고 다음의 방식으로 데이터 크롤링을 진행했다고 합니다.