적은 양의 데이터에서도 높은 분류 성능을 낸다. (다양한 task SOTA)
특정 task에 fine-tunning된 모델은 다른 task에 사용 불가하다.
프리트레인의 새 지평을 열었지만, 여전히 지도학습을 필요로한다.
⇒ 엄청나게 큰 데이터셋을 사용하면 자연어 task를 자연스럽게 학습한다.
⇒ pre-trained model을 굳이 fine-tunning해서 한가지 task에만 수행하는 건 바보같은 짓이다. 라며 zero-shot, one-shot , few-shot 등장!
GPT-1 에서 모델 사이즈를 키웠다(117m → 1,500m) , 학습데이터(11GB → 40GB)도 늘림
GPT-2에서 사이즈를 더 늘렸다.(1,500m → 175,000m) , 학습데이터도 늘림(40GB → 570GB)
사용예시 : 상식 Q&A
⇒ Awesome GPT-3 에 70개 가량의 예제가 수록되어있다.