[10/05] GPT 언어모델 + 실습

GPT-1 에서 모델 사이즈를 키웠다(117m → 1,500m) , 학습데이터(11GB → 40GB)도 늘림
- 이로 인해 one-shot,few-shot, zero-shot 러닝이 성공적으로 작동함
  - 일반 신경망 수준이지만 그래도 새로운 지평이다! (파인튜닝없이)
GPT-2에서 사이즈를 더 늘렸다.(1,500m → 175,000m) , 학습데이터도 늘림(40GB → 570GB)
- 뉴스 기사를 생성했을 때, 사람이 쓴 것으로 판단하는 비율이 52%, 88%였음
사용예시 : 상식 Q&A

⇒ Awesome GPT-3 에 70개 가량의 예제가 수록되어있다.

한계점
- weight update가 없다는 건 새로운 지식습득이 없다는 것인데, 시대가 변하기 때문에 추가학습이 필요하다.
- 글로만 배웠기에 멀티모달 정보가 필요하다!