GPT-3 paper address 。。。 。。。

GPT-3是最近由OpenAI新发布的一篇paper,它依旧延续GPT2单向语言模型的训练方式,但是这一次把模型的参数量增大到了1750亿,并使用4TB的数据进行训练。

之前的较多预训练模型的面世,如bert等,表明通过对大量文本语料进行预训练,然后在这基础上,对特定任务进行微调,在许多NLP任务上都取得了实质性的进展。虽然在体系结构中通常与任务无关,但这种方法仍然需要成千上万个示例的特定于任务的微调数据集。

相比之下,人类通常可以通过几个例子或简单的指令来执行一项新的语言任务——这是目前的NLP系统在很大程度上仍难以做到的。而GPT3聚焦于更通用的模型,文中展示了扩展语言模型可以极大地提高任务不可知性,减少每个任务的花费。

INTRODUCTION

GPT-3与GPT-2在模型结构上基本上没有什么区别,他是目前为止最大的模型,他的参数量是之前最大模型,微软Turing-NLG的10倍,是ELMO的2000倍。训练费用高达1200万美金。GPT系列的任务旨于处理zero-shot的任务。

GPT系列的目的

在过去,我们在使用bert的pretrained_model的时候,我们是先pretrain一个model,然后针对每一个下游任务,我们先收集这个任务的数据,然后在这个任务specific的数据下进行fine-tune,最后得到每一个任务的model。

而GPT系列的目的是想要拿掉fine-tune这个步骤,希望能够pretrain一个模型,这个pretrain的模型直接能处理下游的任务。

GPT系列的终极目标也许就是像下面这个,我们今天人类在考下面这种英文能力考试的时候,我们其实只需要给一个体型说明,也许还会给一个范例,然后考生就知道该如何解下面的问题,而GPT系列想做的就是类似的事情。

MODEL

具体一点GPT里面做的事情是这样,他有3个可能

以paper中的英文翻译成法文的例子为例,先给一个任务的说明(task-description)再给几个示例(examples),然后就开始给任务(prompt),这3种可能的区别在于给出示例的个数,其中Few-shot learning会给超过一个的几个示例,One-shot learning只给一个示例,而在Zero-shot learning中,一个示例都不给就开始直接回答问题。GPT系列希望做到,只给出一个Translate Endlish to French,模型就知道什么叫做Translate English to French,然后再给他一句英文,它就知道要输出法文了。这对模型来说是一个非常大的挑战,也许One-shot learning比较接近针对有办法做到的状况,因为机器至少有看到一个例子。

*在这里的Few-shot learning与平时提到的Few-shot learning是不一样的,一般提到的Few-shot learning是指的用少量几个样本在模型上fine-tune,而在GPT3中是不存在Fine-tune的,所谓的Few-shot 是指,将示例的输入输出一起作为输入,输入到模型中,只是让模型读过这些句子,在这过程中,完全没有调整模型的参数,没有gradient descent。在GPT3中,把这种学习的方式,叫做"In-context" Learning。