目前的预训练模型都很少的考虑到知识图谱的信息(KGs),KGs可以为语义理解提供丰富知识基础。KG中的实体知识可以增强语义的表示。这篇paper中,利用大规模的文本语料以及KGs训练了一个增强的语言表示模型 ERNIE,实验结果表明 ERNIE 在各种 knowledge-drive 的任务上取得了显著的改进,同时在常见的NLP任务上与最先进的BERT相媲美。

Pre-trained language representation 模型,包括基于特征的、基于fine-tune的,可以从文本中捕捉到丰富的语义信息,并在很多nlp任务上取得很好的效果。如BERT,在很多NLP任务上都取得SOTA的结果,包括NER、QA、NLI、文本分类等。

尽管预训练模型已经取得很好的结果,而且在NLP任务中已经成为了常规的组成部分,但是他们忽视了将知识信息整合到语言理解中。如图所示,如果不知道 Blowin' in the Wind and Chronicles: Volume One 分别是歌曲和书,在实体类型任务中,将很难辨别 Bob Dylan 有两个职业 songwriter 跟 writer。而且在关系分类任务中,像composer和author这种,要提取这么细粒度的关系是不可能的。考虑丰富的知识信息可以导致更好的语言理解,从而有利于各种知识驱动的任务,如实体类型与关系分类等。

要将外部知识整合到语言模型中,有两大挑战。

  1. Structured Knowledge Encoding:对于给定的文本,如何高效的提取实体并结合他在KGs中的相关知识进行编码。
  2. Heterogeneous Information Fusion:language representation 的 pre-training procedure 跟 knowledge representation procedure 有很大的不同,会产生两个单独的向量空间。如何设计一个特殊的训练目标来融合词汇、句法和knowledge infomation。

Reference

[1] https://www.ramlinbird.com/2019/08/06/ernie及ernie-2-0论文笔记/