概要

本講義では、multilingual BERTやXLM-RoBERTaのような訓練済み多言語モデルを用いて対訳文対の単語対応や対訳文書の文対応を実現する方法について解説する。理由はよく分からないが、複数の言語の単言語テキストだけから訓練された多言語モデルは、言語を超えて意味的に類似した語句を判別する能力を持っている。ここでは言語の普遍性を工学的に示唆しているようにみえる訓練済み多言語モデルが持つ不思議な特徴について概説し、日本語や中国語において訓練済み言語モデルを利用する際に問題となるtokenizationについて論点を整理する。