Title: MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training

Authors: Mingliang Zeng, Xu Tan, Rui Wang, Zeqian Ju, Tao Qin, Tie-Yan Liu

Source: ACL 2021 Findings

Institute: MSRA

Motivation

符号音乐包含更多结构化(比如小节线,或者音符的位置)以及多样化的信息(比如速度,乐器,音高)—>个人理解这是因为音乐与文本不同,这些信息不适合都看成是统一类型的token,所以需要采用与NLP预训练不同的处理技术。

Main Work

  1. 本文提出了OctupleMIDI编码方式以及bar级别的mask策略,并在旋律补全、伴奏“建议”、体裁识别以及风格识别四个下游任务上进行了测试
  2. 并提出了大规模的音乐歌曲语料库

OctupleMIDI:

  1. 拍号(Time Signature):
  2. 节奏(Tempo)
  3. Bar and position
  4. 乐器:
  5. 音高:
  6. 持续时间:
  7. 速度:

Masking Strategy

使用bar-level的mask策略:在同一个小节内的相同类型的元素被同时mask,从而能够避免信息的泄露(常规的mask方式是以octuple为单位进行mask,因为音乐本身的连续性非常好,所以很容易由周围的音符预测出缺失的token,难度较低)