94년 제안된 바이트 페어 인코딩 ( Byte Pair Encoding )
말뭉치에서 가장 많이 등장한 문자열을 병합해 문자열을 압축하는 것이다
Bert는 BPE로 학습한 어휘 집단을 쓴다.
character 단위에서 vocabulary를 만들어 내는 ( Bottom-UP ), character → bpe(middle) →word
# dictionary
l o w : 5, l o w e r : 2, n e w e s t : 6, w i d e s t : 3
# vocabulary
l, o, w, e, r, n, w, s, t, i, d
(e, s) -> (es) | (es, t ) -> (est) | (l, o ) -> (lo) | ....
# dictionary update!
low : 5,
low e r : 2,
newest : 6,
widest : 3
# vocabulary update!
l, o, w, e, r, n, w, s, t, i, d, es, est, lo, low, ne, new, newest, wi, wid, widest