문장을 단어 혹은 sub-word 단위로 쪼개고, 쪼갠 하나의 단위는 token이라고 말합니다.
위에서 grew a pretty little fir-tree; and yet it was not happy를 토큰 단위로 쪼개면 12개의 토큰으로 쪼갤 수 있습니다. (좀더 정확히는 -, ; 도 토큰이 되지만 이해를 돕기 위한 예시라고 생각해주세요.)
grew a pretty little fir-tree; and yet it was not happy
-
;