人間は「単語」や「文字」単位で文章を読みますが、AIはそれとは少し違う、AIにとって都合の良い「トークン」という単位に文章を分解してから処理します。
トークンを理解するには、文章をレゴブロックの作品に例えるのが一番分かりやすいです。
人間にとっての「単語」が、レゴの「ドアパーツ」や「窓パーツ」のような少し組み立てられた部品だとすると、「トークン」はもっと根本的な「1x1のポッチ」や「2x4のブロック」のような、それ以上分解できない最小単位のイメージです。
ここが少しややこしいのですが、トークンの区切り方は、人間が思う「単語」の区切り方とは違います。
比較的、単語や句読点に近い形で区切られます。
"I love cats." → ["I"], [" love"], [" cats"], ["."]
のように、4トークンに分解されたりします。
しかし、珍しい単語はさらに細かく分解されます。
"Tokenization is complex." → ["Token", "ization", " is", " complex", "."]
"Tokenization" という単語が ["Token"] と ["ization"] の2つのブロック(トークン)に分かれるイメージです。