トークンとは? 一言でいうと…

人間は「単語」や「文字」単位で文章を読みますが、AIはそれとは少し違う、AIにとって都合の良い「トークン」という単位に文章を分解してから処理します。


「レゴブロック」でイメージしてみよう

トークンを理解するには、文章をレゴブロックの作品に例えるのが一番分かりやすいです。

人間にとっての「単語」が、レゴの「ドアパーツ」や「窓パーツ」のような少し組み立てられた部品だとすると、「トークン」はもっと根本的な「1x1のポッチ」や「2x4のブロック」のような、それ以上分解できない最小単位のイメージです。


トークンって、具体的にどんなふうに区切られるの?

ここが少しややこしいのですが、トークンの区切り方は、人間が思う「単語」の区切り方とは違います

英語の場合

比較的、単語や句読点に近い形で区切られます。

"I love cats." → ["I"], [" love"], [" cats"], ["."]

のように、4トークンに分解されたりします。

しかし、珍しい単語はさらに細かく分解されます。

"Tokenization is complex." → ["Token", "ization", " is", " complex", "."]

"Tokenization" という単語が ["Token"] と ["ization"] の2つのブロック(トークン)に分かれるイメージです。

日本語の場合(ここが重要!)