トークン | Notion

人間は「単語」や「文字」単位で文章を読みますが、AIはそれとは少し違う、AIにとって都合の良い「トークン」という単位に文章を分解してから処理します。

トークンを理解するには、文章をレゴブロックの作品に例えるのが一番分かりやすいです。

あなたがAIに渡す文章：レゴで作られた「立派なお城（完成品）」
AIの頭の中の処理：
1. まず、AIは受け取ったお城を、一度バラバラの最小ブロックに分解します。（この最小ブロックがトークンです）
2. AIは、ブロックの色や形、つながり方を見て、「これはお城だな」と理解します。
3. そして、AIは手元にある膨大なブロックを使って、あなたの指示通りに新しい作品（返事の文章）を組み立て直します。

人間にとっての「単語」が、レゴの「ドアパーツ」や「窓パーツ」のような少し組み立てられた部品だとすると、「トークン」はもっと根本的な「1x1のポッチ」や「2x4のブロック」のような、それ以上分解できない最小単位のイメージです。

ここが少しややこしいのですが、トークンの区切り方は、人間が思う「単語」の区切り方とは違います。

比較的、単語や句読点に近い形で区切られます。

"I love cats." → ["I"], [" love"], [" cats"], ["."]

のように、4トークンに分解されたりします。

しかし、珍しい単語はさらに細かく分解されます。

"Tokenization is complex." → ["Token", "ization", " is", " complex", "."]

"Tokenization" という単語が ["Token"] と ["ization"] の2つのブロック（トークン）に分かれるイメージです。