该maxTokens参数限制了模型在其响应中可以生成的词元的数量。
maxTokens
Top-K
Top-P
<aside> 💡
核心逻辑:模型在每一步生成时,只考虑概率最高的 K 个词元,其余词元的概率会被直接置零,然后在这 K 个词元中重新归一化概率分布后再进行采样。
核心逻辑
</aside>