1 温度(temperature)

2 输出长度(maxTokens)

maxTokens参数限制了模型在其响应中可以生成的词元的数量。

2 抽样控制(Top-K 和 Top-P)

<aside> 💡

核心逻辑:模型在每一步生成时,只考虑概率最高的 K 个词元,其余词元的概率会被直接置零,然后在这 K 个词元中重新归一化概率分布后再进行采样。

</aside>