1 温度(temperature)

较低值（0.0-0.3）：反应更明确、更严谨。
中等值（0.4-0.7）：兼具确定性和创造性。
数值越高（0.8-1.0）：更有创造性

2 输出长度（maxTokens）

该maxTokens参数限制了模型在其响应中可以生成的词元的数量。

2 抽样控制（Top-K 和 Top-P）

Top-K：将词元选择限制在最有可能出现的 K 个下一个词元。较高的值（例如 40-50）会引入更多多样性。
Top-P（核心采样）：动态地从累积概率超过 P 的最小标记集合中进行选择。0.8-0.95 等值很常见。

<aside> 💡

核心逻辑：模型在每一步生成时，只考虑概率最高的 K 个词元，其余词元的概率会被直接置零，然后在这 K 个词元中重新归一化概率分布后再进行采样。

</aside>