通过强化推理探索语言模型的工具使用能力

1. 前置知识

1.1 Tool Calling

大语言模型知识被冻结在训练数据中。

Tool Calling是让大模型(LLM)能够识别何时如何调用外部工具或函数以完成特定任务的能力。这种能力使模型可以超越静态知识库的限制,与外部世界交互,并实现更复杂的功能。

授权 LLM 使用外部工具 (API),将其转变为解决实际问题的“智能代理 (Agent)”。

1.2 任务数据分类

标准数据集

标准数据集(The Normal Data)由固定的问答对组成,其中每个问题都对应一个正确的函数调用。该数据集分为以下类别:单轮对话、多轮对话、相似API调用、偏好选择和原子操作。