试用地址:https://huggingface.co/spaces/Qwen/Qwen2.5

技术报告:https://arxiv.org/abs/2412.15115

长文本extent

将长文本的pre-train被分成两个阶段:

在Qwen2.5-Turbo上,实现了渐进式的extent策略,content length增长分成四个阶段:32,768(32K) → 65,536(64K) → 131,072(128K)→ 262,144(256K)。最后RoPE的基础频率增加到了10,000,000(10M)。

在每个阶段,通过精心调配训练数据,保证数据集中有40%的数据达到当前context的最大长度,60%为短一点的文本。根据报告的描述,这样渐进式的方法可以在正常context length同时保证模型在处理不同长度文本的性能。

选择extent的方法,一方面的考量是算力 长上下文的技术挑战——算力

需要提一下,Qwen2.5-Turbo和其他模型不同,它并没有开源模型参数,而只有API,包括HuggingFace的playground:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo

位置编码

长文本推理

为增强模型在长文本下的推理性能,应用了两个关键词策略

通过上面两个技术的应用,模型上下文长度增长四倍达到了1M(100w),而其他通过extent训练得到上下文长度为32K的模型,也翻四倍,增长到了128K。