阿里云百炼平台

Untitled

百炼则提供了内置数据集，例如

用户若要使用百炼平台进行复杂专属模型训练，具体可分为微调训练、持续预训练和强化学习三个阶段

SFT(Supervised Fine-Tuning，监督微调)

Continual Training(CT)持续预训练阶段

RM(Reward Model，奖励模型)+RLHF(Reinforcement Learning from Human Feedback，基于人类反馈的强化学习)强化学习阶段

SFT+LoRA(Low-Rank Adaptation，低秩自适应)等微调技术进行模型定制

阿里云将通过从底层算力（IaaS）到AI平台（PaaS）再到模型服务（MaaS

第一阶段，增量预训练(PT，Continue PreTraining)，在海量文档数据进行大模型的二次预训练，以注入电力领域专业知识。

第二阶段，有监督微调(SFT，Supervised Fine-tuning)，构造指令微调数据集，在预训练模型基础上做指令精调，以对齐指令意图。

第三阶段，RM(Reward Model)奖励模型建模，构造人类偏好排序数据集，训练奖励模型，用来对齐人类偏好。

第四阶段，基于人类反馈的强化学习(RLHF)，用奖励模型来训练SFT模型，生成模型使用奖励或惩罚来更新其策略，以便生成更高质量、更符合人类偏好的文本。

开发者可在5分钟内开发一款大模型应用，几小时即可“炼”出一个企业专属模型，帮助企业和开发者把更多精力专注于应用创新。

Untitled