Only IRL do you see how your model actually works.
只有在真实环境中,你才能真正看到你的模型是如何运行的。
- 早部署,常部署
- 先保持简单,再加复杂。
- 构建原型(prototype)
- 分离 模型 与 UI
- 学习 scale 的技巧
- 当你”真的”需要 go fast 时,考虑将你的模型移动到边缘。
Step 1: 构建一个你和你的朋友能够交互的原型
Prototype deployment: bes practices
- 先有一个基础的UI
- 要便于其他用户去尝试和给予反馈
- Gradio & Streamlit are you friend have.
- 给你的后端一个web URL
- 便于分享
- Streamlit 和 huggingface 的云端版本在此处很有用。
- Dont stress too much.
这个过程中,哪里会出现失败?
模型成为瓶颈。

Model-in-service
- 优点:可复用已有的infra
- 缺点:
- Web server 可能是另一种语言编写的。
- 模型可能比服务器代码更频繁地改动。
- 大模型将会吞掉web server的资源。
- 服务器硬件可能不会为你的模型做优化(e.g. no GPUs)
- 模型 & 服务器可能扩展方式不同
Step2: 分离你的模型和 UI