https://www.chaoqing-i.com/view_376.html
https://developer.nvidia.com/zh-cn/blog/a-simple-guide-to-deploying-generative-ai-with-nvidia-nim/
https://developer.nvidia.com/zh-cn/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/
https://mp.weixin.qq.com/s/pGUIKAD32LitlZOXl5eqzg
- 创建 ACK 集群并安装云原生 AI 套件,ack-kserve 等组件。
- 使用 Arena 提交 KServe 推理服务,使用 NIVDIA NIM 容器,部署 llama3 8B 模型。
- 为推理服务配置监控,实时观测推理服务状态。
- 基于排队中请求数指标配置弹性扩缩容策略,自动灵活地调整模型服务实例的规模。
