<aside> âś…
STATUT : OPÉRATIONNEL — Testé le 3 avril 2026.
Claude Code utilise Qwen 2.5 Coder 3B hébergé sur le VPS via LiteLLM proxy.
Vitesse : ~4.7 tok/s sur CPU | Le 7B est aussi téléchargé (pour upgrade futur avec GPU).
</aside>
source ~/claude-code-local.sh
claude
export ANTHROPIC_BASE_URL="<http://148.230.116.171:4000>"
export ANTHROPIC_API_KEY="sk-local-qwen-proxy"
claude
ANTHROPIC_BASE_URL='<http://148.230.116.171:4000>' ANTHROPIC_API_KEY='sk-local-qwen-proxy' claude
graph LR
A["Claude Code (Mac)"] -->|API Anthropic| B["LiteLLM Proxy :4000"]
B -->|Traduction format| C["Ollama :11434"]
C -->|Inférence| D["Qwen 2.5 Coder 3B"]
style A fill:#f9f,stroke:#333
style B fill:#bbf,stroke:#333
style C fill:#bfb,stroke:#333
style D fill:#ff9,stroke:#333
| Composant | Détail |
|---|---|
| Modèle | Qwen 2.5 Coder 3B (Q4_K_M, 1.9 GB) — optimisé CPU |
| Moteur | Ollama (port 11434) |
| Proxy | LiteLLM (port 4000) — traduit Anthropic API → Ollama |
| VPS IP | 148.230.116.171 |
| Services systemd | ollama.service • litellm.service (démarrage auto) |
| HumanEval score | ~68% HumanEval (meilleur compromis vitesse/qualité sur CPU sans GPU) |
| RAM utilisée | ~2.1 GB sur le VPS (10 GB RAM libre) |
# Sur le VPS :
systemctl restart litellm
systemctl restart ollama
# Vérifier :
curl <http://148.230.116.171:4000/health>