🔧 Claude Code → Qwen 2.5 Coder 3B (via VPS)

<aside> âś…

STATUT : OPÉRATIONNEL — Testé le 3 avril 2026.

Claude Code utilise Qwen 2.5 Coder 3B hébergé sur le VPS via LiteLLM proxy.

Vitesse : ~4.7 tok/s sur CPU | Le 7B est aussi téléchargé (pour upgrade futur avec GPU).

</aside>


đź“‹ Comment utiliser

Option 1 — Script rapide (recommandé)

source ~/claude-code-local.sh
claude

Option 2 — Variables d'environnement manuelles

export ANTHROPIC_BASE_URL="<http://148.230.116.171:4000>"
export ANTHROPIC_API_KEY="sk-local-qwen-proxy"
claude

Option 3 — One-liner

ANTHROPIC_BASE_URL='<http://148.230.116.171:4000>' ANTHROPIC_API_KEY='sk-local-qwen-proxy' claude

🏗️ Architecture

graph LR
    A["Claude Code (Mac)"] -->|API Anthropic| B["LiteLLM Proxy :4000"]
    B -->|Traduction format| C["Ollama :11434"]
    C -->|Inférence| D["Qwen 2.5 Coder 3B"]
    style A fill:#f9f,stroke:#333
    style B fill:#bbf,stroke:#333
    style C fill:#bfb,stroke:#333
    style D fill:#ff9,stroke:#333

⚙️ Détails techniques

Composant Détail
Modèle Qwen 2.5 Coder 3B (Q4_K_M, 1.9 GB) — optimisé CPU
Moteur Ollama (port 11434)
Proxy LiteLLM (port 4000) — traduit Anthropic API → Ollama
VPS IP 148.230.116.171
Services systemd ollama.service • litellm.service (démarrage auto)
HumanEval score ~68% HumanEval (meilleur compromis vitesse/qualité sur CPU sans GPU)
RAM utilisée ~2.1 GB sur le VPS (10 GB RAM libre)

🔧 Dépannage

Le proxy ne répond pas

# Sur le VPS :
systemctl restart litellm
systemctl restart ollama
# Vérifier :
curl <http://148.230.116.171:4000/health>