Retour au blog

Unsloth Studio en live HF — entraîner et faire tourner des LLM en local, sans cloud

Notes sur la session Hugging Face avec Daniel Hanchen (UnslothAI) : Studio, quants dynamiques, benchmarks et fine-tuning low-VRAM sur Mac/Windows/Linux.

6 min de lecture
  • Unsloth
  • Hugging Face
  • Fine-tuning
  • GGUF
  • Local LLM

J’ai suivi la session live Hugging Face avec Daniel Hanchen (UnslothAI) autour d’Unsloth Studio. Le pitch est simple : une interface web open-source pour entraîner, exécuter et exporter des modèles open (Gemma, Qwen, DeepSeek, etc.) entièrement en local — Mac, Windows ou Linux — sans passer par un cloud GPU à la minute.

Capture de la démo Unsloth Studio pendant le live Hugging Face avec Daniel Hanchen
Unsloth Studio — démo live Hugging Face (Daniel Hanchen, UnslothAI).

Pourquoi ça m’intéresse

Mon stack tourne déjà autour du local et du self-hosted : Qwen en vLLM sur AWS pour l’agent lourd, Ollama pour le léger, GGUF partout où je peux. Ce qui manquait souvent, c’est la couche « atelier » : préparer un dataset, lancer un fine-tune, comparer des quants, exporter vers Ollama ou llama.cpp — sans enchaîner cinq outils et dix fichiers YAML. Studio vise exactement ce workflow unifié, dans le navigateur, sur la machine.

Ce qu’est Unsloth Studio

Unsloth Studio (beta) est l’UI web du projet Unsloth : no-code pour l’essentiel, mais branchée sur les kernels Unsloth qui promettent ~2× plus vite et ~70 % de VRAM en moins sur le fine-tuning, avec des benchmarks officiels (dont vérification Hugging Face) qui montrent des gains réels en vitesse et mémoire par rapport au stack Hugging Face + PEFT classique.

  • Chat et inférence locale : GGUF et safetensors, llama.cpp + Hugging Face, multi-GPU et offload automatique.
  • Fine-tuning : 500+ modèles texte, vision, audio/TTS, embeddings — LoRA, FP8, full fine-tune selon le cas.
  • Data Recipes : PDF, CSV, DOCX, JSON → datasets synthétiques sans tout coder à la main.
  • Export : safetensors 16-bit, GGUF (2-bit et au-delà) pour Ollama, LM Studio, vLLM, etc.
  • Comparaison côte à côte de modèles / quants dans la même UI.

Quants dynamiques et benchmarks

Une partie centrale du live : la quantification dynamique — pas seulement du 4-bit « par défaut », mais des quants agressifs (2-bit, GGUF) avec des courbes de qualité / vitesse / VRAM présentées sur des benchmarks officiels. L’idée n’est pas « compresse à tout prix », mais choisir le bon compromis pour ton hardware : un 27B qui ne tient pas en FP16 peut devenir utilisable en inférence locale ou en fine-tune LoRA sur une seule carte consommateur.

Daniel insiste sur la reproductibilité : les chiffres ne viennent pas d’un tweet, ils sont documentés et comparés au baseline HF. Pour quelqu’un qui hésite entre AWQ, GPTQ, GGUF Q4_K_M ou plus bas, la démo de comparaison dans Studio évite des heures de tests manuels.

Démo live : chargement, inférence, fine-tuning

La session enchaîne des exemples concrets : recherche et téléchargement d’un modèle, lancement du chat avec réglages d’inférence auto (température, top-p, templates), exécution de code en sandbox (Bash + Python) et tool calling « self-healing ». On voit aussi le parcours training — upload de docs, graphe de Data Recipe, lancement d’un fine-tune optimisé VRAM — puis export GGUF pour repartir en offline pur.

# Lancer Studio en local (doc officielle)
unsloth studio -p 8888
# → http://127.0.0.1:8888

Plateformes

  • NVIDIA (RTX 30/40/50, Blackwell…) : training + inférence GPU.
  • macOS : training, MLX et inférence GGUF — aligné avec ma config laptop.
  • CPU seul : chat + Data Recipes ; le training lourd reste côté GPU NVIDIA pour l’instant.
  • AMD : chat OK ; training Studio annoncé prochainement (Unsloth Core déjà utilisable).

Discussion avec l’hôte HF

La fin du live repasse en visio avec l’hôte Hugging Face : partenariat HF × NVIDIA, feuille de route multi-GPU et MLX sur Apple Silicon, et surtout la philosophie produit — rendre l’open-source AI aussi simple qu’une app SaaS, mais sans envoyer tes poids et tes données ailleurs. C’est le même fil que mes articles sur Qwen self-hosted : contrôle, coût maîtrisé, offline quand tu en as besoin.

Bilan

Unsloth Studio ne remplace pas Cursor ni mon endpoint vLLM pour l’agent quotidien. En revanche, pour tout ce qui est « je veux adapter un Qwen/Gemma à mon cas, le quantifier proprement et le servir en local », c’est aujourd’hui l’une des interfaces les plus complètes — surtout si tu veux éviter le cloud training à la carte. Je garde la vidéo sous la main comme référence ; la doc et le repo Unsloth pour l’installation.

  • Doc Studio : unsloth.ai/docs/new/studio
  • Repo : github.com/unslothai/unsloth
  • Annonce HF : post Daniel Hanchen sur le Hub