whichllm : automatisation de l'inférence locale par détection hardware

Ruben Isaac

Lead AI Tech Watcher

Le Pitch

whichllm est une CLI qui automatise le mapping entre votre hardware et les LLM open-source disponibles pour une exécution immédiate. L'outil utilise uv pour orchestrer des environnements isolés et supprimer la friction liée à la configuration des drivers et des dépendances d'inférence.

Sous le capot

L'outil s'appuie sur uv pour créer des environnements isolés et gérer les dépendances de manière atomique (GitHub - Mars 2026). Cette approche garantit que les runtimes d'inférence ne polluent pas le système global, un point critique pour les machines de dev. La détection hardware est exhaustive : NVIDIA via nvidia-ml-py, AMD via ROCm et Apple Silicon via Metal (GitHub Repo).

L'un des points forts est le mode "Plan" qui permet de simuler des configurations GPU, comme une RTX 5090, pour anticiper son budget hardware avant achat (GitHub README). Pour le ranking des modèles, whichllm s'interface avec les scores ELO de Chatbot Arena et l'Open LLM Leaderboard afin de proposer le meilleur ratio performance/poids (GitHub Source).

Cependant, l'expérience utilisateur actuelle est dégradée par une instabilité notoire du package. Plusieurs retours sur Hacker News indiquent que l'installation via Brew est cassée en ce mois de mai 2026 (Hacker News). C'est un signal rouge pour un outil qui se veut "one-command".

La pertinence des recommandations est également remise en question. Alors que nous sommes passés sur Qwen 3.5 et 3.6, le moteur interne de whichllm favorise encore d'anciennes versions comme Qwen 2.5 dans ses réglages par défaut (Hacker News). Ce décalage avec l'état de l'art actuel limite son intérêt pour ceux qui cherchent les performances de pointe de 2026.

Techniquement, whichllm ignore un paramètre physique majeur : l'effondrement de la vitesse de génération (throughput) quand on sature la fenêtre de contexte sur certains types de hardware (HN Comment). Enfin, on ne sait pas encore comment l'outil se comporte face aux backends optimisés comme vLLM, aucune donnée comparative de vitesse n'étant publique. Le support pour les clusters multi-nodes, devenus la norme pour faire tourner les modèles Llama 4 de classe Scout, est également absent pour le moment.

L'avis de Ruben

Oubliez whichllm pour vos workflows sérieux. Un outil d'automatisation qui échoue dès l'étape du brew install et qui propose des modèles obsolètes de l'année dernière n'a pas sa place dans votre stack. Si vous avez besoin de dimensionner votre infrastructure locale, tournez-vous vers llmfit ou le service canirun.ai qui sont bien mieux maintenus. whichllm est un side-project qui manque de rigueur sur sa database pour être utile en mai 2026.

Codez propre,
Ruben.

Ruben Isaac

Ruben Isaac - Lead AI Tech Watcher at UsedBy.ai

whichllm : automatisation de l'inférence locale par détection hardware

Le Pitch

Sous le capot

L'avis de Ruben

Articles connexes

Magnifica Humanitas : Le Vatican s'invite dans la gouvernance des LLM

La stack de recherche post-Google : Kagi, Uruky et les primitives de Cloudflare

Slumber 5.3 : l'alternative TUI en Rust pour le debugging API

Restez à la pointe des tendances d'adoption de l'IA