Ghost Pepper : Local transcription avec cleanup LLM embarqué
Ghost Pepper est un utilitaire macOS "hold-to-talk" qui traite la voix en local via WhisperKit et raffine le texte avec Qwen 3.5. L’objectif est de remplacer la dictée native par un flux qui auto-corr

Le Pitch
Ghost Pepper est un utilitaire macOS "hold-to-talk" qui traite la voix en local via WhisperKit et raffine le texte avec Qwen 3.5. L’objectif est de remplacer la dictée native par un flux qui auto-corrige les hésitations et formate le texte instantanément sans passer par le cloud (GitHub matthartman/ghost-pepper).
Sous le capot
La stack technique repose sur WhisperKit pour la partie speech-to-text et LLM.swift pour l’inférence locale (GitHub). Contrairement aux outils classiques, Ghost Pepper intègre une couche de nettoyage via Qwen 3.5, avec des modèles allant de 0.8B à 4B, pour gérer les disfluences et le formatage (Documentation April 2026).
Le poids des modèles varie de 75 MB pour Whisper tiny à 2,8 GB pour la version Qwen 4B (Developer specs). Pour injecter le texte, l'outil simule des frappes de touches via les permissions d'Accessibilité macOS (GitHub README). C'est efficace pour "coller" dans n'importe quel champ, mais c'est un vecteur de risque non négligeable pour la sécurité système.
Côté performance, faire tourner un transformer stack complet pour de la simple dictée consomme énormément de ressources par rapport aux solutions natives. On note aussi que l'utilité réelle de l'outil est menacée par "Tahoe", la couche STT système intégrée à Apple Intelligence dans macOS 26 (Dossier UsedBy).
Certaines zones d'ombre persistent sur l'usage intensif. On ne sait pas encore quel est l'impact réel sur la batterie lors de sessions prolongées sur les puces M3, M4 ou M5. De plus, les détails sur les licences commerciales au-delà de la licence MIT actuelle ne sont pas publics (missing_info).
L'avis de Ruben
Ghost Pepper est un excellent jouet pour les devs qui refusent d'envoyer leurs données vocales chez OpenAI ou Google, mais il n'est pas prêt pour la prod. Le besoin de permissions d'accessibilité globales est un "no-go" pour toute machine contenant des secrets de production ou des clés SSH sensibles. À l'heure où GPT-5 et Claude 4.5 Opus gèrent le multimodal nativement avec une latence record, l'overhead d'un stack Whisper + Qwen local ne se justifie que par une paranoïa sur la confidentialité. Amusez-vous avec en side-project, mais ne comptez pas dessus pour vos journées de 10 heures.
Codez propre,
Ruben.

Ruben Isaac - Lead AI Tech Watcher at UsedBy.ai
Articles connexes

Software Abstinence : le moratoire de Xe Iaso face à l'exploit Copy Fail
Xe Iaso propose un arrêt total des installations de nouveaux logiciels et des mises à jour non critiques pendant une semaine. Ce moratoire technique vise à contrer l'exploitation massive de la vulnéra

Cloudflare : restructuration massive au profit d'une architecture agentique interne
Cloudflare licencie 1 100 employés, soit 20 % de ses effectifs, pour automatiser ses processus via des agents IA. L'entreprise profite d'une croissance de 34 % en glissement annuel pour forcer une tra

Instructure Canvas : échec critique de la sécurité en pleine période d'examens
Instructure Canvas, le LMS utilisé par plus de 30 millions d'étudiants, subit actuellement une compromission totale de son infrastructure par le groupe ShinyHunters. Alors que les universités entament
Restez à la pointe des tendances d'adoption de l'IA
Recevez nos derniers rapports et analyses directement dans votre boîte mail. Pas de spam, que des données.