Transcripción local con Qwen 3.5 y WhisperKit: Análisis de Ghost Pepper

Diego Navarro

Early Adopter Tech Analyst

El Pitch

Ghost Pepper es una utilidad de hold-to-talk para macOS que procesa voz a texto íntegramente de forma local. Su valor en este 2026 reside en integrar modelos Qwen 3.5 para limpiar muletillas y errores sintácticos sin que un solo byte salga de tu máquina (GitHub). Es una alternativa open source pensada para quienes priorizan la privacidad sobre la latencia inmediata.

Bajo el capó

El motor de transcripción se apoya en WhisperKit, mientras que el post-procesamiento inteligente utiliza modelos Qwen 3.5 en variantes de 0.8B a 4B (GitHub Documentation). Al ser software bajo licencia MIT, el código permite verificar que nada se escribe en el disco duro; incluso los logs de depuración residen exclusivamente en la memoria RAM (Developer Security Policy).

El sistema requiere macOS 14.0 y hardware Apple Silicon como mínimo. La descarga inicial de modelos ronda los 3GB, lo cual puede penalizar el rendimiento en modelos MacBook Air M1 o M2 con poca memoria unificada (HN Comment). Mi MacBook Air ya está pidiendo auxilio solo de pensar en cargar esos 3GB mientras compilo un contenedor.

La latencia es el principal compromiso técnico, con una espera de entre 1 y 7 segundos debido a la fase de limpieza del LLM local (Dossier UsedBy). Además, la aplicación exige permisos de accesibilidad de amplio espectro para simular pulsaciones de teclas y realizar el auto-pegado del texto procesado (GitHub Permissions doc).

Aún no sabemos cuál es el impacto real en la degradación de la batería durante sesiones de dictado prolongadas (Dossier UsedBy). Tampoco existen datos concluyentes sobre la calidad del modelo Qwen 3.5 en la fase de limpieza para idiomas distintos al inglés, donde parece estar optimizado actualmente (Dossier UsedBy).

La opinión de Diego

Ghost Pepper es una herramienta para paranoicos de la seguridad que no quieren regalar sus datos de voz a OpenAI o Google. Si trabajas con información sensible o bajo normativas estrictas de protección de datos, es una opción robusta porque el código es auditable. Para el resto de los mortales, el mercado está saturado de wrappers locales similares y la latencia de hasta 7 segundos lo hace poco práctico para el flujo de trabajo diario de un desarrollador. Pasa de largo a menos que tu contrato incluya una cláusula de confidencialidad extrema.

Código limpio siempre,
Diego.

Diego Navarro

Diego Navarro - Early Adopter Tech Analyst at UsedBy.ai

Transcripción local con Qwen 3.5 y WhisperKit: Análisis de Ghost Pepper

El Pitch

Bajo el capó

La opinión de Diego

Artículos relacionados

Audiomass: Edición de audio multitrack en 100KB de vanilla JS

Protocolo Ético Magnifica Humanitas: La Interpretabilidad Mecanicista como Imperativo Moral

El estado de la búsqueda web en 2026: Kagi, Uruky y el modelo de suscripción

Mantente al día con las tendencias de adopción de IA