CDLM : Inférence de diffusion pour le code et les mathématiques

Ruben Isaac

Lead AI Tech Watcher

Le Pitch

CDLM (Consistency Diffusion Language Models) réduit la latence d'inférence par 14,5 sur les tâches de code sans perte de qualité par rapport aux modèles autorégressifs (source : Together AI Research). Cette collaboration entre Together AI, Berkeley et SNU publiée le 19 février 2026 s'attaque au goulot d'étranglement de la génération token par token. L'objectif est de transformer n'importe quel modèle de diffusion par blocs en un système de production rapide via une étape de post-training spécifique.

Sous le capot

L'innovation technique majeure réside dans l'utilisation d'un "block-wise causal student model" autorisant un KV caching exact. C'est une feature qui manquait cruellement aux modèles de diffusion textuels bidirectionnels pour être compétitifs face aux architectures Transformers classiques (source : HN). En générant des blocs entiers de tokens de manière consistante, CDLM atteint des scores de 14,5x sur MBPP-Instruct et 11,2x sur GSM8K-CoT.

Le coût d'entrée reste cependant le point noir du dossier. La phase de collecte des trajectoires du modèle "teacher" pour la distillation exige un budget compute que peu de startups peuvent s'offrir aujourd'hui (source : HN Technical Analysis). On ne parle pas d'un simple fine-tuning, mais d'une procédure lourde pour aligner le modèle "student" sur les sorties du modèle "teacher".

L'écosystème logiciel est également à la traîne en ce début d'année 2026. Contrairement aux modèles autorégressifs, CDLM ne dispose pas encore de runtimes optimisés comme vLLM ou TensorRT-LLM (source : Medium/Nuung). L'absence d'équivalents GGUF empêche pour l'instant toute exécution sérieuse sur hardware grand public, limitant l'outil aux clusters de recherche.

On note enfin une dégradation des performances sur les prompts courts et le "commonsense" par rapport aux tâches de raisonnement long (source : OpenReview). L'info est également manquante concernant la stabilité des sorties sur des fenêtres de contexte dépassant les 128k tokens. Together AI n'a fourni aucune timeline pour l'intégration de cette technologie dans ses API de production habituelles.

L'avis de Ruben

CDLM est une prouesse de laboratoire, pas un outil prêt pour vos pipelines CI/CD. Si votre infra brûle des millions en inférence pour du code, le gain potentiel de latence est trop gros pour être ignoré, mais le manque de tooling de déploiement rend l'intégration actuelle suicidaire. On est en 2026 et on attend toujours que la diffusion textuelle sorte des serveurs de Together AI pour arriver sur nos machines. Continuez d'utiliser Claude 4 Sonnet en prod et gardez CDLM pour vos expérimentations de R&D le week-end.

Codez propre,
Ruben.

Ruben Isaac

Ruben Isaac - Lead AI Tech Watcher at UsedBy.ai

CDLM : Inférence de diffusion pour le code et les mathématiques

Le Pitch

Sous le capot

L'avis de Ruben

Articles connexes

Magnifica Humanitas : Le Vatican s'invite dans la gouvernance des LLM

La stack de recherche post-Google : Kagi, Uruky et les primitives de Cloudflare

Slumber 5.3 : l'alternative TUI en Rust pour le debugging API

Restez à la pointe des tendances d'adoption de l'IA