CDLM : Inférence de diffusion pour le code et les mathématiques
CDLM (Consistency Diffusion Language Models) réduit la latence d'inférence par 14,5 sur les tâches de code sans perte de qualité par rapport aux modèles autorégressifs (source : Together AI Research).

Le Pitch
CDLM (Consistency Diffusion Language Models) réduit la latence d'inférence par 14,5 sur les tâches de code sans perte de qualité par rapport aux modèles autorégressifs (source : Together AI Research). Cette collaboration entre Together AI, Berkeley et SNU publiée le 19 février 2026 s'attaque au goulot d'étranglement de la génération token par token. L'objectif est de transformer n'importe quel modèle de diffusion par blocs en un système de production rapide via une étape de post-training spécifique.
Sous le capot
L'innovation technique majeure réside dans l'utilisation d'un "block-wise causal student model" autorisant un KV caching exact. C'est une feature qui manquait cruellement aux modèles de diffusion textuels bidirectionnels pour être compétitifs face aux architectures Transformers classiques (source : HN). En générant des blocs entiers de tokens de manière consistante, CDLM atteint des scores de 14,5x sur MBPP-Instruct et 11,2x sur GSM8K-CoT.
Le coût d'entrée reste cependant le point noir du dossier. La phase de collecte des trajectoires du modèle "teacher" pour la distillation exige un budget compute que peu de startups peuvent s'offrir aujourd'hui (source : HN Technical Analysis). On ne parle pas d'un simple fine-tuning, mais d'une procédure lourde pour aligner le modèle "student" sur les sorties du modèle "teacher".
L'écosystème logiciel est également à la traîne en ce début d'année 2026. Contrairement aux modèles autorégressifs, CDLM ne dispose pas encore de runtimes optimisés comme vLLM ou TensorRT-LLM (source : Medium/Nuung). L'absence d'équivalents GGUF empêche pour l'instant toute exécution sérieuse sur hardware grand public, limitant l'outil aux clusters de recherche.
On note enfin une dégradation des performances sur les prompts courts et le "commonsense" par rapport aux tâches de raisonnement long (source : OpenReview). L'info est également manquante concernant la stabilité des sorties sur des fenêtres de contexte dépassant les 128k tokens. Together AI n'a fourni aucune timeline pour l'intégration de cette technologie dans ses API de production habituelles.
L'avis de Ruben
CDLM est une prouesse de laboratoire, pas un outil prêt pour vos pipelines CI/CD. Si votre infra brûle des millions en inférence pour du code, le gain potentiel de latence est trop gros pour être ignoré, mais le manque de tooling de déploiement rend l'intégration actuelle suicidaire. On est en 2026 et on attend toujours que la diffusion textuelle sorte des serveurs de Together AI pour arriver sur nos machines. Continuez d'utiliser Claude 4 Sonnet en prod et gardez CDLM pour vos expérimentations de R&D le week-end.
Codez propre,
Ruben.

Ruben Isaac - Lead AI Tech Watcher at UsedBy.ai
Articles connexes

Software Abstinence : le moratoire de Xe Iaso face à l'exploit Copy Fail
Xe Iaso propose un arrêt total des installations de nouveaux logiciels et des mises à jour non critiques pendant une semaine. Ce moratoire technique vise à contrer l'exploitation massive de la vulnéra

Cloudflare : restructuration massive au profit d'une architecture agentique interne
Cloudflare licencie 1 100 employés, soit 20 % de ses effectifs, pour automatiser ses processus via des agents IA. L'entreprise profite d'une croissance de 34 % en glissement annuel pour forcer une tra

Instructure Canvas : échec critique de la sécurité en pleine période d'examens
Instructure Canvas, le LMS utilisé par plus de 30 millions d'étudiants, subit actuellement une compromission totale de son infrastructure par le groupe ShinyHunters. Alors que les universités entament
Restez à la pointe des tendances d'adoption de l'IA
Recevez nos derniers rapports et analyses directement dans votre boîte mail. Pas de spam, que des données.