SGLang CVE-2026-5760 CVSS 9.8 : RCE via fichiers GGUF malveillants - les pipelines LLM open source sous attaque mai 2026 | d-open.org

Le 20 avril 2026, la communaute securite a rendu publique CVE-2026-5760, une vulnerabilite d execution de code a distance (RCE) notee CVSS 9.8 sur 10.0 dans SGLang, l un des frameworks open source les plus utilises pour le serving de grands modeles de langage (LLM). La faille a ete rapportee par des chercheurs en securite via The Hacker News et Vulert, et affecte directement tout deploiement SGLang qui charge des modeles au format GGUF depuis des sources non auditees comme Hugging Face Hub.

Cette vulnerabilite est un cas d ecole de ce qui arrive quand les pipelines ML ne recoivent pas la meme rigueur securite que les applications web classiques. Le probleme fondamental est trivial a comprendre pour tout developpeur web : un rendu de template Jinja2 sans sandbox. Mais dans le contexte des infrastructures LLM, ou la culture securite est encore immature, cette faille a expose des centaines de serveurs de production a une prise de controle totale a distance.

Cause racine : un jinja2.Environment() sans sandbox dans le serving LLM

La cause fondamentale de CVE-2026-5760 est une erreur classique de securite web transplantee dans le contexte ML : l utilisation de jinja2.Environment() au lieu de jinja2.sandbox.ImmutableSandboxedEnvironment() pour rendre des templates provenant de donnees non fiables. Dans le code de SGLang, le fichier entrypoints/openai/serving_rerank.py charge le champ tokenizer.chat_template depuis le fichier GGUF du modele et le rend directement via un jinja2.Environment() non restreint.

Cette negligence ouvre la porte a une attaque de type Server-Side Template Injection (SSTI). L attaquant construit un fichier GGUF dont le champ tokenizer.chat_template contient un payload Jinja2 malveillant qui remonte la chaine de resolution des classes Python depuis l objet string de base jusqu a os.popen() ou subprocess.Popen(). Le payload classique exploite {{ ''.__class__.__mro__[1].__subclasses__() }} pour enumerer les sous-classes disponibles et trouver celle qui permet l execution de commandes systeme.

💡 Notre avis d expert

Le SSTI Jinja2 est un top-10 des vulnerabilites web depuis 2018. Que ce pattern se retrouve dans un framework ML majeur en 2026 revele un probleme culturel profond : les equipes ML ne font pas de revue de securite systematique sur le code d inference. Le jour ou vous chargez un modele depuis Hugging Face, vous executez du code fourni par un inconnu. C est l equivalent d un npm install sans audit, mais avec les privileges root du serveur GPU.

Vecteur d attaque : le endpoint /v1/rerank et le trigger Qwen3

L exploitation pratique de CVE-2026-5760 cible specifiquement le endpoint /v1/rerank de l API OpenAI-compatible de SGLang. Ce endpoint est utilise pour le reranking de documents dans les architectures RAG (Retrieval-Augmented Generation), une architecture extremement repandue en production LLM. La specificite de l attaque est qu elle exploite la phrase trigger du reranker Qwen3 pour forcer SGLang a emprunter le code path vulnerable dans serving_rerank.py.

Le scenario d attaque concret est le suivant : l attaquant publie un modele GGUF sur un hub public (Hugging Face, ModelScope, ou meme un repo GitHub). Le fichier GGUF contient un champ tokenizer.chat_template avec un template Jinja2 apparemment normal mais qui inclut un payload SSTI cache dans un bloc conditionnel. Quand un developpeur telecharge ce modele et le charge dans SGLang pour du reranking, le payload est execute par le serveur sans aucune verification. Le score CVSS 9.8 reflète la combinaison : pas d authentification requise, execution a distance, impact total sur la confidentialite, l integrite et la disponibilite.

💡 Notre avis d expert

Le vrai danger n est pas la complexite technique du payload SSTI, c est la facilite du vecteur d entree. Un fichier GGUF sur Hugging Face ressemble a n importe quel modele ML. Les developpeurs qui deployent des pipelines RAG telechargent regulierement des modeles depuis ces hubs sans meme penser qu un fichier de poids neuronaux puisse contenir du code executable. C est exactement la meme erreur de confiance implicite qu on voyait avec les packages npm il y a 5 ans.

Impact sur les developpeurs open source : la confiance implicite dans les modeles ML est terminee

CVE-2026-5760 marque un tournant pour la securite des pipelines LLM open source. Jusqu a cette vulnerabilite, la majorite des developpeurs traitaient les fichiers de modeles (GGUF, SafeTensors, ONNX) comme des donnees passives : des poids neuronaux a charger en memoire sans risque d execution de code. Cette assumption etait deja fragile avec les fichiers pickle (deserialization attack), mais GGUF etait cense etre le format safe par design remplacant pickle. CVE-2026-5760 demontre que meme un format structurellement safe peut devenir un vecteur d attaque si le code de serving n est pas securise.

Pour les developpeurs francais qui deployent des pipelines LLM en production (startups IA, ESN, equipes data science en entreprise), l impact operationnel est triple. Premierement, tout modele GGUF charge depuis un hub public doit etre audite avant deploiement : le champ tokenizer.chat_template doit etre inspecte manuellement ou via un script automatise qui detecte les patterns SSTI. Deuxiemement, la mise a jour de SGLang est urgente pour tout serveur de production exposant le endpoint /v1/rerank. Troisiemement, cette vulnerabilite doit declencher un audit transversal de tous les usages de Jinja2 dans les pipelines ML, y compris dans les frameworks concurrents comme vLLM, TGI et Triton.

Pour un contexte plus large sur les vulnerabilites recentes impactant les frameworks ML open source, voir notre analyse de la CVE-2026-5752 Cohere Terrarium sandbox escape du 22 avril 2026, une autre RCE critique dans l ecosysteme LLM.

💡 Notre avis d expert

Nous voyons CVE-2026-5760 comme le "Log4Shell des pipelines LLM". Pas par la surface d impact (Log4j etait partout), mais par ce qu elle revele : une industrie entiere qui deploie du code d inference en production sans la meme rigueur de securite qu un simple backend Express.js. Le format GGUF a ete concu pour etre safe, et il l est structurellement. Mais la securite d un pipeline ne depend pas que du format des donnees : elle depend de comment le code de serving traite ces donnees. Un chat_template est du code, pas de la donnee.

Anatomie du payload SSTI : de la template Jinja2 a l execution de commandes

Pour comprendre pourquoi CVE-2026-5760 est si dangereuse, examinons la mecanique du payload SSTI Jinja2. Dans un environnement Jinja2 non sandboxe, chaque objet Python accessible dans le contexte du template permet de remonter l arbre d heritage des classes via les attributs __class__, __mro__ (Method Resolution Order) et __subclasses__(). Une fois la classe object atteinte, l attaquant enumere toutes les sous-classes chargees en memoire pour trouver celles qui offrent des primitives d execution comme subprocess.Popen ou os._wrap_close.

Le payload type insere dans le champ tokenizer.chat_template du GGUF suit ce schema : une partie visible qui ressemble a un template de chat normal (pour eviter les inspections superficielles), et une partie cachee dans un bloc conditionnel Jinja2 {% if true %}...{% endif %} qui contient la chaine d exploitation. En environnement non sandboxe, cette chaine est evaluee et execute du code arbitraire avec les privileges du processus SGLang, generalement root sur les serveurs GPU de production.

La difference critique entre jinja2.Environment() et ImmutableSandboxedEnvironment() est que le sandbox bloque l acces aux attributs dunder (__class__, __mro__, etc.) et interdit l appel de methodes dangereuses. C est une ligne de code a changer pour passer de "serveur compromis" a "serveur protege".

Remediation immediate : 5 actions avant la fin de semaine

Si vous operez un deploiement SGLang en production ou en staging, voici les 5 actions a executer immediatement, classees par priorite :

Action 1 : Identifier tous les deploiements SGLang. Cartographiez chaque instance SGLang dans votre infrastructure (production, staging, dev, notebooks Jupyter partages). Verifiez si le endpoint /v1/rerank est actif et expose. Commande : curl -s http://localhost:30000/v1/models | jq . pour lister les modeles charges.

Action 2 : Desactiver le endpoint /v1/rerank si non utilise. Si votre pipeline n utilise pas le reranking, desactivez le endpoint via la configuration SGLang ou ajoutez un middleware reverse-proxy (nginx, Caddy, Traefik) qui retourne un 404 pour /v1/rerank.

Action 3 : Patcher le code de rendu Jinja2. Si vous utilisez activement le reranking, appliquez le patch manuellement en remplacant toutes les instances de jinja2.Environment() par jinja2.sandbox.ImmutableSandboxedEnvironment() dans le fichier serving_rerank.py. Pour un guide detaille etape par etape, consultez notre how-to configurer un sandbox Jinja2 securise pour vos pipelines LLM en 7 etapes.

Action 4 : Auditer les fichiers GGUF charges. Inspectez le champ tokenizer.chat_template de chaque fichier GGUF utilise en production. Un script Python de 15 lignes avec la librairie gguf suffit pour extraire et afficher ce champ. Recherchez les patterns suspects : __class__, __mro__, __subclasses__, popen, subprocess.

Action 5 : Mettre a jour SGLang vers la version patchee. Surveillez les releases SGLang sur GitHub sgl-project/sglang pour le patch officiel. En attendant, les actions 2 et 3 couvrent le risque immediat.

Audit securite pipeline LLM : vos modeles GGUF sont-ils compromis ?

d-open.org execute un audit securite complet de votre infrastructure LLM : inventaire des modeles charges, audit des fichiers GGUF et SafeTensors, verification du sandboxing Jinja2, hardening des endpoints de serving, mise en place de CI/CD de validation des modeles. Forfait 3 a 7 KEUR pour startups et PME tech.

Demander un audit pipeline LLM

La lecon de fond : les pipelines ML meritent la meme securite que les applications web

CVE-2026-5760 n est pas un incident isole. Elle s inscrit dans une tendance de fond que nous documentons sur d-open.org depuis le debut de 2026 : les infrastructures ML open source sont devenues des cibles de premier choix pour les attaquants. La raison est simple : ces systemes ont ete concus pour la performance et la facilite d usage, pas pour la securite. Les frameworks de serving LLM comme SGLang, vLLM, et TGI ont ete ecrits par des chercheurs ML brillants qui n ont pas l experience des patterns de securite web que chaque developpeur backend connait depuis 10 ans.

Le parallele avec l ecosysteme Node.js de 2016-2018 est frappant. A l epoque, les developpeurs JavaScript deployaient des applications Express.js en production sans penser aux injections de template (EJS, Pug), aux deserialization attacks, ou au supply chain. Il a fallu une serie de CVE critiques et la creation de npm audit pour que la culture securite se diffuse. Nous en sommes au meme stade pour les pipelines ML. Les outils de scan securite pour les modeles ML (ModelScan de Protect AI, par exemple) existent mais sont encore peu adoptes. Pour un guide complet sur la securisation des agents autonomes dans le meme esprit, voir notre article sur la standardisation MCP par la Linux Foundation.

Pour les equipes de developpement open source, la discipline 2026 pour les pipelines LLM est desormais claire : (1) Sandboxer tout rendu de template provenant de donnees non fiables. (2) Auditer les fichiers de modeles avant chargement avec un outil comme ModelScan. (3) Isoler les serveurs d inference dans des containers avec privileges minimaux (pas de root). (4) Monitorer les CVE des frameworks ML avec la meme rigueur que les CVE des frameworks web. La securite des pipelines LLM n est plus optionnelle — c est une condition de survie operationnelle.

💡 Notre avis d expert

Si vous ne retenez qu une chose de cet article : un fichier GGUF n est pas qu un fichier de poids. C est un conteneur de configuration qui inclut du code executable (templates Jinja2, scripts de tokenization). Traitez-le avec la meme prudence qu un package npm ou une image Docker : auditez avant de deployer, sandboxez l execution, et ne faites jamais confiance a la source sans verification. La prochaine CVE 9.8 dans l ecosysteme LLM ne sera pas la derniere.

L infrastructure LLM open source est le nouveau perimetre d attaque en 2026. SGLang CVE-2026-5760 n est que le symptome d un probleme systemique : les pipelines ML deployees en production sans revue de securite. Chaque jinja2.Environment() non sandboxe est une bombe a retardement. — Henrik Andersen, Ingenieur securite et architecte MLOps open source

Audit securite 30 minutes gratuit : votre pipeline LLM est-elle vulnerable ?

Notre equipe evalue la securite de votre infrastructure LLM en 30 minutes : sandboxing Jinja2, audit des modeles charges, configuration des endpoints, privileges des containers, monitoring CVE. Recommandation ecrite sous 48 heures.

Reserver l audit gratuit

FAQ : SGLang CVE-2026-5760 RCE GGUF malveillant

Qu est-ce que CVE-2026-5760 et pourquoi est-elle critique ?▼

CVE-2026-5760 est une vulnerabilite d execution de code a distance (RCE) affectant SGLang, un framework open source de serving LLM. Notee CVSS 9.8 sur 10.0, elle permet a un attaquant d executer du code arbitraire sur le serveur en fournissant un fichier GGUF malveillant dont le champ tokenizer.chat_template contient un payload Jinja2 SSTI. La faille est dans le endpoint /v1/rerank qui utilise jinja2.Environment() au lieu de ImmutableSandboxedEnvironment pour le rendu des templates.

Comment un fichier GGUF peut-il contenir du code malveillant ?▼

Le format GGUF stocke des metadonnees structurees incluant la configuration du tokenizer. Le champ tokenizer.chat_template est un template Jinja2 qui definit le formatage des conversations. Un attaquant peut injecter dans ce champ un payload SSTI exploitant les classes Python accessibles via la chaine de resolution Jinja2, permettant l execution de commandes systeme arbitraires comme os.popen ou subprocess.Popen.

Quels endpoints SGLang sont vulnerables a CVE-2026-5760 ?▼

Le endpoint principal affecte est /v1/rerank dans le fichier entrypoints/openai/serving_rerank.py. Le code path vulnerable est declenche specifiquement lors du chargement d un modele reranker compatible Qwen3 qui active le rendu du chat_template. D autres endpoints utilisant le rendu Jinja2 de templates depuis des fichiers GGUF non verifies sont potentiellement affectes mais le vecteur /v1/rerank est le seul confirme en exploitation.

Comment corriger immediatement CVE-2026-5760 dans mon deploiement SGLang ?▼

Trois actions immediates : (1) remplacer toutes les instances de jinja2.Environment() par jinja2.sandbox.ImmutableSandboxedEnvironment() dans votre code de serving, (2) ne jamais charger de fichiers GGUF depuis des sources non verifiees comme Hugging Face Hub sans audit prealable du champ tokenizer.chat_template, (3) mettre a jour SGLang vers la version patchee. En attendant le patch, desactivez le endpoint /v1/rerank ou ajoutez un middleware de validation qui rejette les modeles dont le chat_template contient des patterns SSTI connus.

Services

Villes populaires

Technologies

Ressources

SGLang CVE-2026-5760 CVSS 9.8 : RCE via fichiers GGUF malveillants — les pipelines LLM open source sous attaque en mai 2026

Cause racine : un jinja2.Environment() sans sandbox dans le serving LLM

Vecteur d attaque : le endpoint /v1/rerank et le trigger Qwen3

Impact sur les developpeurs open source : la confiance implicite dans les modeles ML est terminee

Anatomie du payload SSTI : de la template Jinja2 a l execution de commandes

Remediation immediate : 5 actions avant la fin de semaine

Audit securite pipeline LLM : vos modeles GGUF sont-ils compromis ?

La lecon de fond : les pipelines ML meritent la meme securite que les applications web

Audit securite 30 minutes gratuit : votre pipeline LLM est-elle vulnerable ?

FAQ : SGLang CVE-2026-5760 RCE GGUF malveillant