IA en air-gap : le cas des LLM sur site dans les secteurs réglementés

Le postulat par défaut de l'IA d'entreprise est le cloud-first. Vous envoyez vos données à une API, le modèle répond, et vous construisez par-dessus. Pour la plupart des secteurs, cela fonctionne bien. Pour la finance, la santé et le juridique, c'est un problème de conformité prêt à exploser.

Pourquoi les secteurs réglementés ne peuvent pas se contenter des LLM cloud

Les réglementations ne sont pas abstraites. HIPAA impose des contrôles stricts sur l'endroit où vont les informations de santé protégées et qui peut y accéder. Les règles FINRA et SEC exigent que les entreprises financières maintiennent des pistes d'audit complètes et une résidence des données dans des périmètres définis. Le privilège juridique dépend du contrôle exact sur qui — et quels systèmes — accèdent aux communications privilégiées.

Lorsque vous envoyez une requête à un LLM cloud, vous transmettez des données via un réseau vers une infrastructure que vous ne contrôlez pas, exploitée par un tiers selon son propre modèle de sécurité. Ce n'est pas un risque théorique. C'est une violation des hypothèses architecturales sur lesquelles reposent la plupart des cadres de conformité. Avant de choisir un fournisseur, une évaluation approfondie de la sécurité IA d'entreprise est indispensable — la conformité SOC 2 seule ne couvre pas la surface d'attaque spécifique à l'IA.

Les vrais risques : résidence des données, entraînement et pistes d'audit

Trois risques spécifiques dominent toute conversation sérieuse sur l'IA cloud dans des contextes réglementés.

Résidence des données. De nombreuses juridictions — l'UE sous GDPR, des lois spécifiques des États américains, des régulateurs financiers mondiaux — exigent que certaines données restent dans des périmètres géographiques ou juridictionnels définis. Les fournisseurs d'IA cloud distribuent souvent l'inférence entre les régions. Vous savez rarement exactement où votre requête a été traitée.

Entraînement du modèle sur vos données. Jusqu'à récemment, plusieurs grands fournisseurs d'IA utilisaient les interactions clients pour améliorer leurs modèles par défaut. Les options de désinscription existaient mais étaient enfouies. Les accords entreprise incluent désormais généralement des exclusions d'entraînement — mais « généralement » ne signifie pas « toujours », et le libellé contractuel compte moins que la réalité architecturale. Si vos données atteignent leur infrastructure, vous en avez perdu le contrôle.

Pistes d'audit. La conformité dans la finance et la santé ne se résume pas à savoir où vont les données — il s'agit de prouver où elles ne sont pas allées. Les journaux d'inférence cloud sont opaques. Votre piste d'audit s'arrête à votre appel API. Ce qui se passe à l'intérieur de l'infrastructure du fournisseur est leur enregistrement, pas le vôtre.

Ce que l'air-gap signifie architecturalement

Un déploiement en air-gap signifie que le modèle s'exécute dans votre infrastructure. Pas d'appels API sortants vers des fournisseurs LLM externes. Pas de données quittant votre périmètre réseau lors de l'inférence. Les poids du modèle, le store vectoriel, le pipeline de récupération — tout cela se trouve derrière votre pare-feu.

C'est architecturalement distinct des options de « cloud privé » ou de « déploiement VPC » proposées par certains fournisseurs cloud. Celles-ci réduisent la surface d'exposition mais n'éliminent pas le problème fondamental : vos données quittent quand même votre infrastructure pour entrer dans la leur. Le vrai air-gap signifie une inférence locale. Le modèle est à vous pour l'exécuter, l'auditer et le contrôler.

En pratique, cela signifie déployer des modèles à poids ouverts — Llama 3, Mistral, Qwen et leurs variantes — sur votre propre matériel ou des serveurs sur site. Le pipeline de récupération (embeddings, recherche vectorielle, reclassement) s'exécute également localement. Un pipeline de reclassement bien ajusté s'exécutant entièrement sur site peut égaler ou dépasser la précision de récupération des systèmes RAG basés sur le cloud. Rien dans l'interaction IA ne nécessite une connexion réseau externe.

Le compromis capacité/contrôle — et pourquoi il se réduit rapidement

L'objection honnête à l'IA en air-gap a toujours été la capacité. GPT-4 est plus performant que tout ce que vous pouvez exécuter localement. C'était vrai en 2023. C'est significativement moins vrai aujourd'hui.

L'écosystème des modèles à poids ouverts a mûri rapidement. Llama 3 70B et Mistral Large sont compétitifs avec les générations précédentes de modèles de pointe sur la plupart des tâches d'entreprise — analyse de documents, résumé, extraction structurée, Q&R sur des bases de connaissances. Pour des travaux spécifiques à un domaine avec une récupération solide, les modèles plus petits surpassent souvent les plus grands modèles généraux.

L'écart de capacité entre local et cloud existe encore. Mais il se réduit trimestre après trimestre. Pour les secteurs réglementés, la question n'est pas « peut-on obtenir une qualité GPT-4 sur site ? » — c'est « la capacité obtenue sur site est-elle suffisante pour notre cas d'usage ? » Pour la plupart des applications IA d'entreprise, la réponse est de plus en plus oui. Le RAG privé — la combinaison d'une récupération sur site et d'une inférence sur site — délivre désormais une précision qui rivalise avec les solutions cloud sur la plupart des tâches de connaissance d'entreprise.

L'approche Scabera : Glass Box AI qui ne quitte jamais votre bâtiment

Le Glass Box AI de Scabera est conçu pour cette contrainte. L'ensemble de la pile — inférence du modèle, récupération, reclassement, génération de citations — s'exécute sur site. Vos documents ne quittent pas votre réseau. Vos requêtes n'atteignent pas des API externes. Votre piste d'audit est complète parce que chaque opération se produit dans votre infrastructure.

Glass Box AI signifie que chaque sortie est transparente et traçable : chaque citation renvoie à un document source spécifique, chaque étape d'inférence est journalisée dans votre environnement, et rien du raisonnement de l'IA n'est opaque ou dépendant de l'extérieur. Cette transparence est ce qui rend le système auditable pour les scénarios de conformité HIPAA, FINRA et GDPR.

Ce n'est pas une fonctionnalité que nous avons ajoutée pour les clients entreprise. C'est le fondement architectural. La conformité n'est pas ajoutée après coup — c'est la raison pour laquelle le système est conçu comme il l'est.

Pour les équipes finance, santé et juridique qui ont besoin d'IA sans l'exposition de conformité, l'air-gap n'est pas un compromis. C'est la seule architecture acceptable.

Pourquoi les secteurs réglementés ne peuvent pas se contenter des LLM cloud

Les vrais risques : résidence des données, entraînement et pistes d'audit

Ce que l'air-gap signifie architecturalement

Le compromis capacité/contrôle — et pourquoi il se réduit rapidement

L'approche Scabera : Glass Box AI qui ne quitte jamais votre bâtiment

Prêt à synchroniser vos connaissances ?