Contrats d'IA générative : quelques clés pour structurer un bon contrat
Gérer l'IA en entreprise nécessite de comprendre le cycle de vie de la donnée dans l'univers IA
Dans le cadre d'un projet d'IA générative interne, il faut cartographier tout le cycle de vie des données :
- Avant l'IA - Données historiques que vous fournissez (bases documentaires, tickets, e‑mails, dépôts de code...). Qui les prépare ? Qui les anonymise ?
- Pendant - Données de prompts et de réponses, logs techniques, métadonnées. Sont‑elles stockées ? Pour combien de temps ? Dans quel pays ?
- Après - Données dérivées (embeddings, vecteurs, modèles affinés, évaluations humaines). À qui appartiennent elles ? Qui peut les réutiliser ?
Sachant que ces données peuvent être :
- des données personnelles ou professionnelles identifiantes,
- des secrets d'affaires, du know‑how, des algorithmes métier,
- des documents contractuels stratégiques (contrats clients, code source, cahiers des charges, etc.).
Quelques pièges contractuels dans les projets d'IA générative
1. Confondre entraînement, amélioration de service et support
Attention aux formulations du type : "Le Client autorise le Fournisseur à utiliser les Données Client pour améliorer les Services", qui permet en pratique :
- d'entraîner ou d'affiner des modèles génériques sur la base de vos données,
- d'alimenter des fonctionnalités futures, y compris destinées à d'autres clients,
- d'utiliser vos prompts et vos retours utilisateurs comme matière première.
3. Sous estimer la complexité de la réversibilité
Avec l'IA générative, la réversibilité ne se limite pas à récupérer des bases de données :
- il faut récupérer vos corpus de référence enrichis, vos taxonomies, vos modèles d'inférence,
- il faut éviter qu'un fournisseur garde, post‑contrat, un modèle ou un ensemble d'embeddings calibrés à votre image.
Les clauses à soigne dans un contrat d'IA générative
1. Segmenter clairement les flux de données
Distinguer explicitement :
- Données Client brutes (vos documents, tickets, sources, etc.),
- Données opérationnelles (prompts, logs, feedbacks),
- Données dérivées (vecteurs, modèles affinés, évaluations),
- Métadonnées techniques (télémétrie, performance, statistiques agrégées).
Pour chacune de ces catégories, il préciser :
- qui est titulaire des droits,
- à quelles fins le fournisseur peut les utiliser (et à quelles fins il ne peut pas),
- les durées de conservation, y compris post‑contrat,
- les conditions de restitution, d'effacement et de purge.
2. Encadrer l'entraînement et la mutualisation
- interdire par principe tout entraînement de modèles génériques sur la base de vos données, sauf accord spécifique et documenté,
- autorise éventuellement l'usage de statistiques agrégées et anonymisées, sous contrôle,
- réserver explicitement à votre bénéfice l'usage de tout modèle affiné sur vos corpus internes.