LLM open source, open weight ou propriétaire ?
Un LLM n’est pas (que) un logiciel
Un modèle de langage est bien plus qu’un simple logiciel. Il combine plusieurs éléments :
- Une base de données constituée de très nombreux textes
- Des mécanismes de nettoyage et de mise au rebut de certains textes
- Un ou plusieurs réseaux de neurones profonds spécialisés dans l’analyse de la distribution statistique des mots
- Des algorithmes d’entraînement calculant les valeurs des milliards de paramètres
- Des fonctions de vectorisation projetant les mots dans un espace à grande dimension
- Des dispositifs limitant les vulnérabilités et usages répréhensibles
- Des modules permettant un requêtage efficace
- Des modules de traitement du langage naturel et gestion des dialogues
- Des fonctions d’orchestration et de routage
Comme pour une recette de cuisine, la variation d’un seul ingrédient influence la qualité du produit.
Ça coule de l’Open Source
L’open source s’applique aux logiciels dont la licence respecte les critères établis par l’Open Source Initiative. Cela signifie la possibilité de libre redistribution, d’accès au code source et de création de travaux dérivés.
Les 10 principes de l’OSI
- Redistribution libre
- Code source accessible
- Travaux dérivés autorisés
- Intégrité du code source de l’auteur
- Pas de discrimination contre les personnes ou groupes
- Absence de discrimination dans les domaines de compétence
- Distribution de la licence
- Licence non spécifique à un produit
- Licence ne restreignant pas d’autres logiciels
- Licence neutre sur le plan technologique
Types de licence Open Source
Les licences open source sont généralement permissives ou copyleft :
- Licence MIT : peu de restrictions, la plus permissive et largement utilisée
- Licence Apache 2.0 : permissive permettant tout ce qu’on souhaite faire avec le code
- Licence GPLv2 : exige que le code source soit mis à disposition publique (copyleft)
- Licence GPLv3 : compatible avec Apache 2.0, ne nécessite pas la publication du code
LLM Open Source versus Open Weight
La définition traditionnelle du code open source ne s’applique pas simplement aux LLMs. Deux différences majeures :
- Les LLMs reposent sur de très grandes quantités de données d’entraînement susceptibles de comporter des travaux protégés ou des données privées
- Ils comprennent des paramètres numériques déterminant comment les données sont traitées
Les LLMs open weight divulguent les pondérations du modèle mais ne partagent pas nécessairement les sources de données utilisées pour créer le modèle.
Un LLM open source partage en théorie chaque étape et source de données dans le cadre d’une licence permissive.
Avantages des LLMs Open Weight
- Personnalisation flexible du modèle en ajustant les poids sans partir de zéro
- Facilitation de la mise en œuvre offrant une base prête à l’emploi
Limitations des LLMs Open Weight
- Dépendance aux outils et plateformes propriétaires des créateurs
- Transparence et interprétabilité limitées sans accès aux données et algorithmes
Cas pratique 1 : Meta Llama 3
Meta s’est récemment converti en faveur de l’open source. Selon Mark Zuckerberg, l’IA open source est la bonne solution car les développeurs doivent :
- Pouvoir former, affiner et distiller leurs propres modèles
- Contrôler leur destin sans enfermement propriétaire
- Protéger leurs données
- Investir dans l’écosystème qui sera la norme à long terme
La licence Llama 3 s’approche d’une licence open source avec quelques limitations :
Ce qu’il est possible de faire :
- Utiliser et modifier Llama 3
- Redistribuer les versions originales ou modifiées
- Conserver la propriété de nouvelles créations
Ce qu’il n’est pas possible de faire :
- Si vos services dépassent 700 millions d’utilisateurs mensuels, une licence complémentaire est requise auprès de Meta
- Utiliser le modèle pour améliorer des modèles concurrents de Meta
- Utiliser les marques de Meta sans autorisation spécifique
Meta a également mis en place plusieurs garde-fous éthiques et de sécurité.
Cas pratique 2 : Mistral
La plupart des modèles d’usage général de Mistral bénéficient d’une licence Apache v2.0, en faisant un bon candidat pour l’intégration dans des suites logicielles.
Cependant, Mistral a défini la licence MNPL (Mistral AI non-production license) permettant l’utilisation libre dans des situations non commerciales (recherche, tests, évaluation).
Parmi les produits récents :
- Mistral Nemo (développé avec NVIDIA) : licence Apache 2.0
- Mistral Large et Codestral : licence MNPL, complétée par une licence commerciale pour la production
Comparer les performances, un exercice périlleux
Il n’est pas possible de répondre à la question « quel est le meilleur LLM ? ». Il existe de nombreuses catégories et critères à affiner : nombre de paramètres, longueur de fenêtre contextuelle, tendance à halluciner, vitesse de réaction.
Tableau des médailles
Des analyses utilisant l’algorithme Elo (opposant les candidats deux à deux) montrent deux tendances :
- L’amélioration continue des performances au cours du temps
- Un resserrement des écarts entre les meilleures solutions propriétaires et ouvertes
Exemple d’analyse qualitative
Les performances varient selon huit critères : écriture, jeu de rôle, raisonnement, mathématiques, codage, extraction de connaissances, STEM (sciences, technologie, engineering et mathématiques) et sciences humaines.
On remarque des corrélations entre critères : les performances du groupe [raisonnement, mathématiques, codage] semblent similaires, de même que celles du triplet [écriture, sciences humaines et STEM].
RGPD, IA Act et souveraineté
Les aspects légaux sont plus ou moins aigus selon la nature des échanges avec le LLM.
Par exemple :
- Une application dans le domaine de la santé demande un hébergement « HDS »
- Les applications à haut risque exigent un hébergement transparent
- Les applications en défense ou industries sensibles demandent un hébergement sur le sol européen (voire français) auprès d’hébergeurs de droit européen
Ces critères doivent être déterminés assez tôt dans le processus de choix du LLM.
Comparaison des coûts
Il n’existe pas de réponse toute faite. Le coût total dépend des caractéristiques techniques et du modèle de déploiement autant que du modèle de licence.
Critères à prendre en compte pour évaluer le TCO (total cost of ownership) :
- Cas d’usage et valeurs pour les utilisateurs
- Adaptation ou utilisation directe du modèle
- Hébergement (local, partenaire ou éditeur)
- Travaux d’intégration et maintenance
- Volumétrie et passage à l’échelle
- Disponibilité de collaborateurs compétents
Et demain, LLM open source ou propriétaire ?
Rien n’est certain. Les positions ne sont pas acquises, les technologies ne sont pas stabilisées, les usages sont encore à explorer. Les choix d’aujourd’hui seront remis en cause demain.
Une tendance émerge vers des LLMs de petite taille, facilitant leur dissémination. Suffisamment spécialisés, ils offrent des performances comparables à leurs grands frères avec une meilleure célérité.
Des architectures à plusieurs LLMs (par exemple Mistral 8x7) et des fonctions d’orchestrateurs et de routage vers des agents spécialisés sont en cours d’étude.
Retour vers le futur ?
En utilisant l’histoire des systèmes d’exploitation pour deviner l’avenir des LLMs :
- Ère des mainframes : systèmes d’exploitation gros, fermés et structurants (IBM)
- Microinformatique : multiplication des offres (DEC, Novell)
- Bataille de l’open source : finalement gagnée par Linux
- Informatique individuelle : retour des OS propriétaires (iOS, Windows)
- Période actuelle : mélange stable de solutions propriétaires et open source
À présent d’écrire l’histoire des LLMs et de l’IA générative…
Le choix entre LLM open source, open weight et propriétaire est au cœur de toute stratégie IA sérieuse. Agora Software a fait le choix de l'inférence locale pour maximiser souveraineté et maîtrise des coûts.
Intégrez l'IA dans votre logiciel avec Agora Software.
Parlons-en