LLM open source, open weight ou propriétaire ?

Un LLM n’est pas (que) un logiciel

Un modèle de langage est bien plus qu’un simple logiciel. Il combine plusieurs éléments :

Une base de données constituée de très nombreux textes
Des mécanismes de nettoyage et de mise au rebut de certains textes
Un ou plusieurs réseaux de neurones profonds spécialisés dans l’analyse de la distribution statistique des mots
Des algorithmes d’entraînement calculant les valeurs des milliards de paramètres
Des fonctions de vectorisation projetant les mots dans un espace à grande dimension
Des dispositifs limitant les vulnérabilités et usages répréhensibles
Des modules permettant un requêtage efficace
Des modules de traitement du langage naturel et gestion des dialogues
Des fonctions d’orchestration et de routage

Comme pour une recette de cuisine, la variation d’un seul ingrédient influence la qualité du produit.

Ça coule de l’Open Source

L’open source s’applique aux logiciels dont la licence respecte les critères établis par l’Open Source Initiative. Cela signifie la possibilité de libre redistribution, d’accès au code source et de création de travaux dérivés.

Les 10 principes de l’OSI

Redistribution libre
Code source accessible
Travaux dérivés autorisés
Intégrité du code source de l’auteur
Pas de discrimination contre les personnes ou groupes
Absence de discrimination dans les domaines de compétence
Distribution de la licence
Licence non spécifique à un produit
Licence ne restreignant pas d’autres logiciels
Licence neutre sur le plan technologique

Types de licence Open Source

Les licences open source sont généralement permissives ou copyleft :

Licence MIT : peu de restrictions, la plus permissive et largement utilisée
Licence Apache 2.0 : permissive permettant tout ce qu’on souhaite faire avec le code
Licence GPLv2 : exige que le code source soit mis à disposition publique (copyleft)
Licence GPLv3 : compatible avec Apache 2.0, ne nécessite pas la publication du code

LLM Open Source versus Open Weight

La définition traditionnelle du code open source ne s’applique pas simplement aux LLMs. Deux différences majeures :

Les LLMs reposent sur de très grandes quantités de données d’entraînement susceptibles de comporter des travaux protégés ou des données privées
Ils comprennent des paramètres numériques déterminant comment les données sont traitées

Les LLMs open weight divulguent les pondérations du modèle mais ne partagent pas nécessairement les sources de données utilisées pour créer le modèle.

Un LLM open source partage en théorie chaque étape et source de données dans le cadre d’une licence permissive.

Avantages des LLMs Open Weight

Personnalisation flexible du modèle en ajustant les poids sans partir de zéro
Facilitation de la mise en œuvre offrant une base prête à l’emploi

Limitations des LLMs Open Weight

Dépendance aux outils et plateformes propriétaires des créateurs
Transparence et interprétabilité limitées sans accès aux données et algorithmes

Cas pratique 1 : Meta Llama 3

Meta s’est récemment converti en faveur de l’open source. Selon Mark Zuckerberg, l’IA open source est la bonne solution car les développeurs doivent :

Pouvoir former, affiner et distiller leurs propres modèles
Contrôler leur destin sans enfermement propriétaire
Protéger leurs données
Investir dans l’écosystème qui sera la norme à long terme

La licence Llama 3 s’approche d’une licence open source avec quelques limitations :

Ce qu’il est possible de faire :

Utiliser et modifier Llama 3
Redistribuer les versions originales ou modifiées
Conserver la propriété de nouvelles créations

Ce qu’il n’est pas possible de faire :

Si vos services dépassent 700 millions d’utilisateurs mensuels, une licence complémentaire est requise auprès de Meta
Utiliser le modèle pour améliorer des modèles concurrents de Meta
Utiliser les marques de Meta sans autorisation spécifique

Meta a également mis en place plusieurs garde-fous éthiques et de sécurité.

Cas pratique 2 : Mistral

La plupart des modèles d’usage général de Mistral bénéficient d’une licence Apache v2.0, en faisant un bon candidat pour l’intégration dans des suites logicielles.

Cependant, Mistral a défini la licence MNPL (Mistral AI non-production license) permettant l’utilisation libre dans des situations non commerciales (recherche, tests, évaluation).

Parmi les produits récents :

Mistral Nemo (développé avec NVIDIA) : licence Apache 2.0
Mistral Large et Codestral : licence MNPL, complétée par une licence commerciale pour la production

Comparer les performances, un exercice périlleux

Il n’est pas possible de répondre à la question « quel est le meilleur LLM ? ». Il existe de nombreuses catégories et critères à affiner : nombre de paramètres, longueur de fenêtre contextuelle, tendance à halluciner, vitesse de réaction.

Tableau des médailles

Des analyses utilisant l’algorithme Elo (opposant les candidats deux à deux) montrent deux tendances :

L’amélioration continue des performances au cours du temps
Un resserrement des écarts entre les meilleures solutions propriétaires et ouvertes

Exemple d’analyse qualitative

Les performances varient selon huit critères : écriture, jeu de rôle, raisonnement, mathématiques, codage, extraction de connaissances, STEM (sciences, technologie, engineering et mathématiques) et sciences humaines.

On remarque des corrélations entre critères : les performances du groupe [raisonnement, mathématiques, codage] semblent similaires, de même que celles du triplet [écriture, sciences humaines et STEM].

RGPD, IA Act et souveraineté

Les aspects légaux sont plus ou moins aigus selon la nature des échanges avec le LLM.

Par exemple :

Une application dans le domaine de la santé demande un hébergement « HDS »
Les applications à haut risque exigent un hébergement transparent
Les applications en défense ou industries sensibles demandent un hébergement sur le sol européen (voire français) auprès d’hébergeurs de droit européen

Ces critères doivent être déterminés assez tôt dans le processus de choix du LLM.

Comparaison des coûts

Il n’existe pas de réponse toute faite. Le coût total dépend des caractéristiques techniques et du modèle de déploiement autant que du modèle de licence.

Critères à prendre en compte pour évaluer le TCO (total cost of ownership) :

Cas d’usage et valeurs pour les utilisateurs
Adaptation ou utilisation directe du modèle
Hébergement (local, partenaire ou éditeur)
Travaux d’intégration et maintenance
Volumétrie et passage à l’échelle
Disponibilité de collaborateurs compétents

Et demain, LLM open source ou propriétaire ?

Rien n’est certain. Les positions ne sont pas acquises, les technologies ne sont pas stabilisées, les usages sont encore à explorer. Les choix d’aujourd’hui seront remis en cause demain.

Une tendance émerge vers des LLMs de petite taille, facilitant leur dissémination. Suffisamment spécialisés, ils offrent des performances comparables à leurs grands frères avec une meilleure célérité.

Des architectures à plusieurs LLMs (par exemple Mistral 8x7) et des fonctions d’orchestrateurs et de routage vers des agents spécialisés sont en cours d’étude.

Retour vers le futur ?

En utilisant l’histoire des systèmes d’exploitation pour deviner l’avenir des LLMs :

Ère des mainframes : systèmes d’exploitation gros, fermés et structurants (IBM)
Microinformatique : multiplication des offres (DEC, Novell)
Bataille de l’open source : finalement gagnée par Linux
Informatique individuelle : retour des OS propriétaires (iOS, Windows)
Période actuelle : mélange stable de solutions propriétaires et open source

À présent d’écrire l’histoire des LLMs et de l’IA générative…

Le choix entre LLM open source, open weight et propriétaire est au cœur de toute stratégie IA sérieuse. Agora Software a fait le choix de l'inférence locale pour maximiser souveraineté et maîtrise des coûts.

Intégrez l'IA dans votre logiciel avec Agora Software.

Parlons-en

À lire aussi : Inférence locale · Suivez-nous sur LinkedIn