Routage des LLM : minimiser le regret décisionnel à partir de données observationnelles
L’article arXiv:2505.16037 présente une nouvelle approche pour le routage des modèles linguistiques de grande taille (LLM). Le routage des LLM vise à sélectionner le modèle le plus approprié pour chaque requête, en équilibrant des indicateurs de performance concurrents tels que la précision et le coût sur un ensemble de modèles. Les approches précédentes adoptaient généralement une stratégie découplée : prédiction des indicateurs, puis sélection du modèle en fonction de ces estimations. Ce système est sujet à des erreurs cumulatives et repose souvent sur des données de retour complet (chaque requête est évaluée par tous les modèles candidats), coûteuses à obtenir et à maintenir.
En revanche, cette nouvelle méthode apprend à partir de données observationnelles, qui enregistrent uniquement le résultat du modèle réellement déployé. Elle propose un cadre causal de bout en bout qui apprend les politiques de routage en minimisant le regret décisionnel à partir de ces données. Pour permettre une optimisation efficace, deux objectifs de substitution théoriquement fondés sont introduits : une borne supérieure basée sur la classification et une approximation du regret pondérée par softmax, qui récupère la politique optimale à la convergence. Le cadre est étendu pour gérer les préférences de coût hétérogènes via une architecture conditionnée par intervalle. Des expériences sur des benchmarks publics montrent que la méthode surpasse les lignes de base existantes, atteignant des performances de pointe avec différents modèles d’intégration. L’approche est particulièrement pertinente pour les environnements de production où les données de retour complet sont difficiles à obtenir. Son application pourrait optimiser significativement le coût et les performances des systèmes de LLM à grande échelle.
**Points clés :**
* Apprentissage à partir de données observationnelles, plus réaliste que les données de retour complet.
* Cadre causal de bout en bout pour la minimisation du regret décisionnel.
* Deux objectifs de substitution pour une optimisation efficace.
* Gestion des préférences de coût hétérogènes.
* Performances de pointe sur les benchmarks publics.
**Applications potentielles :** Optimisation des coûts et des performances des systèmes de LLM dans les applications industrielles, les chatbots, la recherche d’informations, et la traduction automatique. Des applications spécifiques en Afrique pourraient inclure l’optimisation des systèmes de traduction pour les langues locales ou le développement de chatbots pour l’accès à l’information et aux services publics.
Share this content:
Laisser un commentaire