Le Dilemme des Données Préférentielles : Quand Plus de Modèles Rime avec Moins de Sécurité
L'alignement des grands modèles de langage (LLMs) avec les valeurs humaines est devenu une préoccupation majeure dans le développement des intelligences artificielles. Dans cette quête, l'optimisation des préférences directes (DPO)…