Rainbow Noise : Décryptage des Failles des Détecteurs de Mèmes Haineux Ciblant la Communauté LGBTQ+
Les mèmes haineux visant la communauté LGBTQ+ contournent souvent les systèmes de détection grâce à de subtiles modifications de leur légende, de leur image, ou des deux. Nous avons développé le premier benchmark de robustesse pour ce type de manipulation, combinant quatre attaques réalistes sur les légendes et trois altérations classiques d’images, le tout testé sur le jeu de données PrideMM. Deux détecteurs de pointe, MemeCLIP et MemeBLIP2, ont servi de cas d’étude, et nous avons introduit un module léger, le **Text Denoising Adapter (TDA)**, pour améliorer la résilience de MemeBLIP2.
Des Performances Contrastées
Face à ces manipulations, MemeCLIP a montré une certaine robustesse, sa performance déclinant progressivement. MemeBLIP2 s’est avéré bien plus sensible aux modifications des légendes, affectant fortement son traitement du langage. L’intégration du TDA a cependant changé la donne.
Le TDA : Un Remède Efficace
Le TDA a non seulement corrigé cette faiblesse de MemeBLIP2, mais l’a transformé en le modèle le plus robuste de notre étude. Cette amélioration significative, obtenue grâce à un module léger, souligne le potentiel de solutions ciblées pour renforcer la sécurité des modèles multimodaux.
L’Importance du Texte et les Choix Architecturaux
Nos analyses révèlent que tous les systèmes étudiés s’appuient lourdement sur le texte pour la détection. Cependant, les choix architecturaux et les données de pré-entraînement ont un impact majeur sur la robustesse du modèle.
Conclusion : Vers une Détection Plus Robuste
Ce benchmark met en lumière les points faibles des modèles de sécurité multimodaux actuels. Il démontre que des solutions ciblées et peu gourmandes en ressources, comme le TDA, constituent une voie prometteuse pour créer des défenses plus solides contre la propagation de mèmes haineux. La recherche future devra se concentrer sur l’amélioration de la résilience des modèles face à des manipulations plus sophistiquées, et prendre en compte la complexité et la diversité des attaques.
Share this content:
Laisser un commentaire