Chargement en cours

Rainbow Noise : Tester la Résilience des Détecteurs de Mèmes Nuisibles sur le Contenu LGBTQ

Les mèmes haineux ciblant les communautés LGBTQ+ réussissent souvent à échapper à la détection en modifiant leur légende, leur image, ou les deux. Dans cette étude, nous avons établi le premier benchmark de robustesse pour ce type de contestation, en associant quatre attaques de légendes réalistes à trois dégradations d’images classiques. L’objectif est de tester ces combinaisons sur le jeu de données PrideMM.

Détecteurs de Mèmes à l’Épreuve

Nous avons examiné deux des détecteurs les plus performants, **MemeCLIP** et **MemeBLIP2**, afin de comprendre leur fonctionnement face à des mèmes haineux.

✓ **Verrouillage des Légendes et Images :** Les attaques appliquées aux légendes et les manipulations de l’image montrent que les détecteurs ont des réponses différentes face à des variantes spécifiques des mèmes.
✓ **Résultats Contrastés :** MemeCLIP démontre une dégradation plus douce, montrant une certaine résilience face aux attaques. En revanche, MemeBLIP2 est particulièrement vulnérable aux modifications de légende, révélant une faiblesse notable dans son traitement du langage.

Améliorer la Résilience : L’Adaptateur de Dénormalisation des Textes (TDA)

Pour renforcer la robustesse de MemeBLIP2, nous avons introduit un outil innovant, le **Text Denoising Adapter (TDA)**.

✓ **Efficacité du TDA :** L’ajout du TDA non seulement corrige la sensibilité excessive de MemeBLIP2 mais transforme également ce modèle en le plus robuste de notre étude. Cela montre qu’une amélioration ciblée et légère peut avoir un impact significatif.
✓ **Impact des Choix Architecturaux :** En menant des ablations, nous avons observé que tous les systèmes analysés s’appuient fortement sur le texte, mais les choix architecturaux et les données de pré-entraînement influencent considérablement leur robustesse.

Résultats et Implications

Notre benchmark expose les failles des modèles de sécurité multimodaux actuels et démontre que des modules légers et ciblés, tel que le TDA, peuvent représenter une voie prometteuse vers des défenses plus solides dans la détection des contenus nuisibles. Une prise de conscience accrue de ces vulnérabilités peut aider à améliorer la sécurité en ligne pour les communautés marginalisées.

Share this content:

Laisser un commentaire