Révolutionner l’IA : Un nouveau benchmark pour le raisonnement spatial et physique
Un nouvel ensemble de données lancé sur arXiv (arXiv:2505.16048v1) marque une avancée majeure dans l'évaluation des capacités de raisonnement des grands modèles linguistiques (LLM). Ce dataset s’appuie sur le principe…