Pouvoir répondre à des questions sur un texte que l’on vient de lire est l’une des qualités les plus évaluées à l’école. Hélas, lorsqu’on programme une intelligence artificielle, cet aspect « Natural Langage Processing » (compréhension du language ou NLP) est l’une des plus difficile à mettre en place !

Pour évaluer cette compétence, le SQuAD (Stanford Question Answering Dataset) voit s’affronter humains et IA dans une compétition… Dont Microsoft Research Asia et Alibaba se disputent désormais le podium, reléguant les humains à la 3ème place.

Le SQuAD

sujets du SQuAD
(crédit : SQuAD)

Le SQuAD est un test en ligne qui vise à évaluer la compréhension écrite des participants. Plus de 500 articles tirés de Wikipédia et faisant de 100 à 150 mots (plusieurs passages sont pris) sont accompagnés d’un total de 100 000 questions assez difficiles, auxquelles il faut répondre avec exactitude.

Par exemple, si on regarde pour Microsoft Research Asia (MRA), on voit qu’il y a eu des incompréhensions :

(En parlant du Super Bowl) « Le champion de l’AFC Denver Broncos a battu le champion du NFC Carolina Panthers 24 à 10 ».

Question = Qui a gagné le Super Bowl 50 ?

Réponse = Denver Broncos

Mais voici la réponse de MRA : Carolina Panthers, probablement induit en erreur par le « defeated ».

Et il y a aussi des réponses quasiment justes :

Question = De quelle couleur…

Réponse = Or (gold)

MRA a répondu « doré » (golden).

Pour l’instant, 54 IA sont dans la compétition, avec des scores très variables. Par exemple, seul le top 4 atteint un score d’au moins 80% de bonnes réponses (les humains sont à 82), le plus mauvais étant de 54%, mais le classement évolue vite et il ne serait pas surprenant de voir de plus en plus d’adversaires atteindre une aussi bonne compréhension ! D’autant que les sujets peuvent être assez pointus : Super Bowl, Nikola Tesla, Théorie de la Complexité, Doctor Who, les Chloroplasts, l’Impérialisme et bien d’autres.

Notons enfin que la très grande majorité des IA représentées appartiennent à de grandes entreprises (Microsoft, Facebook, IBM…), mais on retrouve aussi quelques universités (Vienne, Zhejiang, New York…).

Une IA meilleure qu’un humain

Pour évaluer le score des participants, deux métriques sont utilisées.

ExactMatch (EM) représente une réponse parfaitement exacte par rapport à ce qui était attendu. Par exemple, répondre « les missions Gemini » au lieu de « le programme Gemini » est considéré comme faux, au même titre que « au moins trois » au lieu de « trois » ou « 11 » pour « Apollo 11 ».

Obtenir des points d’EM est donc difficile, même pour un humain, car on ne sait généralement pas « où s’arrêter dans l’information », et les IA ont tendance à garder des phrases trop longues plutôt que de garder uniquement l’essentiel. Dans cette catégorie, on notera que les humains ont un score de 82.304, battu par deux IA : Alibaba, le géant chinois du commerce en ligne, et Microsoft Research Asia avec un score de 82.650 (le meilleur).

F1 parfois appelé « F score » est la mesure de la précision et du rappel au test.

La précision est la proportion de bonnes réponses par rapport au nombre de réponses données, tandis que le rappel est la proportion de bonnes réponses par rapport au nombre de réponses attendues.

F1 est donné par la formule ci-dessus, et représente la moyenne harmonique des deux valeurs (c’est l’inverse de la moyenne arithmétique et sert donc pour des liens de proportionnalité inverse)… Ce qui en fait une très bonne mesure pour ce genre d’exercice où on veut mesurer la pertinence des réponses données plutôt que leur exactitude sémantique !

A ce niveau-là, aucune IA n’a pu battre encore l’équipe de Stanford dont le score est de 91.221, preuve qu’ils ont bien compris les textes. Néanmoins, force est de constater que 4 IA sont à plus de 88 (avec Alibaba en tête ce coup-ci, devant Microsoft Research Asia), et ce n’est plus qu’une question de temps avant qu’elles surclassent les humains.

Crédit de l’image de couverture : romana kleeCC BY-SA 2.0

1 commentaire