Pouvoir répondre à des questions sur un texte que l’on vient de lire est l’une des qualités les plus évaluées à l’école. Hélas, lorsqu’on programme une intelligence artificielle, cet aspect « Natural Langage Processing » (compréhension du language ou NLP) est l’une des plus difficile à mettre en place !

Pour évaluer cette compétence, le SQuAD (Stanford Question Answering Dataset) voit s’affronter humains et IA dans une compétition… Dont Microsoft Research Asia et Alibaba se disputent désormais le podium, reléguant les humains à la 3ème place.

Le SQuAD

sujets du SQuADLe SQuAD est un test en ligne qui vise à évaluer la compréhension écrite des participants. Plus de 500 articles tirés de Wikipédia et faisant de 100 à 150 mots (plusieurs passages sont pris) sont accompagnés d’un total de 100 000 questions assez difficiles, auxquelles il faut répondre avec exactitude.

Par exemple, si on regarde pour Microsoft Research Asia (MRA), on voit qu’il y a eu des incompréhensions :

(En parlant du Super Bowl) « Le champion de l’AFC Denver Broncos a battu le champion du NFC Carolina Panthers 24 à 10 ».

Question = Qui a gagné le Super Bowl 50 ?

Réponse = Denver Broncos

Mais voici la réponse de MRA : Carolina Panthers, probablement induit en erreur par le « defeated ».

Et il y a aussi des réponses quasiment justes :

Question = De quelle couleur…

Réponse = Or (gold)

MRA a répondu « doré » (golden).

Pour l’instant, 54 IA sont dans la compétition, avec des scores très variables. Par exemple, seul le top 4 atteint un score d’au moins 80% de bonnes réponses (les humains sont à 82), le plus mauvais étant de 54%, mais le classement évolue vite et il ne serait pas surprenant de voir de plus en plus d’adversaires atteindre une aussi bonne compréhension ! D’autant que les sujets peuvent être assez pointus : Super Bowl, Nikola Tesla, Théorie de la Complexité, Doctor Who, les Chloroplasts, l’Impérialisme et bien d’autres.

Notons enfin que la très grande majorité des IA représentées appartiennent à de grandes entreprises (Microsoft, Facebook, IBM…), mais on retrouve aussi quelques universités (Vienne, Zhejiang, New York…).

Une IA meilleure qu’un humain

Pour évaluer le score des participants, deux métriques sont utilisées.

ExactMatch (EM) représente une réponse parfaitement exacte par rapport à ce qui était attendu. Par exemple, répondre « les missions Gemini » au lieu de « le programme Gemini » est considéré comme faux, au même titre que « au moins trois » au lieu de « trois » ou « 11 » pour « Apollo 11 ».

Obtenir des points d’EM est donc difficile, même pour un humain, car on ne sait généralement pas « où s’arrêter dans l’information », et les IA ont tendance à garder des phrases trop longues plutôt que de garder uniquement l’essentiel. Dans cette catégorie, on notera que les humains ont un score de 82.304, battu par deux IA : Alibaba, le géant chinois du commerce en ligne, et Microsoft Research Asia avec un score de 82.650 (le meilleur).

explication F1 score

F1 parfois appelé « F score » est la mesure de la précision et du rappel au test.

La précision est la proportion de bonnes réponses par rapport au nombre de réponses données, tandis que le rappel est la proportion de bonnes réponses par rapport au nombre de réponses attendues.

F1 est donné par la formule ci-dessus, et représente la moyenne harmonique des deux valeurs (c’est l’inverse de la moyenne arithmétique et sert donc pour des liens de proportionnalité inverse)… Ce qui en fait une très bonne mesure pour ce genre d’exercice où on veut mesurer la pertinence des réponses données plutôt que leur exactitude sémantique !

A ce niveau-là, aucune IA n’a pu battre encore l’équipe de Stanford dont le score est de 91.221, preuve qu’ils ont bien compris les textes. Néanmoins, force est de constater que 4 IA sont à plus de 88 (avec Alibaba en tête ce coup-ci, devant Microsoft Research Asia), et ce n’est plus qu’une question de temps avant qu’elles surclassent les humains.

PARTAGER
Article précédentFuturs axes de développement en IA
Article suivantPhotoshop : le détourage automatique (via une IA), la fin d’un calvaire !
Lambert R.
Ingénieur d'Etudes et Data Scientist depuis plusieurs années, mes travaux et mon parcours scolaire (master en mathématiques fondamentales) m'ont amené aux abords de l'intelligence artificielle. Aujourd'hui j'écris des articles en data science, deep learning, big data et intelligence artificielle pour PenseeArtificielle.fr, dans le but de promouvoir et vulgariser les promesses d'avenir qu'offrent ces domaines de pointe.

1 commentaire