Dans le focus précédent, nous avons vu en détail ce qu’était la reconnaissance faciale et comment elle fonctionnait.

Aujourd’hui, je vous propose de mettre tout ça en pratique : programmons notre première IA de reconnaissance faciale, capable de fonctionner avec n’importe quel ordinateur !

En bonus, nous verrons comment saluer la personne identifiée, quelles pistes d’amélioration sont envisageables, ainsi que beaucoup d’autres éléments intéressants.

Lien vers le focus sur la Reconnaissance Faciale

I. Petits rappels et préparation de l’environnement

La reconnaissance faciale : 4 IA qui œuvrent de concert

Même si tout est expliqué dans le focus en lien plus haut, la reconnaissance faciale n’est pas « une intelligence artificielle qui reconnait les gens » mais… 4 IA, différentes, qui s’enchaînent pour arriver à identifier quelqu’un (ou à vérifier une identité) :

  • Tout d’abord, une IA trouve le visage dans l’image (avec l’algorithme Haar Cascade par exemple)
  • Puis le visage est découpé et déformé pour être recentré et réaligné par rapport à l’image : c’est le Dlib Shape Predictor qui peut faire ça
  • Ensuite une IA analyse l’image et en donne 128 nombres qui la représentent, via un réseau de neurones convolutifs : VGG Face
  • Enfin, la dernière IA cherche dans notre base de donnée quelle est la personne la plus « proche » de ce vecteur
slides conférence La Reconnaissance Faciale (2)
Les 4 IA de la reconnaissance faciale

Dans ce TP, nous allons mettre en place toute la chaîne ci-dessus à l’exception de la partie 2 (découpage et déformation) car on se placera toujours face à la caméra pour les reconnaissances, et je souhaite alléger les calculs de l’ordinateur (mais j’en parlerai en bonus en fin d’article).

Ordinateur portable ou ordinateur fixe pour ce TP ?

gpu vs cpu performance
Les entraînements (et les prédictions) sont beaucoup plus rapides via la carte graphique ! (Source)

Comme promis, ce TP a été pensé pour fonctionner sur un ordinateur portable classique, uniquement grâce au processeur (CPU). Les temps de prédiction pour reconnaître quelqu’un seront de l’ordre de 2 à 10s, donc si vous souhaitez avoir du « temps réel » je vous recommande fortement de passer par votre carte graphique (GPU) pour faire les calculs.

Comment ? C’est très simple : au lieu d’installer Tensorflow, il va falloir installer Tensorflow-GPU (il faudra avoir une carte graphique GeForce compatible). Le temps de prédiction sera d’environ 0.1 à 0.3s.

Récupération des sources

Le code que nous allons voir à présent a été mis en ligne sur Github à l’adresse suivante. N’hésitez pas à le télécharger (il vous sera indispensable car il contient les modèles pré-entraînés).

Lien vers le projet Github de Pensée Artificielle

D’autre part, il va falloir télécharger également le fichier suivant de 1Go. Il s’agit d’un modèle d’intelligence artificielle déjà entraîné, nommé VGG Face, capable de construire les vecteurs représentant les images (3e étape) :

Lien pour télécharger VGG Face (1Go)

Python et dépendances

Pour ce TP, nous allons utiliser Python 3, car il s’agit d’un langage parfaitement adapté à nos besoins, qui dispose des outils pour traiter les images, la caméra et les intelligences artificielles.

Lien pour télécharger Python 3

ATTENTION : N’installez surtout pas la version 3.7 de Python car elle n’est pas compatible avec Tensorflow, mais plutôt une version 3.5.X ou 3.6.X (pour ma part j’utilise la 3.6.5 mais vous pouvez utiliser la 3.6.8 par exemple) !

Maintenant que vous avez Python, on va avoir besoin des librairies suivantes :

  • Numpy : une librairie qui fournit de nombreuses fonctions mathématiques de calcul et une gestion des vecteurs et des matrices très poussée. La plupart des algorithmes d’intelligence artificielle prennent en entrée des matrices Numpy
  • OpenCV : qui est dédiée au traitement d’images
  • SciPy : réservée aux calculs scientifiques, dont le traitement du signal (on s’en servira surtout pour la 4e partie de recherche dans la base de données)

Ouvrez une invite de commande et saisissez les lignes suivantes (suivant votre installation de Python, vous devrez remplacer « pip » par « pip3 »).

logo kerasEnsuite, il nous faudra Keras. Keras est un framework de machine learning/deep learning très connu pour simplifier l’utilisation de Tensorflow (le framework principal, développé par Google). Il est donc parfaitement adapté aux projets « simples » qui ne veulent pas s’embarrasser de trop de paramètres techniques et cherchent un résultat rapide (c’est notre cas !).

ATTENTION : veillez à bien avoir installé tensorflow OU tensorflow-gpu au préalable (mais pas les deux en même temps, et pour le GPU vous aurez besoin d’autres logiciels avant) ! N’hésitez pas à consulter notre article dédié au sujet

Pour conclure, dans notre partie bonus, nous allons voir comment utiliser le synthétiseur vocal de Windows pour faire « parler » votre ordinateur et souhaiter la bienvenue aux gens reconnus par notre IA. Il faudra donc installer les deux dépendances suivantes :

A noter que j’utilise pour coder Spyder 3, qui permet de voir ses variables, d’utiliser une console IPython et beaucoup d’autres choses encore. Je vous le recommande ou, à défaut, Jupyter Notebook (vous devrez copier/coller mon code dans ce cas) :

Et voilà, nous sommes prêts !

environnement pour reconnaissance facialeNormalement, votre environnement devrait ressembler à cette image. Attention à bien vous placer dans le répertoire face-recognition (renommé en reconnaissance-faciale sur Github) dans le cadre en haut à droite, car c’est le dossier affiché qui est utilisé par la console (en bas à droite) !

Si vous n’y êtes pas, vous aurez des erreurs au chargement des fichiers.

II. TP Reconnaissance Faciale : bien le bonjour !

Tout est téléchargé et installé, nous pouvons commencer !

Base de données d’images

N’hésitez pas à remplacer mes photos du dossier images par les vôtres, en incluant une photo de vous, mais n’en mettez pas trop car l’algorithme va rapidement perdre en prédiction. A noter également que vous pouvez mettre une ou plusieurs photos d’une même personne sans que cela pose le moindre problème.

A noter qu’il est conseillé, pour vos essais, d’utiliser des photos de personnes connues (acteurs notamment), car elles sont souvent libres de droit et vous n’aurez aucun mal à en trouver davantage !

Pour ce TP, j’ai choisi les acteurs d’Harry Potter + une photo générée par une IA sur le site thispersondoesnotexist. Remplacez librement ces photos par celles de votre choix, et idéalement ajoutez votre propre photo à la collection pour tester la caméra.

Imports

Commençons par les imports dans notre nouveau fichier « webcam-face-detection-tutorial.py » à la racine du dossier que vous avez téléchargé tout à l’heure.

Importons numpy, opencv et scipy :

Puis Keras :

La notation « import backend as K » est très souvent utilisée car elle permet de configurer plus finement notre framework. En particulier, j’ai fixé la manière qu’a Keras de voir les vecteurs : en indiquant channels_last (les channels ou canaux sont le nombre de « couleurs », 3 pour RGB ou 1 pour niveaux de gris), il s’attendra à recevoir le format (lignes, colonnes, nombre de canaux) au lieu de (nombre de canaux, lignes, colonnes).

Enfin, on va importer quelques librairies utilitaires

  • os pour aller lire le contenu des répertoires et charger les images
  • multiprocessing pour faire les prédictions dans un thread séparé et ne pas ralentir la vidéo
  • threading pour lancer l’audio (en bonus) séparément sans bloquer la vidéo ou avoir plusieurs voix en même temps
  • win32com pour récupérer la voix de Windows (en bonus)

1) Détection des visages dans une image

slides conférence La Reconnaissance Faciale (11)
IA de détection : trouver le visage en cascade

Cette première étape est cruciale, et c’est celle qu’il manquait à Woodrow Bledsoe pour que sa première IA de reconnaissance faciale soit autonome ! (des humains s’occupaient de cette étape 1).

D’après notre schéma, dans cette étape nous devons :

  • convertir l’image en niveaux de gris
  • appliquer l’algorithme HOG (Histogram of Oriented Gradients) pour simplifier l’image
  • envoyer cette image à l’algorithme Haar Cascade qui s’occupera de trouver les visages

Bien souvent, j’insiste sur la nécessité de connaître les outils que l’on emploie. En particulier, dès que l’on télécharge un modèle entraîné, il faut se demander :

  • Quelles étaient les données d’entrée ? Pour anticiper certaines failles de l’apprentissage, comme le fait que l’IA n’ait jamais vu de paysage enneigé ou sans humain
  • Quelle est la préparation qui est faite sur chaque donnée avant d’être injectée dans l’IA ? Si l’IA a été entraînée à trouver des visages dans des images en niveaux de gris, il est hors de question de lui fournir des images en couleur, car elle ne s’en sortira pas aussi bien ! De même, si les images d’entrée étaient recadrées en 224×224 pixels et normalisées entre 0 et 1, alors il faudra faire pareil, sinon le réseau de neurones convolutifs (par exemple) crashera…

Pour le Haar Cascade, j’utilise la version fournie directement par OpenCV. Or, cette version fonctionne sur des images en niveaux de gris qui n’ont PAS été traitées par l’algorithme HOG ! Cela va nous permettre d’accélérer (un tout petit peu) les calculs. Vous retrouverez un exemple de HOG en bonus à la fin.

On commence donc par charger notre fichier haarcascade et par le configurer en indiquant comment il doit fusionner les visages qu’il identifie (en effet, il va trouver plusieurs fois le même visage en décalant simplement sa zone de quelques pixels) :

Puis dans un second temps on va tracer des rectangles autour de tous les visages trouvés et on va découper l’image autour du premier.

Ici, si vous le souhaitez, vous pouvez découper tous les visages et les traiter en parallèle, rien ne vous en empêche (à part la puissance de votre ordinateur).

Grâce à cette méthode, on est donc en mesure de trouver tous les visages qui sont dans une image, de les encadrer, puis de découper l’image autour du premier (le plus en haut à gauche) pour procéder aux traitements suivants.

2) Découpage et déformation

On vient à l’instant de découper le visage qui était dans notre image. Haar Cascade centrant ses zones autour des visages, ces derniers sont automatiquement centrés et bien alignés s’ils se tiennent bien face à la caméra. Nous n’avons donc rien de particulier à faire ici, et si vous voulez retrouver le Dlib Shape Predictor (qui déforme les visages), je vous redirige sur la sections bonus.

3) Analyse du visage

On attaque le cœur de la reconnaissance faciale qui va nécessiter beaucoup de code.

Chargement du modèle VGG Face

VGG Face n’est vraiment pas évident à utiliser si l’on ne regarde pas des exemples l’utilisant déjà : parfois, il faut chercher des projets github qui utilisent un modèle pré-entraîné particulier pour comprendre ce qui est attendu en entrée et pouvoir procéder aux pré-traitements.

Ici, je me suis inspiré de ce qui était fait dans examples/cnn_vgg_face.m (sur le site de VGG Face donné précédemment) et j’ai regardé à quoi ressemblait le jeu de données d’entraînement, puis cherché des projets l’utilisant.

On se retrouve ainsi avec le code suivant qui peut être divisé en deux phases :

  • Construction du modèle de réseau convolutif qui est identique à VGG
  • Chargement des poids de toutes les variables du réseau, qui sont sauvegardées dans vgg-face.mat, et que l’on applique au modèle que l’on a réécrit
slides conférence La Reconnaissance Faciale (5)
Voici la structure de ce fameux réseau convolutif « VGG Face »

Pourquoi avoir réécrit le modèle ? Il faut savoir que lorsqu’on sauvegarde son IA, il y a deux éléments que l’on peut enregistrer (séparément) : le modèle (i.e. comment est construite notre IA, combien de couches de neurones, avec quelles fonctions mathématiques, etc…) et les variables (les poids des différentes liaisons de neurones, les filtres de convolutions, etc…). Ici, le fichier que l’on a téléchargé est celui de ces fameux poids, donc on doit écrire un réseau de neurones identique à celui qui a généré ces poids pour pouvoir l’utiliser !

Création du modèle de CNN :

Importation des poids :

Exécution des fonctions pour correctement charger le modèle et pouvoir l’utiliser :

Pour avoir une prédiction sur une image il suffira alors d’appeler (je vous encourage à essayer de comprendre par vous-même qu’est-ce que l’on met de côté après la prédiction) :

4) Trouver le vecteur le plus proche dans la base de données

Chargement de la base de données du TP

Pour accélérer les performances de notre IA, on va stocker dans notre base de données le vecteur de chaque image de la base, plutôt que chaque image (on réalise ainsi une seule fois la prédiction des images de la base).

Pour cela, c’est très simple :

  • On parcourt le dossier /images
  • Pour chaque image trouvée, on extrait le visage
  • Puis on réalise une prédiction dessus (i.e. on génère un vecteur de 128 nombres grâce à notre CNN)
  • Et on stocke ce vecteur dans un dictionnaire qui va représenter notre base de données !

Il ne reste plus qu’à faire :

pour générer les vecteurs de toute notre base.

Par exemple, pour ma photo, on a dans la base de données un vecteur de 128 mesures caractéristiques :

In [2]: db[« lambert rosique »]
Out[2]: array([1.4528134, 0. , 2.7342448, …, 0. , 0.9508694, 1.7749509], dtype=float32)

Cherchons dans la base à qui appartient cette image…

Dernière étape de notre reconnaissance faciale, on dispose d’une base de données de vecteurs et l’on cherche celui qui est le plus proche du vecteur issu de la caméra.

Plusieurs méthodes sont possibles :

  • Utiliser un algorithme de Machine Learning, qui va par exemple grouper les vecteurs dans l’espace (on parle de clustering) ou construire une frontière qui va les séparer les uns des autres (avec Support Vector Machine notamment)
  • cosine_similarity
    On mesure l’écart entre A et B soit par la distance d qui les sépare soit par l’angle teta que forment ces deux vecteurs (similarité cosinus)

    Ou alors, calculer soit la distance entre les vecteurs soit l’angle entre les vecteurs (solution que nous allons privilégier) et dire que deux vecteurs sont proches si leur angle est faible

Pour calculer cet angle, on va utiliser la fonction « dcos » (alias la similarité cosinus) de scipy qui fonctionne très bien. Par contre, en termes de « prédictions », s’il y a trop d’images dans la base de données, l’imprécision sera grande et il vaudra mieux s’orienter sur une autre approche. Dans le cadre de la distance cosinus, je vous conseillerai donc (avec ce TP), de ne pas dépasser la vingtaine d’images.

Voici le code pour calculer la distance entre deux vecteurs :

Lancement de la caméra et analyse en temps réel

Pour démarrer la caméra, nous allons utiliser cette commande d’OpenCV :

Le « 0 » signifie que l’on prend le premier périphérique caméra que l’on trouve (celui par défaut donc). Si vous souhaitez utiliser une vidéo déjà enregistrée sur votre ordinateur, il suffit de remplacer le 0 par le chemin de votre fichier ! Et si vous voulez l’appliquer à une image, il faut aller directement à la partie « traitement de l’image extraite de la vidéo ».

On va construire une fonction qui :

  • lance la caméra et récupère les frames
  • pour chaque frame, détecte la présence de visage
  • si l’ordinateur n’est pas en train d’analyser une image, alors on lui demande de trouver qui est sur la frame (dans un processus séparé pour ne pas figer l’image de la caméra le temps des calculs)
  • une fois le traitement terminé, on affiche le nom trouvé par l’algorithme sous le cadre tracé autour du visage !
  • et si vous appuyez sur la touche ECHAP vous pourrez interrompre le flux

Il ne reste alors plus qu’à appeler cette méthode, et votre IA de reconnaissance faciale sera terminée !

III. Pistes d’améliorations et bonus

Votre IA de reconnaissance faciale est terminée et fonctionnelle, bravo ! Maintenant si vous êtes là, vous souhaitez approfondir un peu le sujet ou améliorer vos résultats…

Amélioration des performances : 1 frame sur 10

Pour gagner en performances, une bonne idée est de ne pas analyser à chaque image qui est présent mais de se limiter à une image toutes les X images ou toutes les X millisecondes.

On a souvent recourt au tracking, en partant du principe qu’une personne ne va pas se « téléporter » entre deux images… Donc quelqu’un de reconnu n’a pas besoin de l’être immédiatement après, car a priori personne n’est passé devant entre temps, et il n’a pas pu disparaître.

Pour faire ça, on peut, par exemple, stocker l’emplacement des visages à un instant t et regarder à l’instant t+1 quels sont les emplacements les plus proches des emplacements précédents (généralement, quelqu’un ne bougera que de quelques pixels).

Amélioration des résultats : 3 frames consécutives

Il arrive parfois qu’une personne soit détectée dans le décor lors d’un changement de luminosité (les algorithmes ne sont ni parfaits ni optimaux). Pour ne pas tout changer, une bonne idée est d’obliger à détecter 3 fois d’affilée un visage dans l’image pour considérer qu’il y a une personne à l’écran.

Pour ça, on met simplement un compteur qui est incrémenté à chaque fois qu’il y a un visage dans l’image et réinitialisé s’il n’y en a pas. Si ce compteur vaut au moins 3, on lance l’analyse du visage de l’image (car le visage est là depuis au moins 3 images).

Amélioration des résultats : 3 noms pour une personne

Il arrive souvent que l’IA me reconnaisse, puis le temps d’une frame me confonde avec quelqu’un d’autre avant de reconsidérer que c’est moi. Pour pallier à cette forte volatilité de notre algorithme, je propose la technique suivante :

  • Analyser 3 images consécutives et réaliser 3 prédictions sur chacune d’elles
  • Le nom de la personne sera celui qui sera ressorti au moins 2 fois sur les 3 (en cas d’égalité, recommencer). Bien sûr, si un nom sort deux fois d’affilée, pas besoin d’attendre la 3e fois !

Ainsi qu’une petite fonction qui servira à lancer des fichiers audio dans la partie bonus :

Faire parler Windows !

Trouver un nom, c’est bien, saluer cette personne, c’est encore mieux.

Pour démarrer le synthétiseur vocal, il suffit d’ajouter la ligne de code suivante :

Ensuite on définit une fonction qui sera chargée de lire le texte

Et pour finir, lorsque l’on identifie une personne, on lui dit bonjour.

Attention : ce code doit être mis ailleurs si vous voulez utiliser l’une des améliorations précédentes !

Attention : en l’état, l’ordinateur va, pour chaque détection, empiler les demandes de salutation. Si la reconnaissance est plus rapide que le texte à lire, l’ordinateur risque de parler un moment… Evitez donc de lui faire dire bonjour trop souvent ! Vous pouvez par exemple mettre un décompte qui demande 20 identifications avant de parler…

Faire parler son ordinateur, la deuxième solution

Nommé PyTTSx3, ce module propose d’utiliser les voix de l’ordinateur en mode offline.

Commençons par l’installer avec

Pour écouter toutes les voix disponibles, il va falloir initialiser le module. On lui demande ensuite de prononcer un mot pour se faire une idée de l’accent, et il faudra noter l’ID de la voix choisie :

Pour choisir une voix en particulier, il faut lancer cette commande (la méthode ci-dessus n’est donc utile que pour trouver la bonne clé à mettre)

Enfin, pour lire le texte, on remplace notre méthode say_hello du paragraphe d’avant par celle-ci :

Histogram of Oriented Gradients HOG

Pour en savoir plus sur comment marche HOG exactement, je vous conseille la lecture de cet article (en anglais) sur l’histogram of oriented gradients.

Nous aurons besoin de deux librairies supplémentaires :

  • scikit-image (skimage) qui possède une méthode HOG déjà programmée
  • pillow (PIL) qui est la librairie de base pour manipuler des images (les charger notamment)

Puis le code repose sur la configuration de notre HOG (la taille des zones que l’on va considérer : 16×16, les directions de changement de couleur que l’on veut considérer : haut/bas/droite/gauche/diagonales)

Dlib shape predictor : un exemple

dlib exemple
68 marqueurs placés par le dlib shape predictor (l’image provient de « this person does not exist », une IA qui génère des visages inventés)

Pour finir ce TP, voici une mise en place de la détection des 68 points clés du visage grâce à Dlib Shape Predictor, un algorithme avec un modèle pré-entraîné à disposition (à noter que des modèles existent également pour 5 points, 68 points et même davantage) !

De plus, Dlib dispose de HOG, ce qui a le mérite de proposer une autre version du paragraphe précédent…

Enfin, veuillez noter qu’il y a toujours plusieurs manières d’aborder les choses en IA. Pour cette phase 1 de détection du visage et cette phase 2 de déformation du visage, on peut utiliser le simple Haar Cascade (rapide mais assez imprécis) ou partir sur la méthode avec dlib, voire carrément utiliser un réseau de neurones. Tout va dépendre de la criticité de la détection dans vos choix (qui seront à faire aussi pour les phase 3 et 4 !)… En tout cas, vous trouverez plus d’informations sur dlib dans le tutoriel de PyImageSearch (dont le code utilisé ici provient).

Commençons par installer ces deux librairies :

Puis le code va être organisé de cette manière :

  • Detector est le « hog » de dlib
  • Predictor va charger un modèle déjà entraîné à placer les 68 marqueurs
  • Ensuite, detector va trouver le visage dans l’image puis predictor va venir placer les marqueurs dans cette région
  • Il ne nous restera plus qu’à afficher le rectangle, et les points !

PARTAGER
Article précédentFocus : la Reconnaissance Faciale
Article suivantVivaTech 19 : une aventure humaine
Lambert R.
Ingénieur d'Etudes et Data Scientist depuis plusieurs années, mes travaux et mon parcours scolaire (master en mathématiques fondamentales) m'ont amené aux abords de l'intelligence artificielle. Aujourd'hui j'écris des articles en data science, deep learning, big data et intelligence artificielle pour PenseeArtificielle.fr, dans le but de promouvoir et vulgariser les promesses d'avenir qu'offrent ces domaines de pointe.