Développement de modèles de reconnaissance des expressions faciales à base d'apprentissage profond pour les applications embarquées

Type d'événement
Soutenance de thèse
Thèse soutenue par Mohammad Mahdi Deramgozin

Résumé :

Le domaine de la Reconnaissance des Émotions Faciales (FER) est d'une importance capitale pour faire progresser les interactions homme-machine et trouve sa place dans de nombreuses  applications, notamment dans le domaine de la santé connecté. En utilisant des Réseaux Neuronaux Convolutifs (CNN), cette thèse présente des modèles visant à optimiser la détection et l'interprétation des émotions pour une implémentassions dans les systèmes embarqués. Le modèle initial présenté est de faible complexité et économe en ressources lui permettant de rivaliser favorablement avec les solutions  de l'état de l'art sur un nombre limité de jeux de données, ce qui en fait une bonne base pour les systèmes à ressources limitées.

Pour identifier et capturer toute la complexité et l'ambiguïté des émotions humaines, ce modèle initial est amélioré en intégrant les unités d'action faciales (AU). Cette approche affine non seulement la détection des émotions mais fournit également une interprétabilité des décisions fournies par le modèle en identifiant des AU spécifiques liées à chaque émotion.

Une amélioration significative est atteinte en introduisant des mécanismes d'attention neuronale —à la fois spatiaux et par canal— au modèle initial. Ainsi, le modèle basé sur ces mécanismes d'attention se focalise uniquement sur les caractéristiques faciales les plus saillantes. Cela permet au modèle CNN de s'adapter bien aux scénarios du monde réel, tels que des expressions faciales partiellement obscurcies ou subtiles.

La thèse aboutit à un modèle CNN optimisé  et efficace en termes de calcul et de taille mémoire, le rendant parfaitement adapté pour les environnements à ressources limitées comme les systèmes embarqués. Tout en fournissant une solution robuste pour la FER, des perspectives et voies pour des travaux futurs, tels que des applications en temps réel et des techniques avancées pour l'interprétabilité du modèle, sont également identifiées.

Date
Date de fin
Lieu

Nancy, Campus Artem, Ecole des Mines, Amphi 200