Nullius In Verba
  • L’intelligence artificielle est meilleure que les êtres humains pour lire sur les lèvres

    Posté le 28 mai 2018

    Deux études montrent qu’une machine peut comprendre ce que vous dites sans entendre un seul son.

    Lire sur les lèvres est notoirement difficile, dépendant autant du contexte et de la connaissance du langage que des indices visuels. Mais des chercheurs ont montré que le “machine learning” peut être utilisé pour discerner plus efficacement le discours des clips vidéos silencieux que les professionnels.

    Une équipe du département informatique de l’Université de Oxford a développé une nouvelle intelligence artificielle baptisée LipNet et basée sur un ensemble de données appelé GRID. GRID est composé d’extraits vidéos de personnes face caméra et ayant le visage bien éclairé qui lisent des phrases de 3 secondes.

    L’équipe a utilisé ce jeu de données pour entrainer un réseau de neurones, similaire à celui souvent utilisé pour la reconnaissance vocale. Mais dans ce cas le réseau de neurones identifie les variations de la forme de la bouche, apprenant à relier cette information avec ce qui peut être dit. L’IA n’analyse pas la vidéo en fragments mais dans son ensemble, permettant de comprendre le contexte de la phrase analysée. C’est important parce qu’il y a moins de formes de bouche que de sons produits par la voix humaine.

    Lors du test, le système a pu identifier correctement 93.4% des mots. Des volontaires à qui l’on a fait passer le même test ont identifié seulement 52.3% des mots.

    Une autre équipe du Department of Engineering Science de Oxford, qui a également travaillé avec Google DeepMind, a travaillé sur une tâche encore plus difficile : au lieu d’utiliser un jeu de données comme GRID, l’équipe a utilisé une série de 100 000 clips vidéo tiré d’émissions TV de la BBC. Ces vidéos comportent une gamme de langage beaucoup plus large et des variations beaucoup plus importance dans l’éclairage et les positions des têtes.

    L’intelligence artificielle a réussi dans ce cas à identifier 46.8% des mots correctement, contre 12.4% pour les humains.

    Ces 2 études montrent que l’IA surpasse largement les humains en ce qui concerne la lecture sur les lèvres. Comme application potentielle, on peut imaginer Skype qui comblerait les vides lorsque le bruit environnant serait trop élevé ou bien cela pourrait servir à des applications pour malentendants.

    Via MIT

    Laisser une réponse