Fermer
Pascal de Rauglaudre
Focus | 5 mars
9 mn
Faites un vœu à voix haute, et hop ! Un objet connecté l’exaucera. Science fiction ? Pas du tout : cet objet existe déjà et il s’appelle Echo. Conçu par Amazon, il a la forme d'une enceinte cylindrique qui obéit à la voix : il suffit de dire « Alexa », le nom du système d’exploitation, et de faire une demande. Pour l'instant, Echo trouve des chansons et des stations de radio, réserve un taxi, commande des produits, contrôle des objets intelligents, allume des lumières et raconte même des blagues. Jamais la technologie n’a été aussi proche de la magie. Avant Noël, 4 % des foyers américains étaient déjà équipés d’Echo.
On connaissait déjà les assistants vocaux des smartphones. Siri, la voix des iPhones, enregistre 2 milliards de commandes par semaine, et sur Android, 20 % des recherches Google aux Etats-Unis se font désormais par la voix. Dicter des emails et des SMS est devenu suffisamment fiable. Alors pourquoi taper s’il suffit de parler ?
C’est une vraie révolution. « Voice is the new search », clame Google depuis des mois, et au Consumer Electronic Show à Las Vegas en janvier, la voix était la reine du show. Amazon est le plus avancé, mais Google, Microsoft, Samsung, Facebook, et même Mattel et Lenovo ont tous dans leurs cartons des projets d’assistants personnels commandés par la voix.
La voix transforme les échanges avec les technologies en interactions parfaitement naturelles. Les fenêtres, les icônes, les menus et les écrans interactifs constituaient déjà des formes primitives d’échange avec les ordinateurs, mais quand on peut parler à une machine, plus besoin d’interface utilisateur. Comme les voitures, qui sont bien plus que des calèches sans chevaux, et les téléphones portables, qui sont bien plus que des téléphones sans fil, les ordinateurs sans écrans ni claviers ont un potentiel immense.
La voix va jouer un rôle de plus en plus important dans nos interactions avec toutes les machines qui nous entourent.
La voix ne remplacera pas toutes les formes d’interaction. Dialoguer avec une machine via un clavier plutôt qu’avec la voix ne va pas disparaître du jour au lendemain, et Amazon travaillerait sur une boîte Echo avec écran intégré. Mais la voix va jouer un rôle de plus en plus important dans nos interactions avec toutes les machines qui nous entourent, depuis les machines à laver qui disent combien de temps il reste avant la fin d’un cycle jusqu’aux assistants virtuels des call centers.
Mais avant d’atteindre son plein potentiel, la technologie vocale doit encore faire quelques progrès.

Le deep learning au secours de la voix

La transcription automatique existe déjà depuis longtemps, mais elle n’était pas complètement fiable et ses utilisateurs devaient suivre des process fastidieux pour apprendre à l’ordinateur à identifier leur voix. Les ordinateurs actuels peuvent reconnaître la plupart des voix grâce à la puissance du deep learning, une technologie d’intelligence artificielle où un logiciel va puiser dans des millions d’exemples disponibles sur Internet.
Les machines sont donc presque à égalité avec les hommes dans la précision des transcriptions, les systèmes de traduction automatique s’améliorent rapidement et les systèmes text-to-speech deviennent moins robotiques et plus naturels. Pour faire court, les ordinateurs deviennent donc bien plus performants pour traiter le langage naturel dans toute sa variété.
Reste le problème le plus complexe à surmonter : même si le deep learning permet aux ordinateurs de mieux reconnaître des paroles et de parler de façon moins saccadée, les ordinateurs ne peuvent pas encore comprendre le sens du langage. Si la technologie vocale doit avoir un futur, les ordinateurs doivent donc aller bien au-delà des simples commandes vocales d’aujourd’hui (« Siri, trouve-moi un restaurant chinois ») et comprendre le contexte d’une conversation pour y participer.
Amazon offre un million de dollars à qui concevra un robot capable d’avoir une conversation normale pendant 20 minutes.
Dans la Silicon Valley, les chercheurs développent déjà des chatbots capables de soutenir des conversations plus sophistiquées sur des tâches complexes, comme la recherche d’informations, les conseils bancaires, la préparation de voyages, la recherche d‘emploi. Amazon offre un million de dollars à celui qui saura concevoir un robot capable d’avoir une conversation normale pendant 20 minutes.

Un micro partout dans la maison

Les consommateurs et les régulateurs ont aussi un rôle à jouer dans le développement des technologies vocales. Car celles-ci soulèvent un dilemme : les systèmes à commande vocale sont plus utiles quand ils sont personnalisés, et donnent accès à des données personnelles comme les calendriers, les emails et d’autres informations sensibles. Ce qui pose la question de la sécurité et de la protection de la vie privée.
Pour compliquer un peu plus les choses, beaucoup d’objets à commande vocale sont prévus pour rester en veille, attendant un mot pour être activés (« Alexa », « OK Google », « Hey Siri »). D’où les réticences des utilisateurs, inquiets d’avoir dans chaque pièce de leur maison des microphones connectés en permanence. Qui conservera les fichiers sons produits ? Pendant combien de temps ? Et où seront-ils stockés ?
L'année dernière, la police américaine, dans une enquête sur un meurtre dans l’Arkansas, a exigé qu’Amazon lui donne accès à tous les fichiers audio susceptibles d’être capturés par Echo pendant le meurtre. Amazon a refusé, sous prétexte que ce type de demande n’était pas encadré par la loi. Un refus qui rappelle celui d’Apple, quand au début de l'année 2016, le FBI avait exigé d’accéder au contenu d’un iPhone après un acte terroriste.
Quoi qu’il arrive, même si ces questions de droit ne sont pas résolues, les consommateurs vont se ruer sur la technologie vocale, tout simplement parce que la voix est plus pratique et naturelle que n’importe quel autre média. Elle peut être utilisée en faisant autre chose, conduire, faire du sport, marcher… Elle permet à tout le monde d’utiliser facilement des écrans et des claviers. Elle pourrait transformer le langage lui-même, et rendre inutile l’apprentissage d’une langue étrangère, grâce aux traductions automatiques simultanées.
Les écrans tactiles avaient simplifié les façons d’échanger avec les ordinateurs. La voix va les révolutionner.
Crédits photo : DR
Partager :
Article paru dans le numéro #131 VOCAL
Recevoir le magazine Inscrivez-vous pour recevoir chaque semaine l'essentiel de la culture, du business et de l'art de vivre.
Fermer
La voix est l'avenir de l'ordinateur à un ami.
(*) Obligatoire
Fermer
Modifiez votre mot de passe
Fermer
Veuillez saisir votre identifiant
Fermer
Fermer
Bienvenue sur Pluris
Inscrivez-vous pour rejoindre
la communauté Pluris et recevoir chaque semaine le magazine.
Créer un compte avec un email
Bienvenue sur Pluris
, complétez le formulaire pour terminer votre inscription.