Explications de Florian Guichon, directeur des opérations de Vivoka, entreprise spécialisée dans la reconnaissance vocale.
Comment les assistants vocaux fonctionnent-ils ? Quelles sont les données recueillies et utilisées ?
Les assistants vocaux actuels sont le fruit de la synergie entre plusieurs technologies liées à la voix. En effet, derrière la simplicité apparente d’un assistant vocal, ce sont entre 5 et plusieurs dizaines de technologies impliquées. Chacun à un rôle précis :
Le mot déclencheur, comme « Ok Google » ou « Dis Siri », se spécialise dans la reconnaissance d’un mot ou d’une phrase « clé » qui permet d’activer l’assistant
Le Speech-to-Text permet, comme son nom l’indique, de transformer la voix en texte pour transcrire la commande de l’utilisateur. Ce même texte est interprété par le TALN (Traitement Automatique du Langage Naturel) qui déchiffre l’intention derrière la commande de l’utilisateur. Une fois l’intention récupérée, différents outils permettent de réaliser la commande qui peut être de différentes natures : une recherche sur internet, une action à réaliser (lumière, minuteur, chauffage, commander un repas, prendre un rendez-vous…).
Pour informer l’utilisateur de la réussite ou non de l’action, le Text-to-Speech offre une réponse vocale en transformant le texte en une voix de synthèse.
Ceci est le fonctionnement basique, de bout en bout, d’un assistant vocal. Bien sûr, selon la complexité de la commande, d’autres technologies sont impliquées afin d’atteindre le résultat attendu.
Cassons les idées reçues, tous les assistants vocaux ne recueillent pas de données, tous l’utilisent cependant. En effet, chez Vivoka nous nous spécialisons dans les technologies embarquées, c’est simple, elles fonctionnent sans internet, sans transfert de données. À l’instar des solutions Cloud qui elles récupèrent ces données et les échangent, même les solutions hors-ligne les utilisent et c’est normal. En effet, les données essentielles sont les informations contenues dans la commande de l’utilisateur, ce qu’il souhaite réaliser ou obtenir. Il s’agit du prérequis indispensable à un assistant vocal.
En dehors de cela, en fonction du fournisseur, de l’entreprise ou de la solution, la quantité et la nature des données impliquées sont très homogènes. Il peut s’agir de données personnelles (dont biométrique comme l’âge, la taille, le poids, le genre…) tout comme d’autres données fonctionnelles, par exemple les équipements de la maison, l’accès à des comptes e-commerce ou de réseaux sociaux, des services de paiements et bien d’autres.
Nos données personnelles sont-elles protégées ?
Les données personnelles sont protégées dans la mesure où l’entreprise qui est à l’origine de la solution qui les récolte est rigoureuse et transparente dans leur traitement. Les protocoles de protection de données personnelles sont nombreux, certains plus résistants que d’autres, mais il faut savoir qu’à partir du moment où ces données sensibles transitent, il y a un risque (piratages informatiques, retargeting commerciales, ou simplement vente de données par l’entreprise). C’est notamment pour cette raison que le fonctionnement en local (le fameux « embarqué » plaît aujourd’hui, car tout est réalisé dans l’appareil, sans consulter de serveurs distants.
Au-delà du transfert de données, il y aussi la question du stockage de ces dernières. En effet, pour améliorer l’expérience de l’utilisateur avec les assistants vocaux, les marques souhaitent en savoir plus sur la ou les personnes qui les utilisent. Cela permet de personnaliser le comportement de l’assistant, d’aller plus vite et avec plus de précision dans la satisfaction des besoins de ce dernier. Cependant, cela fait courir un risque de fuite des données personnelles, à quel prix donc ?
Quelles différences entre les applications françaises, européennes et étrangères ?
D’un point de vue technologique, il n’y a pas vraiment de différences. Les entreprises proposent des solutions similaires, modulo leur performance et capacités qui sont liées aux ressources qu’investissent les entreprises. Il est clair qu’encore aujourd’hui, les États-Unis restent les mastodontes dans ce domaine avec des technologies de pointe, très largement diffusées, en tout cas sur la partie Cloud, notamment de la part des GAFAM qui améliorent perpétuellement leurs algorithmes grâce aux remontées de données.
Si nous parlons d’un point de vue éthique, il faut être conscient que selon la zone géographique, les normes ne sont pas les mêmes. En effet, en France et en Europe nous sommes soumis au respect du RGPD (Règlementation Générale pour la Protection des Données) donc nous prenons en considération des pratiques claires et transparentes dans la gestion des données privées directement dans la conception des solutions. La bonne nouvelle est que des entreprises étrangères doivent aussi s’y adapter pour pouvoir exercer sur nos territoires bien que ce ne soit pas leur priorité absolue.
« Dis Siri », comment fonctionnent les mots déclencheurs ?
Les mots déclencheurs qui font la popularité des assistants vocaux aujourd’hui sont des technologies basées sur l’intelligence artificielle. Ils sont configurés pour écouter passivement ce qui les entourent et identifier uniquement le ou les mots déclencheurs qui leur ont été attribués. Ce fonctionnement est à l’origine mis en place pour réduire la charge des assistants avec un fonctionnement partiel jusqu’à l’activation mais aussi pour ne pas être constamment en écoute, ce qui pourrait donner lieu à des faux positifs, c’est-à-dire la réalisation de commandes qui n’était pas voulues.
Derrière ce fonctionnement se cache de nombreuses inquiétudes sur la fiabilité de l’écoute « passive », en effet, personne n’est réellement sûr, au-delà des engagements des marques, que les assistants vocaux n’écoutent et n’enregistrent pas en permanence. Encore une fois, l’embarqué n’est pas si mal pour avoir l’esprit tranquille !