Un grand nombre
d’avancées technologiques ont vu le jour au cours de ces dernières années, ce
qui a considérablement changé notre façon de consommer ou même d’interagir dans
notre vie quotidienne. La voix a eu un très fort impact dans notre quotidien,
avec l’arrivée des assistants vocaux. Ces petits objets sont contrôlés par la
voix, qui aurait pensé, il y a quelques années que cela nous permettra d’avoir
accès à de nombreuses demandes, seulement en la prononçant.
En 2019, Juniper
estimait à 3,25 milliards le nombre d’assistants vocaux en circulation. Il en
prévoit plus de 8 milliards en 2023. Sachant que plusieurs études démontrent
que la population mondiale compterait dans les environs de 8 milliards
d’habitants dans trois ans. Cela indique l’étendue de la place que va prendre
le marché des interfaces vocales.
Pour interagir avec
les assistants vocaux, il suffit d’énoncer le Wake up Word (WuW), il s’agit du
petit mot qui va permettre de réveiller l’assistant pour qu’il puisse par la
suite écouter notre demande. Le processus qui va lui permettre de comprendre
notre demande est appelé Automated Speech Recognition (ASR), c’est le processus
qui va permettre de convertir le langage voix en langage texte. Après cela, il
faut qu’il interprète la demande, c’est encore un autre processus qui fait son
entrée : Natural Langage Understanding (NLU), il va analyser chaque mot
qui a été reconnu par l’ASR pour en déduire une action, qui sera exécutée par
la suite.
Étant quand même un
concept relativement nouveau, ce dernier doit encore subir des améliorations. Il
réussit à les mettre en place par le biais des erreurs qu’il réalise. Ce qui
confirme le célèbre dicton qui dit « que l’on apprend de ses
erreurs », cela est possible grâce au concept de machine learning. Ce
concept permet d’améliorer les performances du programme en l’enrichissant
d’une très importante quantité de données. Le même concept est utilisé en ce
qui concerne la reconnaissance visuelle.
La technologie est un aspect de la société qui
ne cesse d’évoluer, pourtant certaines limites ne sont pas à dépasser, il faut
bien choisir qu’elles soient les sources de données de ces machines learning. Pour
prendre un exemple qui sait dérouler dans le passé, un bot nommé Tay à été mis
en place sur les réseaux sociaux. Il se servait des réponses des internautes
pour apprendre de nouvelles choses, mais au bout de seulement quelques heures,
Tay était devenu sexiste, raciste et avait des idées terroristes. Il a donc dû
être retiré rapidement. Il faut aussi faire attention en ce qui concerne la
récupération des données, qui est un sujet extrêmement sensible aujourd’hui
d’un point de vue éthique.