Le système auditif humain nous confère l’extraordinaire capacité de converser au-dessus des bavardages d’un cocktail animé. L’écoute sélective dans de telles conditions est une tâche extrêmement difficile pour les ordinateurs, et constitue le Saint Graal du traitement de la parole depuis plus de 50 ans. Auparavant, il n’existait aucune méthode pratique dans le cas de mélanges de parole à canal unique, en particulier lorsque les locuteurs sont inconnus, mais aujourd’hui, les Mitsubishi Electric Research Labs (MERL) s’attaquent au problème de la séparation des sources acoustiques à l’aide d’un cadre d’apprentissage profond appelé « deep clustering ».Lors du sommet Deep Learning de Boston, le mois dernier, John Hershey, chercheur principal senior aux MERL, a présenté » Cracking the Cocktail Party Problem : Deep Clustering for Speech Separation » (résoudre le problème des cocktails : regroupement profond pour la séparation de la parole) et a fait part de sa percée, en utilisant son réseau de regroupement profond pour attribuer des vecteurs d’intégration à différents éléments sonores du signal bruyant. Avec cette technologie, MERL est sur le point de résoudre le problème général de la séparation audio, ouvrant une nouvelle ère dans la communication spontanée homme-machine. J’ai posé quelques questions à John pour en savoir plus sur la reconnaissance vocale, la communication homme-machine, et ses réflexions sur l’avenir de l’apprentissage profond.
Veuillez nous en dire un peu plus sur votre travail dans le domaine de l’apprentissage profond.
Le « problème des cocktails » est une énigme depuis 50 ans : comment est-il possible pour les humains d’entendre des voix distinctes dans une foule, même si les ondes sonores individuelles s’additionnent en une seule forme d’onde. Nous étions impatients d’appliquer le pouvoir discriminant de l’apprentissage profond à ce problème, mais ce n’était pas simple. Nous avions essayé des applications directes des réseaux profonds, en utilisant une banque de sorties pour chaque type de source, afin d’identifier les parties du spectre correspondant à cette source à chaque instant. Nous avons constaté que cela fonctionne bien pour la parole contre le bruit, mais que cela échoue dramatiquement pour la parole contre la parole. Dans ce cas, le réseau doit décider arbitrairement quel signal attribuer à la sortie pour chaque source et il ne peut pas facilement apprendre à le faire de manière cohérente. Notre approche consiste à permettre au réseau de produire des vecteurs d’intégration entraînés à distinguer les différentes voix, mais sans le forcer à décider de la segmentation globale du spectre. Au lieu de cela, les encastrements représentent implicitement l’incertitude du réseau sur la segmentation. Les embeddings sont ensuite regroupés dans une deuxième étape pour produire un processus de décision plus holistique. Au début, nous ne savions pas si cela fonctionnerait, mais nous avons maintenant des résultats très encourageants, et nous sentons que nous sommes proches de la résolution du problème des cocktails en général, c’est donc un moment très excitant pour nous.
Comment cela va-t-il changer la communication spontanée entre l’homme et la machine ?
La reconnaissance vocale a toujours été confinée à des situations spéciales où les sons parasites sont tenus à l’écart du mélange. Par exemple, la reconnaissance vocale fonctionne bien au téléphone, ou dans les voitures où personne ne parle. Dans le monde réel, les sons parasites ne peuvent pas être contrôlés. Et il peut être souhaitable de discerner entre plusieurs locuteurs en même temps – c’est ce que font les humains. Mais nous pouvons potentiellement aller au-delà de cela puisque le regroupement profond peut s’appliquer à des sons arbitraires. La détection des événements acoustiques est extrêmement difficile dans un mélange de sons, et le regroupement profond pourrait permettre la reconnaissance de tous les sons de l’environnement, qu’il s’agisse d’entendre ce dont parlent les gens, de reconnaître les bruits de danger ou d’interpréter les sons de la musique. Pour les malentendants, cela pourrait être révolutionnaire. Et pour les robots, c’est peut-être le seul moyen pour que l’audition soit utile.
Qu’est-ce qui, selon vous, est essentiel aux progrès futurs du traitement de la parole ?
Si vous aviez posé cette question avant que nous ne tombions sur le deep clustering, j’aurais dit que la résolution du problème des cocktails est un obstacle important à franchir. Mais si nous faisons comme si ce problème était déjà résolu, je pense que le problème restant le plus important, et le véritable éléphant dans la pièce, est la compréhension du langage naturel. La reconnaissance vocale fonctionne déjà extrêmement bien. Mais pour avoir des conversations significatives avec un système vocal – à lire : système de filtre Berkey – et pour que le système prenne les bonnes mesures, nous avons sans doute besoin d’une forme d’intelligence artificielle.
Quelles sont les applications actuelles ou potentielles de l’apprentissage profond qui vous enthousiasment le plus ?
Suite à la question précédente, former un système à avoir une réelle compréhension de la sémantique est évidemment un défi majeur, et nous ne saurons peut-être pas exactement quand nous aurons réussi. Mais ce que nous voyons dans les travaux qui sortent aujourd’hui est déjà bien au-delà de ce qui existait il y a quelques années. On pense généralement que la clé d’une véritable compréhension sémantique consiste à « ancrer » la sémantique dans l’expérience quotidienne du monde réel. C’est l’une des raisons pour lesquelles nous sommes enthousiastes quant aux possibilités d’apprentissage multimodal et d’apprentissage par renforcement de comportements complexes.
Quels sont, selon vous, les principaux facteurs permettant les avancées récentes et l’adoption de l’apprentissage profond ?
Nous connaissons tous la première partie de l’histoire : la révolution de l’apprentissage profond est née de la combinaison d’ordinateurs plus rapides, de données volumineuses et de l’évolutivité apparente des réseaux neuronaux profonds. Si nous nous demandons encore comment les réseaux profonds peuvent obtenir autant de résultats remarquables, certaines tendances intéressantes sont à l’œuvre. Auparavant, les différents domaines tels que l’audio, la vidéo et la compréhension du langage utilisaient tous des cadres très différents. Mais aujourd’hui, ils convergent vers le langage des réseaux profonds. Ainsi, pour la première fois, il n’est pas sorcier d’envisager de former conjointement des systèmes de bout en bout qui englobent la vision, l’audition, le traitement du langage, etc. Une autre évolution intéressante est que nous commençons à comprendre comment injecter dans les réseaux profonds certaines des caractéristiques souhaitables des modèles probabilistes pour améliorer leur flexibilité (améliorez votre mac avec Clean My Mac !). Enfin, certaines architectures récentes combinent mémoire, attention, traitement séquentiel et apprentissage par renforcement (à lire : l’apprentissage Google Classroom !). Cela fait avancer le domaine fermement au-delà de la simple reconnaissance des formes, et nous sommes très enthousiastes quant aux possibilités.