Modélisation acoustique
Comme nous l'avons vu précédemment, la reconnaissance de la parole statistique consiste à trouver la séquence de mots telle que :
avec une séquence de mots et une séquence d'observations acoustiques (c'est-à-dire une séquence de vecteur de paramètres acoustiques étudiés dans le chapitre précédent).
En appliquant la règle de Bayes à la formule précédente, nous obtenons :
Comme la séquence d'observations est invariante, la probabilité est la même quelque soit la séquence de mots considérée et donc n'a aucune incidence sur la recherche de . Ainsi, nous pouvons écrire :
Deux termes apparaissent dans cette formule :
, qui est la probabilité d'apparition de la séquence d'observations acoustiques lorsque la séquence de mots est prononcée.
, qui est la probabilité que la séquence de mots soit générée dans la langue visée.
Si est fournie par un modèle de langage, est fournie par des modèles acoustiques, dont nous allons étudier les fondements dans ce chapitre.
Que modéliser ?
Au premier abord, il pourrait sembler naturel que pour obtenir la probabilité nous analysions le signal de parole correspondant à chacun des mots de la langue que nous souhaitons reconnaître. Très vite nous constaterions la nécessité de détenir, pour chacun des mots, des enregistrements audio nous permettant de réaliser une étude statistique pour calculer la probabilité . Or, ceci est quasiment impossible : il n'existe pas suffisamment d'enregistrements audio avec leur transcription manuelles. De plus, une bonne modélisation d'un mot ne peut reposer que sur de nombreuses observations de ce mot : il faudrait détenir plusieurs enregistrements pour chacun des mots que l'on souhaite reconnaître, dans différentes conditions acoustiques, et prononcé par un grand nombre de locuteurs différents.
Pour surmonter cette limitation, une solution consiste à ne pas chercher à construire des modèles acoustiques au niveau des mots, mais à un niveau sublexical. L'unité de modélisation acoustique la plus utilisée est le phonème, qui constitue l'unité de sons produits dans une langue parlée. D'autres unités, comme la syllabe, ont pu également être utilisées.
Le phonème : une unité symbolique
Pour indiquer comment se prononce un mot, on utilise un ensemble de symboles, que l'on appelle phonèmes. Chaque phonème représente un son ou une 'famille de sons' discriminant dans une langue : un phonème est le symbole d'un son qui permet a minima de différencier deux mots. Par exemple, le son /r/ et le son /p/ permettent de distinguer les mots 'roule' et 'poule'. On parle de paire minimale pour ces paires de mots utiles pour déterminer le jeu de phonèmes d'une langue.
Cependant, il faut bien garder à l'esprit qu'un phonème est une représentation symbolique : plusieurs réalisations sonores peuvent correspondre à un même phonème. Ces réalisations sonores diffèrent d'un locuteur à un autre, voire même d'un mot à un autre pour un même locuteur. Des différences très sensibles de réalisations peuvent être associés au même phonème, comme pour le phonème /r/ qui peut représenter un [r] normal ('parisien') ou un [r] roulé (sud-ouest de la France, Afrique).
Les phonèmes sont dépendants de la langue : chaque langue possède son jeu de phonèmes. En français, il en existe un peu plus environ 36, comme par exemple ceux présentés dans le tableau suivant :

Avec seulement 36 unités symboliques permettant de décomposer l'acoustique de tous les mots du français, le phonème correspond à un niveau sublexical très intéressant à modéliser acoustiquement.
Coarticulation et assimilation
Comme nous l'avons évoqué précédemment, un même phonème correspond à des réalisations sonores différentes d'un mot à un autre, y compris pour un même locuteur.
C'est le cas par exemple du phonème /b/. Dans le mot 'biberon', il fait référence au son [b], alors que dans le mot 'obstacle', il fera référence au son [p]. Ce phénomène n'est pas réellement audible sans y prêter particulièrement attention, et vient du fait que la prononciation d'un phonème est dépendant des phonèmes qui l'entoure. Ceci s'explique par les contraintes de l'appareil phonologique humain et doit être pris en compte lors de la modélisation acoustique.
Un autre phénomène du même ordre est à prendre en considération : le phénomène d'assimilation, qui consiste en l'acquisition par un phonème des traits acoustiques de son voisin. Par exemple, la phrase "je suis là" se prononce "je sui la", mais peut également se prononcer [chui la]. Dans ce cas, on parle d'assimilation entre les phonèmes /j/ et /s/ qui produisent conjointement le son [ch].
Unité de modélisation : le phonème en contexte (ou triphone)
Comme nous venons de le voir, la modélisation des phonèmes nécessite de considérer, parmi d'autres, les phénomènes de coarticulation et d'assimilation.
Pour cela, ce ne sont pas les phonèmes seuls qui seront modélisés, mais des phonèmes situés en contexte, c'est-à-dire que chaque phonème sera modélisé en fonction de son voisin de gauche et de son voisin de droite : on parle de triphone. À ses voisins, il est possible d'ajouter la position du phonème dans le mot, ce qui est particulièrement utile pour les langues accentuelles (stress en anglais par exemple).
Considérons qu’il existe en français 36 phonèmes à modéliser. Si sont pris en compte les différents contextes (au plus, contextes gauches et droits par phonème) et la position du phonème dans un mot (4 positions possibles : début, milieu, fin ou seul), on calcule qu’il y a au plus triphones possibles. Ce nombre est probablement trop important pour assurer une bonne modélisation statistique, car il nécessite un très grand corpus d'apprentissage pour un nombre suffisant élevé de fois chacun des triphones. Heureusement, ce nombre est purement théorique. En pratique, il existe environ 9000 triphones en français : les autres correspondent à des combinaisons impossibles.
Ainsi, un modèle acoustique visera à modéliser un triphone. Il y aura autant de modèles acoustiques que de triphones.
Le passage du niveau phonémique au niveau lexical : des phonèmes aux mots
Ce point sera étudié en TP.
Les modèles de Markov cachés (HMM : Hidden Markov Models)
Pendant des années, les modèles acoustiques utilisés pour la reconnaissance de la parole ont principalement été construits à partir de modèles de Markov (HMM). Les HMM sont des automates probabilistes à états finis qui permettent de calculer la probabilité d’émettre une séquence d’observations.
Pour modéliser les phonèmes, nous construirons autant d'HMM qu'il y a de triphones à modéliser.
Hypothèse markovienne : quasi-stationnarité de la parole
Pour un système de transcription automatique de la parole, les émissions sont les vecteurs de caractéristiques du signal de parole (vus dans le chapitre précédent) et les HMM respectent l’hypothèse markovienne d’ordre 1 : la connaissance du passé se résume à celle du dernier état occupé.
Comme nous l'avons vu, pour capter certains comportements et évolutions du signal dans le temps, on intègre dans les vecteurs de caractéristiques du signal les dérivées premières et secondes des coefficients MFCC.
Les systèmes de reconnaissance de la parole à base de HMM reposent ainsi sur les postulats suivants :
la parole est une suite d’états stationnaires, représentés par des vecteurs de MFCC et leur dérivées premières et secondes,
l’émission d’une séquence de ces vecteurs est générée par un HMM respectant l’hypothèse markovienne d’ordre 1.
Architecture générale d'un modèle de Markov
La figure suivante présente un exemple de HMM, avec une topologie courante (modèle gauche-droit, avec saut d’état possible).

À chaque intervalle de temps, un HMM transite d’un état à un état (avec : un état peut boucler sur lui-même) avec une probabilité discrète . À chaque instant un état est atteint et une émission est générée, associée à une densité de probabilité .
L’apprentissage d’un modèle acoustique revient alors principalement à estimer les paramètres suivants :
les probabilités d’émissions des observations pour chaque état; il s’agit généralement de mélanges de densités de probabilités gaussiennes, définies par leurs vecteurs de moyennes, leurs matrices de covariances (en pratique il s’agit de matrices diagonales), et une pondération associée à chaque densité de probabilité ;
les probabilités discrètes qui définissent la topologie du HMM en indiquant la probabilité de transition d’un état vers un autre.
Plus formellement, chaque HMM est composé :
d'un ensemble d'états , dont le nombre (la cardinalité) est choisi empiriquement ('à la main') ;
d'un ensemble de probabilités discrètes pour aller de l'état à l'état () ;
d'un ensemble de distributions de probabilité d'émission, avec une distribution de probabilité dépendante de l'état pour chaque état du HMM ;
et d'un ensemble de probabilités initiales sur les états , donnant la probabilité pour chaque état d'être l'état initial du HMM.
Ainsi, un HMM est défini par le quadruplet .
Les modèles de mélanges gaussiens (GMM : Gaussian Mixture Models)
Les probabilités d'émission sont soit des distributions discrètes (qui nécessitent moins de calcul mais dont les performances sont moins bonnes), soient des mélanges de fonctions de densité continues. Les modèles probabilistes qui ont été les plus utilisés les dix dernières années avant l'avènement des DNN sont les modèles construits sur les fonctions de densité de probabilité continues multi-gaussiennes, nommés modèles de mélanges gaussiens (GMM).
Avec les GMM, la vraisemblance de l'émission à l'instant pour l'état d'un HMM s'écrit :
avec :
la sortie à l'instant
le nombre de composants du mélange (le nombre de Gaussiennes)
le coefficient de pondération du composant du mélange pour le état
est une fonction de densité Gaussienne à variables multiples, telle que:
\hat{\Lambda}= argmax{\Lambda} L(\Lambda|X) = argmax{\Lambda} \sum{Y\in\mathcal{Y}} \prod{t=1}^m b{y(t)}(\mathbf{x}_t) T{y(t),y(t+1)}
\hat{T}{i,j}=\frac{\sum{r=1}^{R}\frac{1}{Lr}\sum{t=1}^{Mr-1}\alpha_i^r(t)T{i,j}bj(\mathbf{x}{t+1}^r)\betaj^r(t+1)}{\sum{r=1}^{R}\frac{1}{Lr}\sum{t=1}^{Tr-1}\alpha_i^r(t)T{i,j}\beta_i^r(t)}
est la probabilité backward de l'état du HMM à l'instant de la séquence d'observation
est la vraisemblance totale de la séquence d'observation , obtenue avec l'algorithme forward-backward. Nous supposons qu'il n'existe qu'un seul état initial et qu'un seul état final ; dans ce cas, avec le nombre d'états dans le HMM. peut être considérée comme la somme des vraisemblances de tous les chemins reliant l'instant inital à l'instant final en consommant chaque vecteur d'observation.
Estimer la fonction de probabilité d'émission pour l'état et l'observation revient à estimer les paramètres du GMM correspondant.
L'utilisation de l'algorithme de Baum-Welch pour l'estimation par maximum de vraisemblance implique les formules suivantes :
\hat{\boldsymbol \mu}{q,i} = \frac{\sum{r=1}^R\sum{t=1}^{T_r} \gamma{q,i}^r(t)\mathbf{x}t^r}{\sum{r=1}^R\sum{t=1}^{T_r} \gamma{q,i}^r(t)}
étant la probabilité d'occupation de l'état par le composant du mélange gaussien (la Gaussienne) à l'instant , et étant la probabilité d'occupation de l'état à l'instant définie par : . La réestimation de l'ensemble des paramètres est répétée aussi longtemps que augmente suffisament à chaque itération du processus.
Adaptation des modèles acoustiques gaussiens
Sera traité lors de la prochaine séance.
Les réseaux de neurones profonds
Sera traité lors de la prochaine séance.
Apprentissage automatique des modèles acoustiques neuronaux
Sera traité lors de la prochaine séance.
Adaptation des modèles acoustiques neuronaux
Sera traité lors de la prochaine séance.
Last updated
Was this helpful?