Note: Descriptions are shown in the official language in which they were submitted.
Fax émis ~aar : THOMSOH CSF TPI 15/18/81 12:17 Prx: 2/21
CA 02359411 2001-10-17
e
a
' 1
La présente invention concerne un procédé de codage de la
parple à très bas débit et le système associé_ Elle s'applique notamment
pour des systèmes de codage-décodage de la parole par indexation d'unités
de taille variable_
Le procédé de codage de la parole mis en oeuvre à bas débit, par
exemple de l'ordre de 2400 bitsls, est généralement celui du vocodeur
utilisant un modèle totalement paramétrique du signal de parole. Les
vo paramètres utilisés concernent le voisement qui décrit 1e caractère
périodique ou aléatoire du signal, la fréquence fondamentale des sons voisés
encore connue sous le vocable anglo-saxon n PITCH '>, l'évolution
temporelle de l'énergie, ainsi que l'enveioppe spectrale du signal
généralement modélisée par un filtre LPC {abréviation anglo-saxonne de
~ 5 Linear Predictive Coding).
Ces différents paramètres sont estimés périodiquement sur le
signal de parole, typiquement toutes les 10 à 30 ms. Ils sont élaborés au
niveau d'un dispositif d'analyse et sont généralement transmis à distance en
direction d'un dispositif de synthèse reproduisant 1e signal de parole à
partir
20 de la valeur quantifiée des paramètres du modèle_
Jusqu'à présent, ie plus bas débit normalisé pour un codeur de
parole utilisant cette technique est de 800 bitsls. Ce codeur, normalisé en
1994 est décrit par le standard QTAN STRNAG 4479 et dans l'article intitulé
K NA~O STANAG 44¿9 : A standard for an 800 bps vocoder and channel
coding in HF-ECCM system ", IEi=E Int_ Conf. on ASSP, Detroit, pp 480-483,
May 1995 ayant pour auteurs Mouy, B_, De La Noue, P., et .Goudezeune,G. II
repose sur une technique d'analyse trame par trame (22.5 ms) de type
LPC 10 et exploite au maximum la redondance temporelle du signal de
parole en regroupant les trames 3 par 3 avant encodage des paramètres_
3o Bien qu'intelligible, la parole reproduite par ces techniques de
codage est d'assez mauvaise qualité et n'est plus acceptable à partir du
moment où le débit est inférieur à 800 bitsls.
Fax émis par : THOMSOH cSF TPI 15/18/81 12:17 Pq: 3/Z1
CA 02359411 2001-10-17
s
Une manière de réduire le débit est d'utilisér les vpcodeurs
segmentaux de type phonétiques avec dis segments de durée variable qui
combinent des principes de reconnaissance et de synthèse de la parole.
La procédure d'encodage utilise essentiellement un systéme de
reconnaissance automatique de la parole en flot continu, qui segmente et
« étiquète » le signal de parole selon un nombre d'unités de parole de taille
variable, Ces unités phonétiques sont codées par indexation dans ur~ petit
dictionnaire. Le décodage repose sur le principe de la synthèse de la parole
par concaténation à partir de l'index des unités phonétiques et de la
prosodie. Le terme « prosodie » regroupe principalement les paramètres
suivants v l'énergie du signal, !e pitch, une information de voisement et
éventuellement le rythme temporel.
Toutefois, le développement des codeurs phonétiques nécessite
des connaissances importances en phonétique et en liguistique, ainsi qu'une
~ 5 phase de transcription phonétique d'une base de données d'apprentissage
qui est coüteuse et qui peut ètre ia source d'erreurs. De plus, les codeurs
phonétiques s'adaptent difficilement à une nouvelle langue ou à un nouveau
locuteur.
Une autre technique, décrite par exemple dans la thèse de
20 J.Gernocky, intitulée « Speech Processing Using Automatically Derived
Segmentai Units v Applications to very Low Rate Goding and Speaker
Verification » de l'Université Paris Xl Qrsay, décembre 199$ permet de
contourner (ss problèmes liès à la transcription phonétique de la base de
données d'apprentissage en déterminant les unités de parole de -féçvn
25 automatique et indépendamment de la tangue.
Le fonctionnement de ce type de codeur se décompose
principalement ers deux étapes = une étape d'apprentissage et une étape de
codage-décodage décrites à la figure 1 _
Lors de l'étape d'apprentissage (fïgure 1 ), une procédure
~0 automatique détermine par exemple après une analyse paramétrique 1 et
une étape de segmentation 2, un ensemble de 64 classes d'unités
acoustiques désignées « UA ». A chacune de ces classes d'unités
acoustiques est associé un modèle statistique 3, de type modéle de Mar'kov
(WMM ai~réviation anglo-saxonne de Hidden Markov Model), ainsi qu'un petit
Fax émis tsar : TNOMSON CSF TPI 15/10/81 12:17 Pqr: 4/21
CA 02359411 2001-10-17
x '
3
nombre d'unités représentantes d'une Classe, dlésignées sous lé terme
u représentants » 4. Dans le système actuel, les représentants sont
simplement les S unités les plus longues appartenant à une mème classe
acoustique. Ils peuvent également étre déterminés comme étant les N unités
s plus représentatives de l'unité acoustique. Lors du codage d'un signal de
parole après une étape d'analyse paramétrique 5 permettant d'obtenir
notamment les paramètres spectraux, les énergies, le pitch, une procédure
de reconnaïssance (6, 7), à l'aide d'un algorithme de Vïterbi, détermine la
succession d'unités acoustiques du signa! de parole et identifie le « meilleur
~ o représentant » à utiliser pour la synthèse de parole_ Ce choix sa fait par
exemple en utilisant un critère de distance spectrale, tel que l'algorithme de
DTW (abréviation anglo-saxonne de Dynamic Time Warping).
Le numéro de la classe acoustique, l'indice de cette unité représentante , la
longueur du segment, le contenu de DiIN et les informations prosodiques
i 5 issues de l'analyse paramétrique sont transmises au décodeur. La synthèse
de la parole se fait par concaténation des meilleurs représentants,
éventuellement en utilisant un synthëtiseur paramétrique de type LPC_
Pour concaténer les représentants lors du décodage de la parole,
on fait appel, par exemple, à un procédé d'analyselsynthèse paramétrique de
20 la parole_ Ce procédé paramétrique permet notamrnent des modificatïons de
prosodie telles que l'ëvolution temporelle, la fréquence fondamentale ou
pitch, par rapport à une sïrnple concaténation de formes d'onde.
Le modèle paramétrique de parole utilisé par le procédé
d'analyselsynthèse peut ètre à excitation binaire voisé! non voïsé de type
25 LPC 10 tel que décrit dans le document intitulé u The government standard
lïnear predictive coding 2~Igorithm : l_PC-1 Cl » de -r.Tremain publié dans la
revue Speech Technology, vol.1, n°2, pp 40-49. w
Cette technique permet de coder l'enveloppe spectrale du signal
en 185 bitsls environ pour un système monolocuteur, pour une moyenne
3o d'environ 21 segments par seconde_
Dans la suite de la description les termes ci-aprés ont les
significations suivantes
le terme K représentant » correspond à l'un des segments de la base
d'apprentissage qui a été jugé représentatif d'une des classes d'unités
35 acoustique,
Fax émis par : THOMSOH CSF TPI 15/10/01 12:17 Pq: 5/21
CA 02359411 2001-10-17
4
. ~- l'expression « segment reconnu » correspond à un segment de la .parole
qui a été identifié comme appartenant à l'une des classes acoustiques,
par le codeur,
l'expression « meilleur représentant » désigne le représentant déterminé
au niveau du codage qui représente 1e mieux le segment reconnu.
L'objet de la présente invention concerne un procédé de codage,
décodage de la prosodie pour un codeur de parole à trés bas débit utilisant
notamment les meilleurs représentants.
II concerne aussi la compression de données.
L'invention concerne un procédé de codage-décodage de la parole
utilisant un codeur à trés bas débit comprenant une étape d'apprentissage
permettant d'identifier des « représentants » du signal de parole et une étape
de codage pour segmenter (e signal de parole et déterminer le « meilleur
~ s représentant » associé é chaque segment reconnu. li est caractérisé en ce
qu'il comporte au moïns une étape de codage-décodage d'un des
paramètres au moins de fa prosodie des segments reconnus, tel que
l'énergie etlou le pitch etlou le voisement etlou la longueur des segments, en
utilisant une information de prosodie des « meilleurs représentants ».
2o L'information de prosodie des représentants utilisée est par
exemple le contour d'énergie ou le voisement ou la langueur des segments
ou le pitch_ .
L'ëtape de codage de la longueur des segments reconnus
consiste par exemple à coder la différence de longueur entre la longueur
25 d'un segment reconnu et la longueur du u meilleur représentant » multiplié
par un facteur donné.
Selon un mode de réalisation, il compori;e une étape de codage de
l'alignement temporel des meilleurs représentants en utilisant le chemin de
DTW et en recherchant le plus proche voisin dans une table de formes.
30 L'étape de Godage de ('énergie peut comporter une étape de
détermination pour chaque début de « segment reconnu » de la différence
~E(j) entre la valeur d'énergie E~d(j) du « meilleur représentant » et la
valeur
Fax émis taar : THOMSON CSF TPI 15/18/81 12:17 Pq: 6/21
CA 02359411 2001-10-17
d'ënergie E~,{j) du début du « segment reconnu » et l'étàpe de décodage
comporter pour chaque segment reconnu, une première étape consistant à
transtater le contour d'énergie du meilleur reprssentant d'une quantité ~E(j)
pour faire coïncider la première énergie E~d{j) du « meilleur reprÉSentant »
avec (a première énergie Es~tj+1 ) du segment reconnu d'indice j+1.
L'étape de codage de voisement comporte par exemple une étape
de détermination des différences existantes eTk pour chaque extrémitë d'une
zone de voisement d'indice 1c entre la courbe du voisement des Segments
reconnus et celle des meilleurs représentants et l'étape de décodage
vo comporte par exemple pour chaque extrémité â'une zone de voisement
d'indice k une étape de correction de la position temporelle de cette
extrémité d'uns valeur OTk correspondante etlou une étape de suppression
ou d'insertion d'une iransitian,
Le procédé concerne aussi un système de codage-décodage de la
parole comportant au moins une mémoire pour stocker un dictionnaire
comprenant un ensemble de représentants du signal de parole, un
microprocesseur adapté pour déterminer les segments reconnus, pour
reconstruire la parole à partir des « meilleurs représentants » et pour mettre
en aeuvre les étapes du procédé selon l'une des caractéristiques précitées.
20 Le dictionnaire des représentants est par exemple commun au
codeur et au décodeur du système codage-décodage.
Le procédé et le système Selon l'invention peuvent étre utilisés
pour 1e codage-décodage de la parole pour des débits inférieurs à 800 bitsls
$t de préférence inférieurs à 40Q bitsls_
2~
Le procédé et le système de codage-décodage selon l'invention
offrent notamment l'avantage de coder à très bas débit la prosodie et de
fournir ainsi un codeur complet dans ce domaine d'application.
3o D'autres caractéristiques et avantages apparaïtront à la lecture de
la description dëtaillée d'un mode de réalisation pris à titre d'exemple non
limitatif et illustré par les dessins annexés où
~ la figure 1 représente un schéma d'apprentissage, de codage et de
décodage de la parole selon l'art antérieur,
Fax émis par : THOMSON CSF TPI 15/18/01 12:1'7 Pqr: 7/21
CA 02359411 2001-10-17
6
~ les figures 2 ~t 3 décrivent des exemples de codage de ts longueur des
segments reconnus,
~ la figure 4 scf~ématise un modèle d'alignement temporel des u meilleurs
représentants ~,
~ les figures 5 et 6 montrent des courbes des énergies du signal à coder et
des représentants alignés, ainsi que les contours des énergies initia! et
décodé obtenus en mettant en aeuvre le procédé selon l'invention,
~ la figure 7 schématise le codage du voisement du signal de parole, et
la figure 8 est un exemple de codage du pitch.
he principe de codage selon l'inventior~ repose sur l'utilisation des
~ meilleurs représentants ~, notamment leur information de prosodie, pour
Coder etlou décoder au moins un des paramètres de prosodie d'un signal de
parole, par exemple le pitcY~, l'énergie du signal, le voisement, la langueur
~ 5 des segments reconnus.
Pour compresser la prosodie é très bas débit, le principe mis en
oeuvre utilise la segmentation du codeur ainsi que les informations
prosodiques des « meilleurs représer~tants ~.
t~a description qui suit donnée à titre illustratif et nullement limitatif
2o décrit un procédé de codage de la prosodie dans un dispositif de codage
décodage de la parole à faible débit qui comporte un dictionnaire obtenu de
façon automatique, par exemple, lors de l'apprentissage tel que décrit à la
figure 1 _
Le dictionnaire comprend les informations suivantes
z5 ~ plusieurs classes d'unités acoustiques UA, chaque classe
étant déterminée à partir d'un modèle statistique,
pour chaque classe d'unités acoustiques, un ensemble .de
représentants.
Ce dictionnaire est connu du codeur et du décodeur. II
3o correspond par exemple â une ou plusieurs langues et à un Qu plusieurs
locuteurs.
La systéme de codage-décodage comporte par exemple une
mémoire pour stocker le dictionnaire, un microprocesseur adapté pour
déterminer les segments reconnus, pour la mise en oeuvre des différentes
Fax émis ~aar : THOMSOM CSF TPI 15/10/01 12:17 Pq: 8/21
CA 02359411 2001-10-17
étapes du procédé selon l'invention et pour reconstruire la parole à partir
des
meilleurs représentants.
Le procédé selon l'invention met ceuvre au moins une des étapes
suivantes : le codage de la longueur des segments, le codage de
l'alignement temporel des « meilleurs représentants b, le codage etlou le
décodage de l'énergie, le codage etlou ie décodage de l'information de
voisement etlou le codage etlou le décodage du pitch etlou le décodage de
la longueur des segments et de l'alignement temporel.
Codage de la t~ngueur des segments
t0 Le système de Godage détermine en moyenne un nombre Ns de
segments par seconde, par exemple 21 segments. La taille de ces segments
varie en fonction de la classe d'unités acoustiques UA. II apparait que pour
la
majorité des UA, le nombre de segments décroït selon une relation 1d x2~s, où
x est la langueur du segment.
t 5 Une variante de réalisation du procédé selon l'invention consiste à
coder la différence de longueur variable entre le « segment reconnu ~ et la
longueur du « meilleur représentant ü selon un schéma décrit à la figure 2.
Sur ce schéma dans la colonne de gauche figure la longueur du
mot de code à utiliser et dans la colonne de droite la différence de longueur
2o entre la longueur du segment reconnu par le codeur pour le signal de parole
et celle du meilleur représentant.
Selon un autre mode de réalisation donnée à la figure 3, le codage
de la longueur absolue d'un segment reconnu est effectué à l'aide d'un code
à longueur variable semblable à celui de Huffman connu de l'Homme du
25 métier, Ce qui permet d'obtenir un débit de l'ordre de 55 bitsls.
Le fait d'utiliser les longs mots de code pour coder les longueurs
de grands segments reconnus, permet notamment de conserver la valeur de
débit dans une plage de variation limitée. En effet, ces longs segments
réduisent le nombre de segment reconnu par seconde et le nombre de
30 longueurs à coder.
En résumé, on code par exemple avec un code à longueur
variable la différence entre ia longueur du segment reconnu et la longueur du
meilleur représentant multiplié par un certain facteur, ce facteur pouvant
être
compris entre 0 (codage absolu) et 1 (codage de fa différence).
Fax émis par : THOMSON CSF TPI 15/10/01 12:1? Pq: 9/21
CA 02359411 2001-10-17
Codage de l'alignement temporel des rneilieurs représentants
L'alignement temporel est par exemple réalisé en suivant le
chemin de la DTW tabréviation anglo-saxonne de Dynamic Time Warping)
qui a été déterminé lors de la recherche du « meilleur représentant r pour
coder le a segment reconnu ».
La figure 4 représente le chemin ( ç} de la DTW correspondant au
contour temporel qui minimise la distorsion entre le paramètre é coder (axe
des abscisses}, par exemple le vecteur des coefficients a oepstraux u, et le
« meilleur représentant ~ (axe des ordonnées). Cette approche est décrite
dans le livre ayant pour titre « Traitement de la parole », pour auteur René
Boite et Murat Kunt publié aux Presses Polytechnique Romandes éditions
1987.
Le codage de l'alignement des « meilleurs représentants ~ est
effectué par recherche du plus proche voisin dans une table contenant des
~ 5 formes type. Le choix de ces formes type se fait par exemple par une
approche statistique, telle que l'apprentissage sur une base de données de
parole ou par une approche algébrique par exemple la description par des
équations mathématiques paramétrables, ces diffërentes méthodes étant
connues de l'Homme du métier.
zo Selon une autre approche, valable dans le cas où les segments
de petite taille sont en proportion importante, le procédé effectue un
alignement des segments suivant la diagonale piutc~t que le chemin exact de
1a DTW. Le débit est dors nul.
Codage-décodage de l'énergie
zs Lorsque l'on classe et analyse les segments de la base de
données de parole appartenant à chacune des classes d'unités acoustiques,
on constate qu'il se dëgage une certaine cohérence dans la forme des
contours des énergies. De plus, il existe des ressemblances entre les
contours d'énergie des meilleurs représentants alignés par DTW et les
3o contours de l'énergie du signai à coder.
Le codage de l'énergie est décrit ci-après en relation aux figures 5
et 6, où l'axe des ordonnées correspond à l'énergie du signal de la parole a
coder exprimée en dB et l'axe des abscisses au temps exprimé en trames.
Fax émis par : THOMSON CSF TPI 15/18/81 12:17 Pq: 18/21
CA 02359411 2001-10-17
9
La figûre 5 représente la courbe (III) regroupant des contours
d'Gnergie des meilleurs représentants alignés et fa courbe (1V) des contours
d'énergie des segments reconnus séparés par des * sur la figure. Un
segment reconnu d'indice j est délimité par deux points de coordonnées
respectives (Esa(~) ; Taa(~}] et (Es,(j) ; TS~(j}] où Esa(j) est l'énergie de
début de
segment et Es~(j) l'énergie de fin de segment, pour les instants Taf et T5~
correspondant. Les références E~d(j) et Erf(j) sont utilisées pour les valeurs
d'énergies du début et de la fin d'un « meilleur représentant » et la
référence
~1E(j) correspond à la translation déterminée pour un segment reconnu
d'indice j.
Codage de l'éners~ie
Le procédë comporte une première étape de détermination de la
translation à réaliser-
Pour cela on détermine pour chaque début de « segment
t 5 reconnu », la différence DE(j) existant entre la valeur d'énergie E,a(j}
du
meilleur représentant (courbe III} et la valeur d'énergie Egd du début du
segment reconnu {courbe IV). On obtient un ensemble de valeurs oE(j) que
l'on quantifie par exemple uniformément de menière à connaïtre la
translation à appliquer lors du décodage. La quantification est réalisée par
2o exemple en utilisant des méthodes connues de 1°Homme du rnëtier,
Décoda e de l'éner ie du si nal de arole
Le procédé consiste notamment à utiliser les contours d'énergie
des meilleurs représentants (courbe III) pour reconstruire fes contours
d'énergie du signal à coder (courbe iV).
2~ Pour chaque segment reconnu, une première étape consiste à
translater le contour d'énergie du meilleur représentant poser la faire
Coïncider
avec fa premiére énergie E~d(j} en lui appliquant la translation ~E{j},
définie à
l'étape de codage par exemple, pour dëterminer la valeur Esa(j). Après cette
première étape de translation, le procédé comporte une étape de
modification de la pente du contour d'énergie du meilleur représentant afin
de relier la dernière valeur d'énergie Erd(j} du ~ meilleur représentant ü à
la
première énergie Esd(j+1 ) du segment suivant d'indics j+1.
La figure 6 représente les courbes (Vi) et (VII) correspondant
respectivement au contour d'énergie original du signal de parole à coder et
Fax émis par : THOMSON CSF TPI 15/10/81 12:17 Pq: il/Zl
CA 02359411 2001-10-17
du -contour d'énergie décodé après mise en oeuvre des étapes décrites
précédemment.
Par exemple, le codage des énergies de début de chaque
segment sur ~ bits permet d'obtenir pour ie codage segmenta( de l'énergie
un débit de l'ordre de 80 bitsls.
Codage de l'information de voisement
La f:pure 7 représente l'ëvolution temporelle d'une information de
voisement binaire de quatre segments successifs 35, 36, 37 pour le signal â
coder courbe (Vllj et pour les meilleurs représentants (courbe VIII) après
alignement temporel par I~TW,
Codage de !'information de voisement
Lors du codage, le procédé exécute une étape de codage de
('information de voisement, par exemple en parcourant l'évolution temporelle
de l'information de voisement des segments reconnus et celle des meilleurs
~ 5 représentants alignés (courbe VIII) et en codant les différences
existantes
dTk entre ces deux courbes. Ces différences aTK peuvent ètre : une avance a
de la trame, un retard b de trame, l'absence etlou la présence d'une
transition référence c (k correspond à l'indice d'une extrémité d'une zone de
voisement). .
2o Pour cela, ü est possible d'utiliser un code de longueur variable
dont un exemple est donné dans !a table I ci-dessous, pour coder la
correction à apporter à chacune des transitions de voisement pour chacun
des segments reconnus_ Tous les segments ne comportant pas de transition
de voisement, il est possible de réduire le dëbit associé au voisement en ne
25 codant que les transitions de voisement existantes dans le voisement à
coder et dans les meilleurs représentants,
Selon cette méthode, l'information de voisement est codée sur
environ 22 bits par seconde.
Fax émis par : THOMSOH CSF TPI 15/10/91 12:17 Pq: 12/21
CA 02359411 2001-10-17
19
Table ~ : Exemple de fable de codage pour les i~rans~tians de voisement
Code Interprtation
_
OC?0 Transitio_ n__ _supprimer
Q01 Dcala e 1trame ~ Droite
010 Dcala e 1 trame fauche
011 Dcala e 2 trames Droite
1 Ug Dcela e 2 trames Gauche
101 Insrer une transition (un code prcisant
l'em lacement de la transition suit
celui-ci
11 Pas de dcala e
117 Dplacement suprieur 3 trames (un
autre
code suit celui-ci
s Pour une information de voisement mixte telle que
~ le taux de voisement en sous-bande, l'analyse de cette information fait
appel à une méthode décrite par exemple dans le document suivant
"Multiband Excitation Vocoders", ayant pQUr auteurs D.W. Griffin and J.S.
Lim, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 3fi,
no. 8, pp. 9 223-1235, 198$ ;
~ la fréquence de transition entre une bande basse voisée et une bande
haute non-voisée, le codage utilise une méthode telle que décrite dans le
document ayant pour auteurs C. Laflamme, R. Salami, R. Matmti, and J-
P_ Adoul, intitulé "Harmonie Stochastic Excitation (HSX~ speech coding
below 4 kbitsls", lE~~ International Conference on Acoustics, Speech,
and Signal Processing, Atlanta, May 1996, pp. 204-207.
Dans ces deux cas, le codage de l'information de voisement comporte
également le codage de la variation de la proportion de voisement.
Décodage de l'information de voisement
20 Le décodeur dispose de l'information de voisement des
cc meilleurs représentants alignés » obtenu au niveau du codeur.
La correction s'effectue par exemple de la maniére suivante
A chaque détection de l'extrémité d'une none de voisement sur les
meilleurs représentants choisis pour la synthèse, le procédé apporte une
25 information complémentaire au décodeur c~ui est la correction à effectuer à
cette extrémité. La correction peut étre une avance a ou un retard b à
apporter à cette extrémité. Ce décalage temporel est par exemple exprimé
Fax émis ~aar : THOMSOH CSF TPI 15/18/81 12:17 Pq: 13/21
CA 02359411 2001-10-17
en -nombre de trames afin d'obtenir la position exacte de l'extrémité de
voisement du signal de parole original. La correction peut aussi prendre la
forme d'une suppression ou d'une insertion d'une transition.
Coôage du pitch
L'expérience montre que, sur des enregistrements de parole, le
nombre de zones voisées obtenues par seconde est en moyenne de l'ordre
de 3 ou 4. Pour rendre compte fidèlement des variations du pitch, une
manière de procéder consiste à transmettre plusieurs valeurs de pitch par
zone voisés. Afin de limiter le débit, au lieu de transmettre toute la
t o succession des valeurs de pitch sur une zone voisée, le contour du pitch
est
approximé par une succession de segments linéaires.
Codage du pitçh
Pour chaque zone voisée du signal de parole, le procédé
comporte une étape de recherche des valeurs du pitch à transmettre. Les
~ 5 valeurs de pitch au début et à la fin de la zone voisée sont
systématiquement
transmises. Les autres valeurs à transmettre sont déterminées de la manière
suivante
~ le procédé considère uniquement les valeurs du pitch au début des
segments reconnus. Partant de la droite Di joignant les valeurs du pitch
zo aux deux extrémités de la zone voisée, le procédé recherche le début de
segment dont la valeur de pïtch est la plus éloignée de cette droite, ce qui
correspond à une distance d,~ax. II compare cette valeur dmex à une valeur
seuil d~";,. Si la distance dmax est supérieure à dse~n, le procédé
décompose la droite initiale Di en deux droites D;~ et D;2, en prenant le
25 début du segment trouvé nomme nouvelle valeur de pitch à transmettre.
Cette opération est réitérée sur ces deux nouvelles zones voisée
délimitées par les droites C7;1 et D;z jusqu'à ce que la distance dmax trouvée
soit inférieure à la distance dge"~,,
Pour coder les valeurs du pitch ainsi déterminées, le procëdé
utilise par exemple un quantificateur scalaire prédictif sur par exemple 5
bits
appliqué au logarithme du pitch.
t.a prédiction est par exemple 1a première valeur de pitch du
meilleur représentant correspondant à la position du pitch à décoder,
multipliée par un facteur de prédiction compris par exemple entre 0 et '1.
Fax émis par : THOMSOM CSF TPI 15/18/81 12:17 Pq: 14/21
CA 02359411 2001-10-17
13
Selon une autre façon de procéder, fa prédiction peut étre la
valeur minimale de l'enregistrement de parole à coder- Dans ce cas, cette
valeur peut âtre transmise au décodeur par quantification scalaire sur par
exemple 8 bits.
Les valeurs des pitchs à transmettre ayant été déterminées et
codées, le procëdé comporte une étape où l'espacement temporel est
précisé, par exemple en nombre de trames, entre chacune de ces valeurs de
pitch_ Un code à longueur variable permet par exemple de coder ces
espacements sur 2 bits en moyenne.
dette façon de procéder permet d'obtenir un débit d°anviron
651bits par seconde pour une distance maximale sur la période pitch de 7
échantillons.
Décodage du pitch
L'étape de décodage comporte tout d'abord une étape de
i 5 décodage de l'espacement temporel entre les différentes valeurs de pitch
transmises afin de récupérer les instants de mise à~ jour du pitch, ainsi que
la
valeur du pitch pour chacun de ces instants. La valeur du pitch pour chacune
des trames de la zone voisée est reconstituée par exemple par interpolation
linéaire entre les valeurs transmises,