Sélection de la langue

Search

Sommaire du brevet 2345373 

Énoncé de désistement de responsabilité concernant l'information provenant de tiers

Une partie des informations de ce site Web a été fournie par des sources externes. Le gouvernement du Canada n'assume aucune responsabilité concernant la précision, l'actualité ou la fiabilité des informations fournies par les sources externes. Les utilisateurs qui désirent employer cette information devraient consulter directement la source des informations. Le contenu fourni par les sources externes n'est pas assujetti aux exigences sur les langues officielles, la protection des renseignements personnels et l'accessibilité.

Disponibilité de l'Abrégé et des Revendications

L'apparition de différences dans le texte et l'image des Revendications et de l'Abrégé dépend du moment auquel le document est publié. Les textes des Revendications et de l'Abrégé sont affichés :

  • lorsque la demande peut être examinée par le public;
  • lorsque le brevet est émis (délivrance).
(12) Demande de brevet: (11) CA 2345373
(54) Titre français: METHOD FOR QUANTIZING SPEECH CODER PARAMETERS
(54) Titre anglais: PROCEDE DE QUANTIFICATION DES PARAMETRES D'UN CODEUR DE PAROLE
Statut: Réputée abandonnée et au-delà du délai pour le rétablissement - en attente de la réponse à l’avis de communication rejetée
Données bibliographiques
(51) Classification internationale des brevets (CIB):
  • G10L 19/038 (2013.01)
  • G10L 19/087 (2013.01)
  • G10L 25/90 (2013.01)
  • G10L 25/93 (2013.01)
(72) Inventeurs :
  • GOURNAY, PHILIPPE (France)
  • CHARTIER, FREDERIC (France)
(73) Titulaires :
  • THOMSON-CSF
(71) Demandeurs :
  • THOMSON-CSF (France)
(74) Agent: LAVERY, DE BILLY, LLP
(74) Co-agent:
(45) Délivré:
(86) Date de dépôt PCT: 1999-10-01
(87) Mise à la disponibilité du public: 2000-04-13
Licence disponible: S.O.
Cédé au domaine public: S.O.
(25) Langue des documents déposés: Français

Traité de coopération en matière de brevets (PCT): Oui
(86) Numéro de la demande PCT: PCT/FR1999/002348
(87) Numéro de publication internationale PCT: FR1999002348
(85) Entrée nationale: 2001-04-03

(30) Données de priorité de la demande:
Numéro de la demande Pays / territoire Date
98/12500 (France) 1998-10-06

Abrégés

Abrégé français


Le procédé consiste à regrouper (17) les paramètres sur N trames consécutives
pour former une super-trame, à effectuer une quantification vectorielle (18)
des fréquences de transition du voisement au cours de chaque super-trame, en
ne transmettant sans dégradation que les configurations les plus fréquentes et
en remplaçant les configurations les moins fréquentes par la configuration la
plus proche en terme d'erreur absolue parmi les plus fréquentes, à coder le
pitch (19) en ne quantifiant scalairement qu'une seule valeur du pitch pour
chaque super-trame, à coder l'énergie (20) en ne sélectionnant qu'un nombre
réduit de valeurs en regroupant ces valeurs en sous paquets quantifiés par
quantification vectorielle, à coder par quantification vectorielle (21) les
paramètres d'enveloppe spectrale en ne sélectionnant qu'un nombre déterminé de
filtres, les paramètres non transmis étant reconstruits par interpolation ou
extrapolation à partir des paramètres des filtres transmis. Application:
vocodeurs.


Abrégé anglais

The invention concerns a method which consists in: gathering (17) the parameters on N consecutive frames to form a super-frame; carrying out a vector quantization (18) of the voicing transition frequencies during each super-frame, by transmitting without degradation only the most frequent configurations and by replacing the least frequent configurations by the closest configuration in terms of absolute error among the most frequent; encoding the pitch (19), by scalar quantization of only one pitch value for each super-frame; encoding the energy (20) by selecting only a reduced number of values by gathering said values into sub-packets quantized by vector quantization (21); encoding by vector quantization (21) the spectral envelope parameters by selecting only a predetermined number of filters, the non-transmitted parameters being reconstructed by interpolation or extrapolation from the transmitted filter parameters. The invention is applicable to vocoders.

Revendications

Note : Les revendications sont présentées dans la langue officielle dans laquelle elles ont été soumises.


12
REVENDICATIONS
1. Procédé de codage et de décodage de la parole pour les
communications vocales utilisant un vocodeur à très bas débit
comportant une partie analyse (4,....10) pour ie codage et la transmission
des paramètres du signal de parole et une partie synthèse (11,....16) pour
la réception et le décodage des paramètres transmis et la reconstruction
du signal de parole par utilisation de filtres de synthèse à prédiction
linéaire du type consistant à analyser les paramètres, décrivant le pitch
(8), la fréquence de transition de voisement (9), l'énergie (10), et
l'enveloppe spectrale (5) du signal de parole, en découpant le signal de
parole en trames successives de longueur déterminée caractérisé en ce
qu'il consiste à regrouper (17) les paramètres sur N trames consécutives
pour former une super-trame, à effectuer une quantification vectorielle
(18) des fréquences de transition du voisement au cours de chaque
super-trame, en ne transmettant sans dégradation que les configurations
les plus fréquentes et en remplaçant les configurations les moins
fréquentes par la configuration la plus proche en terme d'erreur absolue
parmi les plus fréquentes, à coder le pitch (19) en ne quantifiant
scalairement qu'une seule valeur du pitch pour chaque super-trame, à
coder l'énergie (20) en ne sélectionnant qu'un nombre réduit de valeurs
en regroupant ces valeurs en sous paquets quantifiés par quantification
vectorielle, les valeurs d'énergie non transmises étant récupérées dans la
partie synthèse par interpolation ou extrapolation à partir des valeurs
transmises, à coder par quantification vectorielle (21) les paramètres
d'enveloppe spectrale pour l'encodage des filtres de synthèse à prédiction
linéaire en ne sélectionnant qu'un nombre déterminé de filtres, les
paramètres non transmis étant reconstruits par interpolation ou
extrapolation à partir des paramètres des filtres transmis.
2. Procédé selon la revendication 1 caractérisé en ce que la
valeur quantifiée du pitch est soit la dernière valeur du pitch des zones
stables entièrement voisées, soit une valeur moyenne pondérée par la

13
fréquence de transition de voisement dans les zones qui ne sont pas
entièrement voisées.
3. Procédé selon la revendication 2 caractérisé en ce qu'il
consiste lorsque la valeur de pitch est la dernière d'une super-trame, à
reconstituer les autres valeurs par interpolation.
4. Procédé selon la revendication 3 caractérisé en ce que la
valeur du pitch utilisée dans la partie synthèse est celle du pitch décodé
modifié par un coefficient de multiplication pour produire un léger trémolo
dans la parole reconstituée.
5. Procédé selon l'une quelconque des revendications 1 à 4
caractérisé en ce que les paramètres sont regroupés sur un nombre N = 3
de trames consécutives.
6. Procédé selon la revendication 5 caractérisé en ce que les
fréquences de voisement sont au nombre de 4 et sont codées
vectoriellement à l'aide d'une table de quantification (22) comportant 32
configurations de fréquences groupées par 3.
7. Procédé selon l'une quelconque des revendications 5 et 6
caractérisé en ce qu'il consiste à mesurer l'énergie 4 fois par trame,
seulement 6 valeurs parmi les 12 d'une super-trame étant transmises
(23) sous la forme de deux vecteurs de 3 valeurs.
8. Procédé selon la revendication 7 caractérisé en ce qu'il
consiste à coder l'énergie (23) suivant quatre schémas regroupant chacun
deux vecteurs, un premier schéma lorsque les douze vecteurs d'énergie
dans la super-trame sont stables, les schémas restants étant définis pour
chacune des trames, et à transmettre le schéma qui minimise l'erreur
quadratique totale.
9. Procédé selon la revendication 8 caractérisé en ce que:
- dans le premier schéma seules les valeurs d'énergie
numérotées 1, 3, et 5 du premier vecteur et celles numérotées 7, 9, 11
du deuxième vecteur sont transmises,
- dans le deuxième schéma seules les valeurs d'énergies
numérotées 0, 1, et 2 du premier vecteur et celles numérotées 3, 7, et
11 du deuxième vecteur sont transmises,

14
- dans le troisième schéma seules les valeurs d'énergies
numérotées 1, 4 5 du premier vecteur et celles numérotées 6, 7, et 11
du deuxième vecteur sont transmises,
- et dans le quatrième schéma seules les valeurs d'énergies
numérotées 2, 5 et 8 du premier vecteur et celles numérotées 9, 10 et
11 du deuxième vecteur sont transmises.
10. Procédé selon l'une quelconque des revendications 1 à 9
caractérisé en ce qu'il consiste à effectuer la sélection des paramètres
d'encodage des filtres de prédiction linéaire suivant quatre schémas pour
encoder au mieux soit les zones pour lesquelles l'enveloppe spectrale est
stable, soit les zones pour lesquelles l'enveloppe spectrale varie
rapidement au cours des trames 1, 2, ou 3 d'une super trame.
11. Procédé selon la revendication 10 caractérisé en ce qu'il
consiste à utiliser (24) dans la partie synthèse 6 filtres à prédiction
linéaire à 10 coefficients numérotés de 0 à 5 et à transmettre:
- dans un premier schéma que les coefficients des filtres 1, 3,
et 5 lorsque l'enveloppe spectrale est stable,
- dans un deuxième schéma correspondant à la première trame
que les coefficients des filtres 0, 1 et 4,
- dans un troisième schéma correspondant à la deuxième trame
que les coefficients des filtres 2, 3 et 5,
- dans un quatrième schéma correspondant à la troisième trame
que les coefficients des filtres 1, 4 et 5,
le schéma effectivement transmis étant celui qui minimise
l'erreur quadratique totale, les coefficients des filtres non transmis étant
calculés dans la partie synthèse par interpolation ou extrapolation.
12. Procédé selon l'une quelconque des revendications 1 à 11
caractérisé en ce que les coefficients LSF des filtres de synthèse sont
codés sur un nombre de 54 bits auquel est ajouté deux bits pour la
transmission des schémas de décimation, l'énergie est codée avec un
nombre de 2 fois C bits auquel est ajouté 2 bits pour la transmission des
schémas de décimation, le pitch est codé sur un nombre de 6 bits et la
fréquence de transition de voisement est codée sur un nombre de 5 bits
soit au total 81 bits pour des super-trames de 67,5 ms.

Description

Note : Les descriptions sont présentées dans la langue officielle dans laquelle elles ont été soumises.


CA 02345373 2001-04-03
WO 00/21077 PCT/FR99/02348
1
PROCEDE DE QUANTIFICATION DES PARAMETRES D'UN CODEUR DE PAROLE
La présente invention concerne un procédé de codage de la
parole. Elle s'applique notamment à la réalisation de vocodeurs à très bas
débit, de l'ordre de 1 200 bits par seconde et mis en oeuvre par exemple
dans les communications par satellite, la téléphonie sur internet, les
répondeurs statiques, les gageurs vocaux etc...
L'objectif de ces vocodeurs est de permettre de reconstruire un
signal qui soit le plus proche possible au sens de la perception par l'oreille
humaine du signal de parole d'origine, en utilisant un débit binaire le plus
faible possible.
Pour atteindre cet objectif les vocodeurs utilisent un modèle
totalement paramétré du signal de parole. Les paramètres utilisés
concernent le voisement qui décrit le caractère périodique des sons
voisés ou le caractère aléatoire de sons non voisés, la fréquence
~ 5 fondamentale des sons voisés encore connue sous le vocable anglo-saxon
"PITCH", l'évolution temporelle de l'énergie ainsi que l'enveloppe
spectrale du signal pour exciter et paramétrer les filtres de ,synthèse.
Généralement le filtrage est réalisé par une technique de ~ filtrage
numérique à prédiction linéaire.
2o Ces différents paramètres sont estimés périodiquement sur le
signal de parole, de une à plusieurs fois par trame de 10 à 30 ms, selon
les paramètres et les codeurs. Ils sont élaborés au niveau d'un dispositif
d'analyse et sont généralement transmis à distance en direction d'un
dispositif de synthèse.
25 Le domaine du codage de la parole à bas débit a longtemps été
dominé par un codeur à 2 400 bits/s connu sous la désignation LPC 10.
Une description de ce codeur, ainsi que d'une variante à plus bas débit
peut être trouvée dans les articles intitulés
"Parameters and coding characteristics that must be common
3o to assure interoperability of 2 400 bps linear predictive encoded speech",
NATO Standard STANAG - 4198 - Ed 1, 13 February 1984 et dans
l'article de MM. B.Mouy, D de la Noue et G. Goudezeune, intitulé "NATO
STANAG 4479 : A standard for an 800 bps vocoder and channel coding
in HF-ECCM system", publié dans IEEE International Conference on

CA 02345373 2001-04-03
WO 00/21077 PCT/FR99/02348
2
Acoustics, Speech, and Signal Processing, Detroit, May 1955, pp. 480-
483.
Bien que parfaitement intelligible, la parole reproduite par ce
vocodeur, est d'assez mauvaise qualité, de sorte que son usage est limité
à des applications bien spécifiques, principalement professionnelles et
militaires. Ces dernières années le domaine du codage de la parole à bas
débit a connu un grand nombre d'innovations, grâce à l'introduction de
nouveaux modèles connus respectivement sous les abréviations MBE,
PWI et MELP.
Une description du modèle MBE peut ëtre trouvée dans l'article
de MM. D.W. Griffin and J.S. Lim, intitulé "Multiband Excitation
Vocoders", publié dans la revue IEEE Trans. on Acoustics, Speech, and
Signal Processing, vol. 36, n° 8, pp. 1223-1235, 1988.
Cslle du modèle PWI peut ëtre trouvée dans l'article de MM.
W.B. Kleijn and J. Haogen, intitulé "Waveform Interpolation for Coding
and Synthesis" dans la revue Speech Coding and Synthesis édité par
W.B. Kleijn et KK. Paliwal, Elsevier 1995.
Enfin, une description du modèle MELP peut être trouvée dans
l'article de MM. L.M. Supplee, R.P. Cohn, J.S. Collura, and A.V. McCree,
2o intitulé "MELP : The new federal standard at 2 400 bits/s, publié dans la
revue IEEE International Conference on Acoustics, Speech, and Signal
Processing, Munich, April 1997, pp. 1591 - 1594.
La qualité de la parole restituée par ces modèles à 2400 bits/s
est devenue acceptable pour un grand nombre d'applications civiles et
commerciales. Mais pour les débits inférieurs à 2 400 bits/s (typiquement
1 200 bits/s ou moins) la parole restituée présente une qualité
insuffisante et pour pallier cet inconvénient d'autres techniques ont été
mises en oeuvre. Une première technique est celle du vocodeur
segmentai, dont deux variantes sont celles décrites par MM. B. Mouy, P.
3o de la Noue and G. Goudezeune déjà citée, et de celle décrite par M. Y.
Shoham intitulée "Very low complexity interpolative speech coding at 1.2
to 2.4 K bps", publié dans IEEE International Conference on Acoustics,
Speech, and Signal Processing, Munich, April 1997, pp 1599 - 1602.

CA 02345373 2001-04-03
WO 00/21077 PCT/FR99/0234$
3
Mais à ce jour, aucun vocodeur segmentai n'a été jugé de
qualité suffisante pour des applications civiles et commerciales.
Une deuxième technique est celle mise en oeuvre dans les
vocodeurs phonétiques, qui combinent des principes de reconnaissance et
de synthèse. L'activité dans ce domaine se situe plutôt au stade de la
recherche fondamentale, les débits visés sont généralement très
inférieurs à 1 200 bits/s (typiquement 50 à 200 bits/sy mais la qualité
obtenue est plutôt mauvaise et il n'y a souvent pas de reconnaissance du
locuteur. Une description de ces types de vocodeurs peut être trouvée
dans l'article de MM. J. Cernocky, G. Baudoin, G. Chollet, ayant pour
titre : "Segmentai vododer - Going beyond the phonetic approch" publié
dans IEE International Conference on Acoustics, Speech, and Signal
Processing, Seattle, May 12 - 15 1998, pp. 605 - 698.
Le but de l'invention est de pallier les inconvénients cités.
~ 5 A cet effet, l'invention a pour objet un procédé de codage et de
décodage de la parole pour les communications vocales utilisant un
vocodeur à très bas débit comportant une partie analyse pour le codage
et la transmission des paramètres du signal de parole et une partie
synthèse pour la réception et le décodage des paramètres transmis et la
2o reconstruction du signal de parole par utilisation de filtres de synthèse à
prédiction linéaire du type consistant à analyser les paramètres, décrivant
le pitch, la fréquence de transition de voisement, l'énergie, et l'enveloppe
spectrale du signal de parole, en découpant le signal de parole en trames
successives de longueur déterminée caractérisé en ce qu'il consiste à
25 regrouper les paramètres sur N trames consécutives pour former une
super-trame, à effectuer une quantification vectorielle des fréquences de
transition du voisement au cours de chaque super-trame, en ne
transmettant sans dégradation que les configurations les plus fréquentes
et en remplaçant les configurations les moins fréquentes par !a
30 configuration la plus proche en terme d'erreur absolue parmi les plus
fréquentes, à coder le pitch en ne quantifiant scalairement qu'une seule
valeur pour chaque super-trame, à coder l'énergie en ne sélectionnant
qu'un nombre réduit de valeurs en regroupant ces valeurs en sous
paquets quantifiés par quantification vectorielle, les valeurs d'énergie non

CA 02345373 2001-04-03
WO 00/21077 PCT/FR99/02348
4
transmises étant récupérées dans la partie synthèse par interpolation ou
extrapolation à partir des valeurs transmises, à coder par quantification
vectorielle les paramètres d'enveloppe spectrale pour l'encodage des
filtres de synthèse à prédiction linéaire en ne sélectionnant qu'un nombre
déterminé de filtres, ies paramètres non transmis étant reconstruits par
interpolation ou extrapolation à partir des paramètres des filtres transmis.
D'autres caractéristiques et avantages de l'invention
apparaîtront à l'aide de la description qui suit faite en regard des dossiers
annexés qui représentent
La figure 1 un modèle d'excitation mixte d'un vocodeur type
HSX utilisé pour la mise en oeuvre de l'invention.
La figure 2 un schéma fonctionnel de la partie "analyse" d'un
vocodeur de type HSX utilisé pour fa mise en oeuvre de l'invention.
La figure 3 un schéma fonctionnel de la partie synthèse d'un
~ 5 vocodeur de type HSX utilisé pour la mise en oeuvre de l'invention.
La figure 4 les étapes principales du procédé selon l'invention
mises sous la forme d'un organigramme.
La figure 5 un tableau montrant la répartition des
configurations des fréquences de transition de voisement pour trois
2o trames consécutives.
La figure 6 une table de quantification vectorielle des
fréquences de transition de voisement utilisable pour la mise en oeuvre de
l'invention.
La figure 7 une liste sous forme de tableau de schémas de
25 sélection et d'interpolation mise en oeuvre dans l'invention pour le
codage de l'énergie du signal de parole.
La figure $ une liste sous forme d'un tableau de schémas de
sélection et d'interpolation/extrapolation pour l'encodage des filtres LPC à
prédiction linéaire.
3o La figure 9 un tableau d'allocation des bits nécessaires au
codage d'un vocodeur de type HSX à 1 200 bits/s selon l'invention.
Le procédé selon l'invention met en oeuvre un vocodeur de
type connu sous l'abréviation anglo-saxonne HSX de "Harmonie

CA 02345373 2001-04-03
WO 00/21077 PCT/FR99/02348
Stochastic Excitation", comme base pour la réalisation d'un vocodeur de
bonne qualité à 1 200 bits/s.
Une description de ce type de vocodeur peut être trouvée dans
l'article de MM. C. Laflamme, R. Salami, R. Matmti et J.P. Adoul, ayant
5 pour titre "Harmonie Stochastic Excitation (HSX) speech coding below 4
k.bits/s" et publié dans IEEE International Conference on Acoustics, and
Signal Processing, Atlanta, May 1996, pp.204- 207.
Le procédé selon l'invention porte sur l'encodage des
paramètres qui permet de reproduire au mieux avec un minimum de débit
~o toute la complexité du signal de parole.
Comme schématisé à la figure 1 un vocodeur HSX est un
vocodeur à prédiction linéaire qui utilise dans sa partie synthèse un
modèle d'excitation mixte simple, dans lequel un train d'impulsion
périodique excite les fréquences basses et un niveau de bruit excite les
~ 5 fréquences hautes d'un filtre LPC de synthèse. La figure 1 décrit le
principe de génération de l'excitation mixte qui comporte deux voies de
filtrage. La première voie 1, est excitée par un train d'impulsion
périodique effectue un filtrage passe bas et la deuxième voie 12 excitée
par un signal de bruit stochastique effectue un filtrage passe haut. La
2o fréquence de coupure ou de transition f~ des filtres des deux voies est la
même et a une position variable dans le temps. Les filtres des deux voies
sont complémentaires. Un sommateur 2 additionne les signaux fournis
par les deux voies. Un amplificateur 3 de gain g ajuste le gain de la
première voie de filtrage pour que le signal d'excitation obtenu en sortie
25 du sommateur 2 soit à spectre plat.
Un diagramme fonctionnel de la partie analyse du vocodeur est
représenté à la figure 2. Pour effectuer cette analyse le signal de parole
est d'abord filtré par un filtre passe haut 4 pour être ensuite segmenté en
trames de 22,5 ms, comportant 180 échantillons prélevés à la fréquence
3o 8 KHz. Deux analyses par prédiction linéaire sont effectuées en 5 sur
chacune des trames. Aux étapes 6 et 7 le signal semi blanchi obtenu est
filtré en quatre sous bandes. Un suiveur de pitch 8 robuste exploite la
première sous bande. La fréquence de transition f~ entre la bande de
fréquence basse des sons voisés et la bande de fréquence haute des sons

CA 02345373 2001-04-03
WO 00/21077 PCT/FR99/02348
6
non voisés est déterminée par le taux de voisement mesuré en 9 dans ies
quatre sous bandes. Enfin, l'énergie est mesurée et codée à l'étape 10 de
manière pitch-sychrone, 4 fois par trame.
Comme les performances du suiveur de pitch et de l'analyseur
de voisement 9 peuvent être grandement améliorées lorsque leur décision
est retardé d'une trame, les paramètres résultant, coefficients des filtres
de synthèse, pitch, voisement, fréquence de transition et énergie sont
codés avec une trame de retard.
Dans la partie synthèse du vocodeur HSX qui est représenté à
la figure 3, le signal d'excitation du filtre de synthèse est formé de la
manière déjà représentée à la figure 1 par la somme d'un signa!
harmonique et d'un signal aléatoire dont les enveloppes spectrales sont
complémentaires. La composante harmonique est obtenue en passant un
train d'impulsions à la période pitch dans un filtre passe bande précalculé
~5 11. La composante aléatoire est obtenue à partir d'un 'générateur 12
combinant une transformée de Fourier inverse et un recouvrement
temporel. Le filtre LPC de synthèse 14 est interpolé 4 fois par trame. Le
filtre perceptuel 15 couplé en sortie de filtre 14 permet d'obtenir une
meilleure restitution des caractéristiques nasales du signal de parole
originel. Enfin le dispositif de contrôle automatique de gain permet
d'assurer que l'énergie pitch-synchrone du signal de sortie est égale à
celle qui a été transmise.
Avec un débit aussi bas que 1200 bits/s, il n'est pas possible
d'encoder de façon précise toutes les 22,5 ms les 4 paramètres pitch,
fréquence de transition de voisement, énergie et coefficients des deux
filtres LPC à 10 coefficients par trame.
Pour exploiter au mieux les caractéristiques temporelles de
l'évolution des paramètres qui comportent des périodes de stabilité
entrecoupées de variations rapides, le procédé selon l'invention se
déroule en cinq étapes prïncipales référencées de 17 à 21 sur la figure 4.
L'étape 17 regroupe les trames vocodeurs par N trames pour former une
super trame. A titre indicatif une valeur de N égale à 3 peut être choisie
car elle réalise un bon compromis entre la réduction possible du débit
binaire et le retard introduit par le procédé de quantification. D'autre part,

CA 02345373 2001-04-03
WO 00/21077 PCT/FR99/02348
7
elle est compatible avec les techniques d'entrelacement et de codage
correcteur d'erreurs actuelles.
La fréquence de transition de voisement est codée à l'étape 18
par quantification vectorielle en utilisant uniquement quatre valeurs de
fréquence, 0,750,2000 et 3625 HZ par exemple. Dans ces conditions 6
bits à raison de 2 bits par trame sont suffisants pour coder chacune des
fréquences et transmettre exactement la configuration de voisement des
trois trames d'une super trame. Toutefois comme certaines
configurations de voisement ne se reproduisent que très rarement, on
~o peut considérer qu'elles ne sont pas forcément caractéristiques de
l'évolution du signal de parole normal, car elles ne semblent pas participer
à l'intelligibilité, ni à la qualité de la parole restituée. C'est le cas par
exemple lorsque une trame est totalement voisée de 0 Hz jusqu'à
3 625 Hz et qu'elfe est comprise entre deux trames totalement non
voisées.
Le tableau de la figure 5 retrace une répartition de
configuration de voisement sur trois trames successives, calculées sur
une base de données de 123 158 trames de parole. Dans ce tableau les
32 configurations les moins fréquentes comptent pour seulement 4% de
2o toutes les trames, partiellement ou totalement voisées. La dégradation
obtenue en remplaçant chacune de ces configurations par la plus proche,
en terme d'erreur absolue, des 32 configurations les plus représentées
est imperceptible. Ceci montre qu'il est possible d'économiser un bit en
quantifiant vectoriellement la fréquence de transition de voisement sur
une super trame. Une quantification vectorielle des configurations de
voisement est montrée dans le tableau référencé 22 sur la figure 6. Le
tableau 22 est organisé de sorte que l'erreur quadratique moyenne
produite par une erreur sur un bit d'adressage soit minimale.
Le codage du pitch s'exécute à l'étape 19. II met en oeuvre un
3o quantificateur scalaire sur 6 bits, avec une plage d'échantillons de 16 à
148, et un pas de quantification uniforme sur une échelle logarithmique.
Une seule valeur est transmise pour trois trames consécutives. Le calcul
de la valeur à quantifier à partir des trois valeurs de pitch et la procédure
permettant de récupérer les trois valeurs de pitch à partir de la valeur

CA 02345373 2001-04-03
WO 00/21077 PCT/FR99/02348
8
quantifiée, diffèrent selon la valeur des fréquences de transition de
voisement de l'analyse. Le processus est le suivant:
1. Lorsque aucune trame n'est voisée, les 6 bits sont
positionnés à zéro, le pitch décodé est fixé à une valeur arbitraire soit, par
exemple, à 45 échantillons pour chacune des trames de la super trame.
2. Lorsque la dernière trame de la super-trame précédente et
les trois trames de la super trame courante sont voisées, c'est à dire,
lorsque la fréquence de transition de voisement est supérieure strictement
à zéro, la valeur quantifiée est la valeur du pitch de la dernière trame de la
super trame courante qui est alors considérée comme une valeur cible.
Au décodeur la valeur décodée du pitch pour la troisième trame de la
super-trame courante est la valeur cible quantifiée, et les valeurs du pitch
décodés pour les deux premières trames de la super-trame courante sont
récupérées par interpolation linéaire entre la valeur transmise pour la
super-trame précédente et la valeur cible quantifiée.
3. Pour toutes les autres configurations de voisement, c'est la
valeur pondérée du pitch sur les trois trames de la super-trame courante
qui est quantifiée. Le facteur de pondération est proportionnel à la
fréquence de transition de voisement pour la trame considérée suivant la
relation
Pitch(i)* voisement(i)
Valeur Moyenne Pondérée ='=1-3
voisement(i)
i=1-3
Au décodeur la valeur du pitch décodée pour les trois trames
de la super-trame courante est égale à la valeur moyenne pondérée
quantifiée.
De plus dans les cas 2 et 3, un léger trémolo est appliqué
systématiquement aux valeurs du pitch utilisées en synthèse pour les
trames 1, 2 et 3 pour améliorer le naturel de la parole restituée en évitant
la génération de signaux trop fortement périodiques, suivant par exemple
les relations
3o Pitch utilis (1 ) = 0,995 Pitch Dcod (1
*' )
Pitch utilis (2) = 1,005 Pitch Dcod (2)
*'
Pitch utilis (3) = 1,000 Pitch Dcod (3)
'~

CA 02345373 2001-04-03
WO 00/21077 PCT/FR99/02348
9
L'intérêt de procéder à une quantification scalaire des valeurs
de pitch est qu'il limite le problëme de propagation des erreurs sur le train
binaire. De plus les schémas de codage 2 et 3 sont suffisamment proches
l'un de l'autre pour être insensibles aux mauvais décodages de la
fréquence de voisement.
L'encodage de l'énergie est effectué à l'étape 20. II a lieu de la
façon représentée dans le tableau référencé 23 sur la figure 7 en utilisant
une méthode de quantification vectorielle du type de celle décrite dans
l'article de RM Gray, ayant pour titre "Vector Quantization", publié dans
la revue IEEE ASP Magazine, vol. 1, pp 4-29, avril 1984. Douze valeurs
d'énergie numérotées de 0 à 1 1 sont calculées à chaque super-trame par
la partie analyse et seulement six valeurs d'énergie parmi les douze sont
transmises. Ceci conduit à construire deux vecteurs de trois valeurs par la
partie analyse. Chaque vecteur est quantifié sur six bits. Deux bits sont
utilisés pour transmettre le numéro de schéma de sélection utilisé. Lors
du décodage dans la partie synthèse, ies valeurs de l'énergie qui n'ont
pas été quantifiées sont récupérées par interpolation.
Seuls quatre schémas de sélection sont autorisés comme le
montre le tableau de la figure 7. Ces schémas sont optimisés afin
2o d'encoder au mieux, soit les vecteurs de 12 énergies stables, soit ceux
pour lesquels l'énergie varie rapidement au cours des trames 1, 2, et 3.
Dans la partie analyse le vecteur d'énergie est encodé selon chacun des
quatre schémas, et le schéma effectivement transmis est celui qui
minimise l'erreur quadratique totale.
Dans ce processus les bits donnant le numéro du schéma
transmis ne sont pas considérés Gamme sensibles, puisque qu'une erreur
sur leur valeur ne fait qu'altérer légèrement l'évolution temporelle de la
valeur de l'énergie. De plus la table de quantification vectorielle des
énergies est organisée pour que l'erreur quadratique moyenne produite
3o par une erreur sur un bit d'adressage soit minimale.
Le codage des coefficients modélisant l'enveloppe du signal de
parole a lieu par quantification vectorielle à l'étape 21. Ce codage permet
de déterminer les coefficients des filtres numériques utilisés dans la partie
synthèse. Six filtres LPC à 10 coefficients numérotés de 0 à 5 sont

CA 02345373 2001-04-03
WO 00/21077 FCT/FR99/0234$
calculés à chaque super-trame par la partie analyse et seulement 3 filtres
parmi ies 6 sont transmis. Les six vecteurs sont transformés en six
vecteurs de 10 paires de raies spectrales LSF suivant par exemple le
processus décrit dans l'article de M F. ITAKURA, intitulé "Line Spectrum
5 Représentation of Linear Predictive Coefficients" et publié dans le Journal
Acoustique Sociaty America, vo1.57, P.S35, 7 975. Les paires de raies
spectrales sont encodée par une technique similaire à celle mise en
oeuvre pour le codage de l'énergie. Le processus consiste à sélectionner
trois filtres LPC, et à quantifier chacun des vecteurs sur 18 bits en
utilisant par exemple un quantificateur vectoriel prédictif en boucle
ouverte, avec un coefficient de prédiction égal à 0,6, de type SPLIT -VQ
portant sur deux sous-paquets de 5 LSF consécutives auxquels il est
alloué à chacun 9 bits. Deux bits sont utilisés pour transmettre le numéro
du schéma de sélection utilisé. Au niveau du décodeur lorsqu'un filtre
LPC n'est pas quantifié, sa valeur est estimée à partir de celle des filtres
LPC quantifiés par interpolation linéaire par exemple, ou par extrapolation
par duplication par exemple du filtre LPC précédent. A titre d'exemple un
processus de quantification vectorielle par paquets pourra être constitué
de la façon décrite dans l'article de MM K.K. PALIWAL, BS. ATAL, ayant
2o pour titre "Efficient Vector Quantization of LPC Parameters at 24
bits/frame" et publié dans IEEE transaction on Speech and Audio
Processing, Vol. 7 , Janvier 1993.
Comme indiqué dans le tableau référencé 24 sur la figure 8,
seuls quatre schémas de sélection sont autorisés. Ces schémas
permettent de coder au mieux, soit les zones pour lesquelles l'enveloppe
spectrale est stable, soit les zones pour lesquelles l'enveloppe spectrale
varie rapidement au cours des trames 1, 2, ou 3. L'ensemble des filtres
LPC est alors codé selon chacun des quatre schémas, et le schéma
effectivement transmis est celui qui minimise l'erreur quadratique totale.
3o De manière similaire au codage de l'énergie, les bits donnant le
numéro du schéma ne sont pas à considérer comme sensibles, puisque
une erreur sur leur valeur ne fait qu'altérer légèrement l'évolution
temporelle des filtres LPC. De plus les tables de quantification vectorielle
des LSF sont organisées dans la partie synthèse de sorte que l'erreur

CA 02345373 2001-04-03
WO 00/21077 PCT/FR99/02348
11
quadratique moyenne produite par une erreur sur un bit d'adressage soit
minimum.
L'allocation des bits pour la transmission des paramètres LSF,
de l'énergie, du pitch et du voisement qui résulte de la méthode de
codage mise en oeuvre par l'invention est représentée dans le tableau de
la figure 9 dans le cadre d'un vocodeur à 1200 bits/s dans lequel les
paramètres sont codés toutes les 67,5 ms; 81 bits étant disponibles à
chaque super trame pour encoder les paramètres du signal. Ces 81 bits
se décomposent en 54 bits LSF, 2 bits pour la décimation du schéma des
1 o LSF, 2 fois 6 bits pour l'énergie, 6 bits pour ie pitch et 5 bits pour le
voisement.

Dessin représentatif
Une figure unique qui représente un dessin illustrant l'invention.
États administratifs

2024-08-01 : Dans le cadre de la transition vers les Brevets de nouvelle génération (BNG), la base de données sur les brevets canadiens (BDBC) contient désormais un Historique d'événement plus détaillé, qui reproduit le Journal des événements de notre nouvelle solution interne.

Veuillez noter que les événements débutant par « Inactive : » se réfèrent à des événements qui ne sont plus utilisés dans notre nouvelle solution interne.

Pour une meilleure compréhension de l'état de la demande ou brevet qui figure sur cette page, la rubrique Mise en garde , et les descriptions de Brevet , Historique d'événement , Taxes périodiques et Historique des paiements devraient être consultées.

Historique d'événement

Description Date
Inactive : CIB désactivée 2021-10-09
Inactive : CIB désactivée 2021-10-09
Inactive : CIB désactivée 2020-02-15
Inactive : CIB attribuée 2019-09-29
Inactive : CIB en 1re position 2019-09-29
Inactive : CIB attribuée 2019-09-29
Inactive : CIB attribuée 2019-09-29
Inactive : CIB attribuée 2019-09-29
Inactive : CIB expirée 2013-01-01
Inactive : CIB expirée 2013-01-01
Inactive : CIB expirée 2013-01-01
Inactive : CIB de MCD 2006-03-12
Inactive : CIB de MCD 2006-03-12
Demande non rétablie avant l'échéance 2005-10-03
Le délai pour l'annulation est expiré 2005-10-03
Inactive : Abandon.-RE+surtaxe impayées-Corr envoyée 2004-10-01
Réputée abandonnée - omission de répondre à un avis sur les taxes pour le maintien en état 2004-10-01
Inactive : Page couverture publiée 2001-06-28
Inactive : CIB en 1re position 2001-06-19
Lettre envoyée 2001-06-11
Inactive : Notice - Entrée phase nat. - Pas de RE 2001-06-11
Demande reçue - PCT 2001-05-29
Demande publiée (accessible au public) 2000-04-13

Historique d'abandonnement

Date d'abandonnement Raison Date de rétablissement
2004-10-01

Taxes périodiques

Le dernier paiement a été reçu le 2003-09-29

Avis : Si le paiement en totalité n'a pas été reçu au plus tard à la date indiquée, une taxe supplémentaire peut être imposée, soit une des taxes suivantes :

  • taxe de rétablissement ;
  • taxe pour paiement en souffrance ; ou
  • taxe additionnelle pour le renversement d'une péremption réputée.

Les taxes sur les brevets sont ajustées au 1er janvier de chaque année. Les montants ci-dessus sont les montants actuels s'ils sont reçus au plus tard le 31 décembre de l'année en cours.
Veuillez vous référer à la page web des taxes sur les brevets de l'OPIC pour voir tous les montants actuels des taxes.

Historique des taxes

Type de taxes Anniversaire Échéance Date payée
Enregistrement d'un document 2001-04-03
Taxe nationale de base - générale 2001-04-03
TM (demande, 2e anniv.) - générale 02 2001-10-01 2001-09-18
TM (demande, 3e anniv.) - générale 03 2002-10-01 2002-09-20
TM (demande, 4e anniv.) - générale 04 2003-10-01 2003-09-29
Titulaires au dossier

Les titulaires actuels et antérieures au dossier sont affichés en ordre alphabétique.

Titulaires actuels au dossier
THOMSON-CSF
Titulaires antérieures au dossier
FREDERIC CHARTIER
PHILIPPE GOURNAY
Les propriétaires antérieurs qui ne figurent pas dans la liste des « Propriétaires au dossier » apparaîtront dans d'autres documents au dossier.
Documents

Pour visionner les fichiers sélectionnés, entrer le code reCAPTCHA :



Pour visualiser une image, cliquer sur un lien dans la colonne description du document (Temporairement non-disponible). Pour télécharger l'image (les images), cliquer l'une ou plusieurs cases à cocher dans la première colonne et ensuite cliquer sur le bouton "Télécharger sélection en format PDF (archive Zip)" ou le bouton "Télécharger sélection (en un fichier PDF fusionné)".

Liste des documents de brevet publiés et non publiés sur la BDBC .

Si vous avez des difficultés à accéder au contenu, veuillez communiquer avec le Centre de services à la clientèle au 1-866-997-1936, ou envoyer un courriel au Centre de service à la clientèle de l'OPIC.

({010=Tous les documents, 020=Au moment du dépôt, 030=Au moment de la mise à la disponibilité du public, 040=À la délivrance, 050=Examen, 060=Correspondance reçue, 070=Divers, 080=Correspondance envoyée, 090=Paiement})


Description du
Document 
Date
(aaaa-mm-jj) 
Nombre de pages   Taille de l'image (Ko) 
Dessin représentatif 2001-06-27 1 7
Description 2001-04-02 11 560
Dessins 2001-04-02 5 116
Abrégé 2001-04-02 1 88
Revendications 2001-04-02 3 154
Rappel de taxe de maintien due 2001-06-10 1 112
Avis d'entree dans la phase nationale 2001-06-10 1 194
Courtoisie - Certificat d'enregistrement (document(s) connexe(s)) 2001-06-10 1 112
Rappel - requête d'examen 2004-06-01 1 116
Courtoisie - Lettre d'abandon (requête d'examen) 2004-12-12 1 167
Courtoisie - Lettre d'abandon (taxe de maintien en état) 2004-11-28 1 176
PCT 2001-04-02 10 360
Taxes 2003-09-28 1 33
Taxes 2001-09-17 1 41
Taxes 2002-09-19 1 40