Language selection

Search

Patent 2304012 Summary

Third-party information liability

Some of the information on this Web page has been provided by external sources. The Government of Canada is not responsible for the accuracy, reliability or currency of the information supplied by external sources. Users wishing to rely upon this information should consult directly with the source of the information. Content provided by external sources is not subject to official languages, privacy and accessibility requirements.

Claims and Abstract availability

Any discrepancies in the text and image of the Claims and Abstract are due to differing posting times. Text of the Claims and Abstract are posted:

  • At the time the application is open to public inspection;
  • At the time of issue of the patent (grant).
(12) Patent Application: (11) CA 2304012
(54) English Title: METHOD FOR DETECTING SPEECH ACTIVITY
(54) French Title: PROCEDE DE DETECTION D'ACTIVITE VOCALE
Status: Dead
Bibliographic Data
(51) International Patent Classification (IPC):
  • G10L 11/02 (2006.01)
  • G10L 11/06 (2006.01)
(72) Inventors :
  • LUBIARZ, STEPHANE (France)
  • LOCKWOOD, PHILIP (France)
(73) Owners :
  • MATRA NORTEL COMMUNICATIONS (France)
(71) Applicants :
  • MATRA NORTEL COMMUNICATIONS (France)
(74) Agent: FETHERSTONHAUGH & CO.
(74) Associate agent:
(45) Issued:
(86) PCT Filing Date: 1998-09-16
(87) Open to Public Inspection: 1999-03-25
Availability of licence: N/A
(25) Language of filing: French

Patent Cooperation Treaty (PCT): Yes
(86) PCT Filing Number: PCT/FR1998/001979
(87) International Publication Number: WO1999/014737
(85) National Entry: 2000-03-15

(30) Application Priority Data:
Application No. Country/Territory Date
97/11640 France 1997-09-18

Abstracts

English Abstract

The invention concerns a method whereby the digital speech signal (s) processed by successive frames is subjected to noise suppression taking into account noise estimations included in the signal, updated for each frame based on at least one degree of speech activity (.gamma.¿n,i?). The method consists in carrying out an a priori noise suppression of each frame speech signal on the basis of the noise estimations obtained while processing at least one previous frame, and analysing the energy variations of the signal which has been subjected to an a priori noise suppression to detect the degree of speech activity of said frame.


French Abstract




Le signal de parole numérique (s) traité par trames successives est soumis à
un débruitage en tenant compte d'estimations du bruit compris dans le signal,
mises à jour pour chaque trame d'une manière dépendante d'au moins un degré
d'activité vocale (.gamma.n,i). On procède à un débruitage a priori du signal
de parole de chaque trame sur la base d'estimations du bruit obtenues lors du
traitement d'au moins une trame précédente, et on analyse les variations
d'énergie du signal débruité a priori pour détecter le degré d'activité vocale
de ladite trame.

Claims

Note: Claims are shown in the official language in which they were submitted.



-18-

REVENDICATIONS

1. Procédé de détection d'activité vocale dans un
signal de parole numérique (s) traité par trames
successives, dans lequel on soumet le signal de parole à
un débruitage en tenant compte d'estimations du bruit
compris dans le signal, mises à jour pour chaque trame
d'une manière dépendante d'au moins un degré d'activité
vocale (.gamma. n,i) déterminé pour ladite trame, caractérisé en
ce qu'on procède à un débruitage a priori du signal de
parole de chaque trame sur la base d'estimations du bruit
(.alpha.'n-t1,i- ~ n-t1,i) obtenues lors du traitement d'au moins une
trame précédente, et on analyse les variations d'énergie
du signal débruité a priori (~p n,i) pour détecter le degré
d'activité vocale de ladite trame.
2. Procédé selon la revendication 1, dans lequel le
degré d'activité vocale (.gamma. n,i) est un paramètre non
binaire.
3. Procédé selon la revendication 2, dans lequel le
degré d'activité vocale (.gamma. n,i) est une fonction, variant
continûment entre 0 et 1.
4. Procédé selon l'une quelconque des revendications
précédentes, dans lequel les estimations du bruit sont
obtenues dans différentes bandes fréquentielles du signal,
le débruitage a priori est effectué bande par bande, et il
est déterminé un degré d'activité vocale (.gamma. n,i) pour
chaque bande.
5. Procédé selon l'une quelconque des revendications
précédentes, dans lequel on obtient une estimation du
bruit ~ n,i pour la trame n dans une bande de fréquences i
sous la forme :



-19-


~n,i = .gamma. n,i.~n-1,i + (1-.gamma. n,i) . ~n,i
avec ~n,i = .lambda.B.~n-1,i + (1-.lambda.B) . S n,1
où .lambda.B est un facteur d'oubli compris entre 0 et 1, .gamma.n,i est
le degré d'activité vocale déterminé pour la trame n dans
la bande de fréquences i, et S n,i est une moyenne de
l'amplitude du spectre du signal de parole de la trame n
sur la bande i.

6. Procédé selon la revendication 5, dans lequel le
signal débruité a priori ~p n,i relativement à une trame n
et à une bande de fréquences i est de la forme :

~p n,i = max{Hp n,i.S n,i, .beta.p i.~n-~l,i}

Image ~1 est un entier au moins
égal à 1, ~2 est un entier au moins égal à 0, .alpha.~-~1,i est
un coefficient de surestimation déterminé pour la trame
n-~1 et la bande i, et .beta. pi est un coefficient positif.

7. Procédé selon l'une quelconque des revendications
précédentes, dans lequel on calcule une estimation à long
terme (E n,i) de l'énergie du signal débruité a priori
(~p n,i), et on compare cette estimation à long terme à une
estimation instantanée (ba) de cette énergie, calculée sur
la trame en cours, pour obtenir le degré d'activité vocale
(.gamma.n,i) de ladite trame.

Description

Note: Descriptions are shown in the official language in which they were submitted.



' CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
PROCEDE DE DETECTION D'ACTIVITE VOCALE
La prsente invention concerne les techniques


numriques de traitement de signaux de parole. Elle


concerne plus particulirement les techniques faisant


appel une dtection d'activit vocale afin d'effectuer


des traitements diffrencis selon que le signal supporte


ou non une activit vocale.


Les techniques numriques en question revent de


domaines varis . codage de la parole pour la transmission


ou le stockage, reconnaissance de la parole, diminution du


bruit, annulation d'cho...


Les mthodes de dtection d'activit vocale or_t


pour principale difficult la distinction entre l'activit


vocale et le bruit qui l'accompagne. Le recours une


technique de dbruitage classique ne permet pas de traiter


cette difficult, puisque ces techniques font elles-mmes


appel des estimations du bruit qui dpendent du degr


d'activit vocale du signal.


Un but principal de la prsente invention est


d'amliorer la robustesse au bruit des mthodes de


dtection d'activit vocale.


L'invention propose ainsi un procd de dtection


d'activit vocale dans un signal de parole numrique


t
i


ra
t par trames successives, dans lequel on soumet le


signal de parole un dbruitage en tenant compte


d'estimations du bruit compris dans le signal, mises


jour pour chaque trame d'une manire dpendante d'au moins


un degr d'activit vocale dtermin pour ladite trame.


Selonl'invention, on procde un dbruitage a priori du


signal de parole de chaque trame sur la base d'estimations


du bruit obtenues lors du traitement d'au moins une trame


prcdente, et on analyse les variations d'nergie du


signal dbruit a priori pour dtecter le degr d'activit


vocale de ladite trame.


Le fait de procder la dtection d'activit


vocale (selon une mthode qui peut gnralement tre toute


mthode connue) sur la base d' un signal dbruit a priori




CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
- 2 -
amliore sensiblement les performances de cette dtection


lorsque le bruit environnant est relativement important.


Dans la suite de la prsente description, on


illustrera le procd de dtection d'activit vocale selon


l'invention dans un systme de dbruitage d'un signal de


parole. On comprendra que ce procd peut trouver des


applications dans de nombreux autres types de traitement


numrique de la parole dans lesquels on souhaite disposer


d' une information sur le degr d' activit vocale du signal


trait . codage, reconnaissance, annulation d'cho...


D'autres particularits et avantages de la


prsente invention apparaitront dans la description ci-


aprs d'exemples de ralisation non limitatifs, en


rfrence aux dessins anr_exs, dans lesquels .


- la figure 1 est un schma synoptique d'ur~


systme de dbruitage mettant en ceuvre la prsente


invention ;


- les figures 2 et 3 sont des organigrammes de


procdures utilises par un dtecteur d'activit vocale du


systme de la figure 1 ;


- la figure 9 est un diagramme reprsentant les


tats d'un automate de tection d'activit vocale ;


- la figure 5 est un graphique illustrant les


variations d'un degr d'activit vocale ;


- la figure 6 est un schma synoptique d'un module


de surestimation du bruit du systme de la figure 1 ;


- la figure 7 est un graphique illustrant le


calcul d'une courbe de masquage ; et


- la figure 8 est un graphique illustrant


l'exploitation des courbes de masquage dans le systme de


la figure 1.


Le systme de dbruitage reprsent sur la figure


1 traite un signal numrique de parole s. Un module de


fentrage 10 met ce signal s sous forme de fentres ou


trames successives, constitues chacune d'un nombre N


d'chantillons de signal numrique. De faon classique,


ces trames peuvent prsenter des recouvrements mutuels.


Dans la suite de la prsente description, on considrera,




CA 02304012 2000-03-15
.. WO 99/14737 PCT/FR98/01979
- 3 -
sans que ceci soit imitatif, que les trames sont


constitues de N=256 chantillons une frquence


d'cha~-tillonnage Fe e 8 kHz, avec une pondration de


Hamming dans chaque fentre, et des recouvrements de 50


entre Tentres conscutives.


La trame de signal est transforme dans le domaine


frquer_tiel par un module 11 appliquant un algorithme


classique de transforme e Fourier rapide (TFR)


pour
calculer le module du spectre du signal
Le mod
l


.
u
e 11
dlivre alors un ensemble de D1=256


composantes


frque~:tielles du signal de parole, notes S
o r


n~f,
.


dsigne le numro de la trame courante, et f une frquence


u spectre discret. Du fait des proprits des
i


s
gnaux


numriques dans le domaine frquentiel, seuls les N/2=128


premiers chantillons sont utiliss.


Pour calculer les estimations du bruit contenu


dans le signal s, on n'utilise pas la rsolution


frquentielle disponible en sortie de la transforme de


Fourier rapide, mais une rsolution plus faible,


20 dtermine par un nombre I e bandes de frquences


couvrant la bande [O,Fe/2) du signal. Chaque band
i


e


( 1 < i < I ) s' tend entre une frquence infrieure f ( i-1
) e t


une frquence suprieure f ( i ) , avec f ( 0 ) =0, et f ( I
) =F
/2 .


e
Ce dcoupage en bandes de frquences peut tre uniforme


2 5 ( f ( i ) -f ( i-1 ) =F
/2I ) . I1 peut galement t


e
re non uniforme


(par exemple selon une chelle de barks). Un module 12


calcule les moyennes respectives des composantes


spectrales Sn~f du signal de parole par bandes


, par


exemple par une pondration uniforme telle que .


_ 1
30 Sn
1
S


'
n,f ( 1 )
f(i) - f(i-1)


f e~f(i-1) ,f(i)~


Ce moyennage diminue les fluctuations entre les


bandes en moyennant les contributions du bruit dans


ces
bandes, ce qui diminuera la variance de l'estimat


eur de
bruit. En outre, ce moyennage permet une forte diminution


35 de la complexit du systme.




CA 02304012 2000-03-15 '
WO 99/14737 PCT/FR98/01979
- 4 -
Les composantes spectrales moyennes Sn
i sont


~


adresses un module 15 de dtection d'activit vocale et


un module 16 d'estimation du bruit. Ces deux modules 15, '


16 for_ctionnent conjointement, en ce sens que des degrs


d' activi t vocale yn~ i mesurs pour les diffrentes bandes '


par le modue 15 sont utiliss par le module 16 pour


estime. l'nergie long terme du bruit dans les


diffrentes bandes, tandis que ces estimations long


terme ~n
i sont utilises par le module 15 pour procder


~


1~0un dbruitage a priori du signal de parole dans les


diffrentes bandes pour dterminer les degrs d'activit


vocale y


n, ~ '


Le fonctionnement des modules 15 et 16 peut


correspondre aux organigrammes reprsents sur les figures


2 et 3.


Aux tapes 17 20, le module 15 procde au


dbruitage a priori du signal de parole dans les


diffrentes bandes i pour la trame de signal n. Ce


dbruitage a priori est effectu selon un processus


classique de soustraction spectrale non linaire partir


d'estimations du bruit obtenues lors d'une ou plusieurs


trames prcdentes. A l'tape 17, le module 15 calcule,


avec la rsolution des bandes i, J_a rponse en frquence


Hpn~i du filtre de dbruitage a priori, selon la formule .


Sn,i - ~n-il,i' Bn-Tl
i


2 ,
5 ( 2 )
Hpn,i -


S
n-T2,i


où zl et z2 sont des retards exprimés en nombre de trames
(tl >_ l, T2 > 0) , et an~i est un coefficient de surestimation ,
du bruit dont 1a détermination sera expliquée plus loin.
Le retard T1 peut étre fixe (par exemple T1=1 ) ou variable .
Il est d'autant plus faible qu'on est confiant dans la
détection d'activité vocale.
Aux étapes 18 à 20, les composantes spectrales


' CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
- 5 -
Epn'i sont calculées selon .
, Ep,~~i = max~Hpn~i. Sn~i . api. Bn_Tl ~i~ ( 3 )
où (api est un coefficient dle plancher proche de 0, servant
classiauement à éviter que le spectre du signal àébruité
prenne des valeurs négatives ou trop faibles qui
provoqueraient un bruit musical.
Les étapes 17 à 20 consistent donc essentiellement
à soustraire du spectre du signal une estimation, majorée
par le coefficient an_~l,i' du spectre du bruit estimé a
î0 priori.
r_ l'étape 21, le module 15 calcule l'éne=g~e du
signa débruité a priori dans les différentes banàes i
pour la trame n . F~.l~i = ~pn,i . I1 calcule aussi une
moyenne globale En~O de l'énergie du signal débruité a
priori, par une somme des énergies par bande En, i'
pondérée par les largeurs de ces bandes. Dans les
notations ci-dessous, l'indice i=0 sera utilisé pour
désigner la bande globale du signal.
Aux étapes 22 et 23, le module 15 calcule, pour
chaque bande i (0<_i<_I), une grandeur ~En~i représentant
la variation à court terme de l'énergie du signal débruité
dans la bande i, ainsi qu' une valeur à long terme En~i de
l' énergie du signal débruité dans la bande i . La grandeur
~En~i peut être calculée par une formule simplifiée de
dérivation , ~En~i = En-4,i + En-3,i - En-l,i - En,i
Quant à
.. _
1 energie à long terme En~i, elle peut être calculée à
l'aide d'un facteur d'oubli Bl tel que 0<B1<1, à savoir
En,i = B1 . En_l.i + !1--B1) . En~i .


CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
- 6 -
Après avoir calculé les énergies En~i du signal
débruité, ses variations à court terme ~En~i et ses
valeurs à long terme En~i de la manière indiquée sur la
figure 2, le module 15 calcule, pour chaque bande i .
(0<_i_<I',, une valeur pi représentative de l'évolution de
l'énergie du signal débruité. Ce calcul est effectué aux
étapes 25 à 36 de la figure 3, exécutées pour chaque bande
i entre i=0 et i=T. Ce calcul fait appel à un estimateur à
long terme de l'enveloppe du bruit bai, à un estimateur
interne bii et à un compteur de trames bruitées bi.
A l' étape 25, la grandeur DEn~ i est comparée ~ un
seuil e~. Si le seuil sl n'est pas atteint, le compteur bi
est incrémenté d'une unité à l'étape 26. A l'étape 27,
l'estimateur à long terme bai est comparé à 1a valeur de
l' énergie ïissée Envi . Si bai >_ En~i , l' estimateur bai est
pris égal à la valeur lissée En~i à l'étape 28, et le
compteur bi est remis à zéro. La grandeur pi, qui est
prise égale au rapport bai/En~i (étape 36), est alors
égale à 1.
Si l' étape 27 montre que bai<En~i , le compteur bi
est comparé à une valeur limite bmax à l'étape 29. Si
bi>bmax, le signal est considéré comme trop stationnaire
pour supporter de l' activité vocale. L' étape 28 précitée,
qui revient à considérer que la trame ne comporte que du
bruit, est alors exécutée. Si bi<_bmax à l'étape 29,
l'estimateur interne bii est calculé à l'étape 33 selon .
b.ü = (1-Bm) . En~i + Bm . bai ( 4 )
Dans cette formule, Bm représente un coefficient de mise à
jour compris entre 0,90 et 1. Sa valeur diffère selon
l'état d'un automate de détection d'activité vocale


CA 02304012 2000-03-15
.. WO 99/14737 PCT/FR98/01979
_ 7 _
(étapes 30 à 32). Cet état 8n_1 est celui déterminé lors
du traitement de la trame précédente. Si l'automate est
dans un état de détection de parole (ôn_1=2 à l' é tape 30 ) ,
le coefficient Bm prend une valeur Bmp très proche de 1
pour que l' estimateur du bruit soit très faiblement mi s à
jour en présence de parole. Dans le cas contraire, le
coefficient Bm prend une valeur Bms plus faible, pour
permettre une mise à jour plus significative de
l'estimateur de bruit en phase de silence. A l'étape 34,
î0 l'écart bai-bii entre l'estimateur à long terme et
l' estimate~,~r interne du bruit est comparé à ur_ seuil s2.
Si le seuil s2 n'est pas atteint, l'estimateur à long
terme ba; est mis à jour avec la valeur de l'estimateur
1
interne bii à l'étape 35. Sinon, l'estimateur à long terme
bai reste inchangé. On évite ainsi que de brutales
variations dues à un signal de parole conduisent à une
mise à jour de l'estimateur de bruit.
Après avoir obtenu les grandeurs pi, le module 15
procède aux décisions d'activité vocale à l'étape 37. Le
module 15 met d'abord à jour l'état de l'automate de
détection selon la grandeur p0 calculée pour l'ensemble de
la bande du signal. Le nouvel état 8 de l'automate dé end
n p
de l'état précédent ôn_1 et de p0, de la manière
représentée sur la figure 4.
Quatre états sont possibles . 8=0 détecte le
silence, ou absence de parole ; 8=2 détecte la présence
d'une activité vocale ; et les états b=1 et 8=3 sont des
états intermédiaires de montée et de descente. Lorsque
l'automate est dans l'état de silence (8n_1=0), il y reste
si p0 ne dépasse pas un premier seuil SE1, et il passe
dans l'état de montée dans le cas contraire. Dans l'état
de montée (8n_1=1), il revient dans l'état de silence si


CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
g
p0 est plus petit que le seuil SEl, il passe dans l'état
de parole si p0 est plus grand qu'un second seuil SE2 plus
grand que le seuil SE1, et il reste dans l' état de montée
si SEl<_ p0<_SE2. Lorsque l'automate est dans l'état de .
parole (8n_1=2), i1 y reste si p0 dépasse un troisième
seuil SE3 plus petit que le seuil SE2, et il passe dans
l'état de descente dans le cas contraire. Dans l'état de
descente (8n_1=3), l'automate revient dans l'état de
parole si p0 est plus grand que le seuil SE2, il revient
dans l'état de silence si p0 est en deçà d'un quatrième
seuil SE4 plus petit que le seuil SE2, et il reste dans
l'état de descente si SE4_< p0_<SE2.
A l'étape 37, le module 15 calcule également les
degrés d'activité vocale yn~i dans chaque bande i>_1. Ce
degré yn~i est de préférence un paramètre non binaire,
c'est-à-dire que la fonction Yn,i-g(pi) est une fonction
variant continûment entre 0 et 1 en fonction des valeurs
prises par la grandeur pi. Cette fonction a par exemple
l'allure représentée sur la figure ,5.
Le module 16 calcule les estimations du bruit par
bande, qui seront utilisées dans le processus de
débruitage, en utilisant les valeurs successives des
composantes Sn~i et des degrés d'activité vocale °ln,i'
Ceci correspond aux étapes 40 à 42 de la figure 3. A
l'étape 40, on détermine si l'automate de détection
d'activité vocale vient de passer de l'état de montée à
l'état de parole. Dans l'affirmative, les deux dernières
estimations Bn_l,i et Bn_2,i précédemment calculées pour '
chaque bande i>_1 sont corrigées conformément à la valeur
de l'estimation précédente Bn_3~~. Cette correction est
effectuée pour tenir compte du fait que, dans la phase de


CA 02304012 2000-03-15
,_ WO 99/14737 PCT/FR98/01979
- 9 -
montée (8=1), les estimations à long terme de l'énergie du
bruit dans le processus de détection d'activité vocale
(étapes 30 à 33) ont pu être calculées comme si le signal
ne comportait que du bruit (Bm=Bms), de sorte qu'elles
risquent d'être entachées d'erreur.
A l'étape 42, le module ï6 met à jour les
estimations du bruit par bande selon les formules .
81,~~1 = 7~B. Bn_l~i + (1-7~B) . Sn~1 ( 5 )
Bn~1 = ,~n~i. Bn_l~i + (1-yn~i) . Bn~i (6)
où 7~B désigne un facteur d' oubli tel que 0<7~B<1 . La
formula (6) met en évidence la prise en compte du degré
d'activité vocale non binaire Yn,i'
Comme indiqué précédemment, les estimations à 1 ong
terme du bruit Bn~i font l'objet d'une surestimation, par
un module 45 (figure 1), avant de procéder au débruitage
par soustraction spectrale non linéaire. Le module 45
calcule le coefficient de surestimation an~i précédemment
évoqué, ainsi qu'une estimation majorée Bn~1 qui correspond
essentiellement à an~1 . Bn~i .
L'organisation du module de surestimation 45 est
représentée sur la figure 6. L'estimation majorée Bn~i est
obtenue en combinant l'estimation à long terme Bn~1 et une
mesure OBn1 de la variabilité de la composante du bruit
dans la bande i autour de son estimation à long terme.
Dans l'exemple considéré, cette combinaison est, pour
. l'essentiel, une simple somme réalisée par un additionneur
46. Ce pourrait également être une somme pondérée.
Le coefficient de surestimation an~i est égal au
rapport entre la somme Bn~i + OBn ï délivrée par


CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
- 10 -
l'additionneur 46 et l'estimation à long terme retardée
Bn-T3,i (diviseur 47), plafonné à une valeur limite amax'
par exemple amax-4 (bloc 48). Le retard T3 sert à corriger
le cas échéant, dans les phases de montée (b=1), la valeur
du coefficient àe surestimation ani, avant que les
estimations à long terme aient été corrigées par les
étapes 40 et 41 de la figure 3 (par exemple T3=3).
L'estimation majorée Bn,i est finalement prise
égale à a~ . B (multiplieur 49) .
n,i n-t3,i
~~a mesure ORnax de l a variabilité du bruit reflète
1 a variance de I' estimateur de bruit. Elle est obtenue en
fonction des valeurs de Sn, i et de Bn,~ calculées pour un
certain nombre de trames précédentes sur lesquelles le
signal de parole ne présente pas d'activité vocale dans Ia
bande i . C' est une fonction des écarts ISn-k,i - Bn-k,'
calculés pour un nombre K de trames de silence (n-k<_ n).
Dans l'exemple représenté, cette fonction est simplement
le maximum (bloc 50). Pour chaque trame n, le degré
d'activité vocale ~n,i est comparé à un seuil (bloc 51)
pour décider si l' écart ISn,i - Bn,il , calculé en 52-53, doit
ou non être chargé dans une file d'attente 54 de K
emplacements organisée en mode premier entré-premier sorti
(FIFO). Si ~~n,i ne dépasse pas le seuil (qui peut être
égal à 0 si la fonction g() a la forme de la figure 5), la
FIFO 54 n' est pas alimentée, tandis qu' elle l' est dans le
cas contraire. La valeur maximale contenue dans Ia FIFO 54
est alors fournie comme mesure de variabilité OBni .
La mesure de variabilité OBnï peut, en variante,
être obtenue en fonction des valeurs'Sn,f (et non Sn,i) et


CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
- 11 -
Bn~i. On procède alors de la mème manière, sauf que la FIFO
54 contient non pas I Sn-k,i - Bn-k,i pour chacune des bandes
i, mais plutôt ~ max ~ ISn-k, f - Bn-k,il
f E f (i-1) , f (i)
Gràce aux estimations indépendantes des
fluctua~ions à long terme du bruit Bn~i et de sa
_.
variabil i té à court terme OBn ï , l' estimateur majoré ~n i
procure une excellente robustesse aux bruits musicaux du
procédé de débruitage.
Une première phase de la soustraction spectrale
lû est ré~?isée par le module 55 représenté sur la figure 1.
Cette phase fournit, avec la résolution des bandes i
(1<-i<_I), la réponse en fréquence Hn~i d'un premier filtre
de débruitage, en fonction des composantes Sn~ i et Bn~; et
des coefficients de surestimation an~i. Ce calcul peut
être effectué pour chaque bande i selon la formule .
' 1
max Sn~i - an,i. Bn,i ' ~3i. Bn,i
Hn,i - S ( 7 )
n-T4,i
où i4 est un retard entier déterminé tel que z4>_0 (par
exemple Z4=0) . Dans l' expression (7) , le coefficient j3i
représente, comme le coefficient ~3pi de la formule (3), un
plancher servant classiquement à éviter les valeurs
négatives ou trop faibles du signal débruité.
De façon connue (EP-A-0 534 837), le coefficient
de surestimation an~i pourrait être remplacé dans la
formule (7) par un autre coefficient égal à une fonction
de an~i et d'une estimation du rapport signal-sur-bruit
(par exemple Sn~i/Bn,i), cette fonction étant décroissante


CA 02304012 2000-03-15
_ WO 99/14737 PCT/FR98/01979
- 12 -
selon ia valeur estimée du rapport signal-sur-bruit. Cette
fonction est alors égale à an~~ pour les valeurs 1 es plus
faibles du rapport signal-sur-bruit. En effet, lorsque le
signal est très bruité, il n'est a priori pas utile de
diminuei le facteur de surestimation. Avantage~~sement,
cette fonction décroît vers zéro pour les valeurs les plus
élevées du rapport signal/bruit. Ceci permet de protéger
les zones les plus énergétiques du spectre, où le signal
de parole est le plus significatif, la quantité soustraite
l~ du signal tendant alors vers zéro.
Cette stratégie peut être affinée en l'appliquant
de manière sélective aux harmoniques de la fréquence
tonale (« pitch ») du signal de parole lorsque celui-ci
présente une activité vocale.
15 Ainsi, dans la réalisation représentée sur la
figure 1, une seconde phase de débruitage est réalisée par
un module 56 de protection des harmoniques. Ce module
calcule, avec Ia résolution de la transformée de Fourier,
la réponse en fréquence Hn~f d'un second filtre de
20 débruitage en fonction des paramètres Hn~i, an,i' ~n,i' Sn'
Sn~i et de la fréquence tonale fp=Fe/Tp calculée en dehors
des phases de silence par un module d'analyse harmonique
57. En phase de silence (8n=0), le module 56 n'est pas en
service, c'est-à-dire que Hn f = Hn i Pour cha ue
q
25 fréquence f d'une bande i. Le module 57 peut appliquer
toute méthode connue d'analyse du signal de parole de la
trame pour déterminer la période Tp, exprimée comme un
nombre entier ou fractionnaire d'échantillons, par exemple
une méthode de prédiction linéaire.
30 La protection apportée par le module 56 peut
consister à effectuer, pour chaque fréquence f appartenant
à une bande i .

CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
- 13 -
2
Sn~i - a,n~i. Bn~i > (31. Bn~1
Hn~ f = 1 s i
et ~r~ entier ~ If - r). fp) _< ~f / 2 (9)
Hn,f = Hn f sinon
~f=Fe/N représente la résolution spectrale àe la
transformée de Fourier. Lorsque Hn~f =1, la quantité
soustraite de la composante Sn~f sera nulle. Dans ce
calcul, les coefficients de plancher X31 (par exemple
2 1
(31 = (3i ) expriment le fait que certaines harmoniques de la
fréquence tonale fp peuvent être masquées par du :croit, àe
sorte ûu'il n'est pas utile de les protéger.
Cette stratégie de protection est de préférence
appliquée pour chacune des fréquences les plus proches des
harmoniques de fp, c'est-à-dire pour r~ entier quelconque.
Si on désigne par 8fp la résolution fréquentielle
avec laquelle le module d'analyse 57 produit la fréquence
tonale estimée fp, c'est-à-dire que la fréquence tonale
réelle est comprise entre fp-8fp/2 et fp+8fp/2, alors
l'écart entre la r)-ième harmonique de la fréquence tonale
réelle est son estimation r~xfp (condition (9)) peut aller
j usqu' à ~ r~x8fp/2 . Pour les valeurs élevées de r~, cet écart
peut être supérieur à la demi-résolution spectrale ~f/2 de
la transformée de Fourier. Pour tenir compte de cette
incertitude et garantir la bonne protection des
harmoniques de la fréquence tonale réelle, on peut
protéger chacune des fréquences de l'intervalle
~r~xfp- r~x$fp/2 , r~xfp+ r)x8fp/2J, c'est-à-dire remplacer la
tcondition (9) ci-dessus par .
entier ~ f - r~. fpl _< ~r~. 8fp + G1f)/2


CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
- 14 -
Cette façon de procéder (condition (9')) présente un
intérêt particulier lorsque les valeurs de r~ peuvent être
grandes, notamment dans le cas où le procédé est utilisé
dans un système à bande élargie.
Pour chaque fréquence protégée, la réponse en .
fréquence corrigée Hn~ f peut être égale à 1 comme indiqué
ci-dessus, ce qui correspond à la soustraction d'une
quantité nulle dans le cadre de la soustraction spectrale,
c'est-à-dire à une protection complète de la fréquence en
question. Plus généralement, cette réponse en fréquence
corrigée Hn~f pourrait être prise égale à une valeur
comprise entre 1 et Hl selon le degré de protection
r.,f
souhaité, ce qui correspond à la soustraction d'une
quantité inférieure à celle qui serait soustraite si la
fréquence en question n'était pas protégée.
Les composantes spectrales Sn~f d'un signal
débruité sont calculées par un multiplieur 58 .
2 2
Sn~f = Hn~f. Sn~f (10)
Ce signal Sn~f est fourni à un module 60 qui
calcule, pour chaque trame n, une courbe de masquage en
appliquant un modèle psychoacoustique de perception.
auditive par l'oreille humaine.
Le phénomène de masquage est un principe connu du
fonctionnement de l'oreille humaine. Lorsque deux
fréquences sont entendues simultanément, il est possible
que l'une des deux ne soit plus audible. On dit alors
qu'elle est masquée.
I1 existe différentes méthodes pour calculer des
courbes de masquage. On peut par exemple utiliser celle .
développée par J.D. Johnston («Transform Coding of Audio
Signals Using Perceptual Noise Criteria », IEEE Journal on
Selected Area in Communications, Vol. 6, No. 2,
février 1988). Dans cette méthode, on travaille dans
l'échelle fréquentielle des barks. La courbe de masquage


CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
- 15 -
est vus comme la convolution de la fonction d'étalement
spectral de la membrane basilaire dans le domaine bark
avec le signal excitateur, constitué dans la présente
applica~ion par le signal Sn~f . La fonction d'étalement
spectral peut être modélisée de la manière représer_tée sur
la figure 7. Pour chaa_ue bande de bark, on calcule la
contribution des bandes inférieures et supérieures
convoluées par la fonction d'étalement de la membrane
basilaire .
2 2
q-1 S Q S
, ,


C n~a n q


n ' + ( 11 )
q ~ ~
~


' ~l Olo/lol(q-q) W)
q J , 25/10 (~i
0 q -q+1 10
~


o les indices q et q' dsignent les bandes e bark


( 0 ~ q. q' <-Q) . et Sn~q, reprs ente la
moyenne
des composantes



Sn~f du signal excitateur débruité pour les fréquences
discrètes f appartenant à la bande de bark q'.
15 Le seuil de masquage Mn~q est obtenu par le module
60 pour chaque bande de bark q, selon la formule .
(12)
Mn. q Vin, q~Rq
où Rq dépend du caractère plus ou moins voisé du signal.
De façon connue, une forme possible de Rq est
20 10 . 1og10 (Rq) - (A+q) .x + B . ( 1-x) ( 13 )
avec A=14,5 et B=5,5. x désigne un degré de voisement du
signal de parole, variant entre zéro (pas de voisement) et
1 (signal fortement voisé). Le paramètre x peut être de la
forme connue .
= min SFM ~ 1 (12)
SFMmax
où SFM représente, en décibels, le rapport entre la
moyenne arithmétique et la moyenne géométrique de
l'énergie des bandes de bark, et SFMmax=-60 dB.
Le système de débruitage comporte encore un module
62 qui corrige la réponse en fréquence du filtre de


CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
- 16 -
débruitage, en fonction de la courbe de masquage Mn~q
calculée par le module 60 et des estimations majorées Bn,i
calculées par le module 45. Le module 62 décide du niveau
de débruitage qui doit réellement être atteint.
En comparant l'enveloppe de l'estimation majorée
du bruit avec l'enveloppe formée par les seuils de
masquage Mn~q, on décide de ne débruiter le signal que
dans la mesure où l'estimation majorée Bn~1 àépasse la
courbe de masquage. Ceci évite de supprimer inutilement du
bruit masqué par de la parole.
La nouvelle réponse Hn~f, pour une fréquence r
appartenant à ïa bande i définie par le module 12 et à la
bande de bark q, dépend ainsi de l'écart relatif entre
l'estimation majorée B"; de la composante spectrale
correspondante du bruit et la courbe de masquage Mn~q, de
la manière suivante
Hn~ f = 1 - Cl - Hn~ f) . max Bn~~ ", Mn~q , 0 ( 14 )
Bn,i
En d' autres termes, la quantité soustraite d' une
composante spectrale Sn~f, dans le processus de
soustraction spectrale ayant la réponse fréquentielle
Hn~f, est sensiblement égale au minimum entre d'une part
la quantité soustraite de cette composante spectrale dans
le processus de soustraction spectrale ayant la réponse
fréquentielle Hn~f, et d'autre part la fraction de
l'estimation majorée Bn~i de la composante spectrale
correspondante du bruit qui, le cas échéant, dépasse la
courbe de masquage Mn~q.
La figure 8 illustre le principe de la correction
appliquée par le module 62. Elle montre schématiquement un


CA 02304012 2000-03-15
WO 99/14737 PCT/FR98/01979
- 17 -
exemple de courbe de masquage Mn~q calculée sur la base
des composantes spectrales Sn~f du signal débruité, ainsi
que l'estimation majorée Bn~i du spectre du bruit. La
quantité finalement soustraite des composantes S ~ sera
r~ ,
celle représentée par les zones hachurées, c'est-à-dire
limitée à la fraction de l'estimation majorée Bn~~ des
composantes spectrales du bruit qui dépasse la courbe de
masquage.
Cette soustraction est effectuée en multipliant 1a
réponse fréquentielle H3 ~ du filtre de débruitage par les
n,l
composantes spectrales Sn~f du signaï de parole
(multiplieur 64). Un module 65 reconstruit alors le signal
débruité dans le domaine temporel, en opérant la
transformée de Fourier rapide inverse (TFRI) inverse des
échantillons de fréquence Sn~f délivrés par le multiplieur
64. Pour chaque trame, seuls les N/2=128 premiers
échantillons du signal produit par le module 65 sont
délivrés comme signal débruité final s3, après
reconstruction par addition-recouvrement avec les N/2=128
derniers échantillons de 1a trame précédente (module 66).

Representative Drawing
A single figure which represents the drawing illustrating the invention.
Administrative Status

For a clearer understanding of the status of the application/patent presented on this page, the site Disclaimer , as well as the definitions for Patent , Administrative Status , Maintenance Fee  and Payment History  should be consulted.

Administrative Status

Title Date
Forecasted Issue Date Unavailable
(86) PCT Filing Date 1998-09-16
(87) PCT Publication Date 1999-03-25
(85) National Entry 2000-03-15
Dead Application 2004-09-16

Abandonment History

Abandonment Date Reason Reinstatement Date
2003-09-16 FAILURE TO PAY APPLICATION MAINTENANCE FEE
2003-09-16 FAILURE TO REQUEST EXAMINATION

Payment History

Fee Type Anniversary Year Due Date Amount Paid Paid Date
Application Fee $300.00 2000-03-15
Registration of a document - section 124 $100.00 2000-05-11
Maintenance Fee - Application - New Act 2 2000-09-18 $100.00 2000-08-23
Maintenance Fee - Application - New Act 3 2001-09-17 $100.00 2001-08-27
Maintenance Fee - Application - New Act 4 2002-09-16 $100.00 2002-08-28
Owners on Record

Note: Records showing the ownership history in alphabetical order.

Current Owners on Record
MATRA NORTEL COMMUNICATIONS
Past Owners on Record
LOCKWOOD, PHILIP
LUBIARZ, STEPHANE
Past Owners that do not appear in the "Owners on Record" listing will appear in other documentation within the application.
Documents

To view selected files, please enter reCAPTCHA code :



To view images, click a link in the Document Description column. To download the documents, select one or more checkboxes in the first column and then click the "Download Selected in PDF format (Zip Archive)" or the "Download Selected as Single PDF" button.

List of published and non-published patent-specific documents on the CPD .

If you have any difficulty accessing content, you can call the Client Service Centre at 1-866-997-1936 or send them an e-mail at CIPO Client Service Centre.


Document
Description 
Date
(yyyy-mm-dd) 
Number of pages   Size of Image (KB) 
Abstract 2000-03-15 1 72
Representative Drawing 2000-06-13 1 10
Cover Page 2000-06-13 1 45
Description 2000-03-15 17 749
Claims 2000-03-15 2 75
Drawings 2000-03-15 5 102
Correspondence 2000-05-11 1 27
Assignment 2000-03-15 3 124
PCT 2000-03-15 11 402
Assignment 2000-05-11 2 78