Note: Descriptions are shown in the official language in which they were submitted.
CA 02 909580 2015-10-15
WO 2014/170580
PCT/FR2014/050846
1
Procédé de restitution sonore d'un signal numérique audio
Domaine de l'invention
La présente invention concerne le domaine du
traitement des signaux audio pour améliorer la perception
lors de la restitution sonore.
On connaît par exemple la demande de brevet
internationale W02012088336 décrivant un procédé de
traitement d'une source sonore audio pour créer des quatre
dimensions du son spatialisé.
Une source sonore virtuelle peut être déplacé le
long d'un chemin dans un espace tridimensionnel sur une
période de temps spécifiée pour obtenir la localisation du
son à quatre dimensions.
Les divers modes de réalisation décrits ici
fournissent des méthodes et des systèmes pour la conversion
mono existant, 2-canal et / ou multi-canaux de signaux audio
en signaux audio spatialisées ont deux ou plusieurs canaux
audio.
Les divers modes de réalisation décrivent également
les méthodes, les systèmes et appareils pour la production
effets basse fréquence et les signaux du canal central à
partir de signaux audio entrants ayant un ou plusieurs
canaux.
On connaît par la demande de brevet W09914983 un
dispositif permettant de créer et d'utiliser une paire de
haut-parleurs opposés d'un casque d'écoute, la sensation
d'une source sonore étant éloignée de la zone située entre
lesdits haut-parleurs. Le dispositif comprend :
- une série d'entrées audio représentant des
signaux audio projetés depuis une source sonore théorique
située à distance de l'auditeur théorique;
- une première matrice de mixage, connectée aux
entrées audio et à une série d'entrées de retour, qui produit
CA 02 909580 2015-10-15
WO 2014/170580
PCT/FR2014/050846
2
une combinaison prédéterminée desdites entrées audio
constituant des signaux de sortie intermédiaires;
- un système de filtre, qui filtre lesdits signaux
de sortie intermédiaires et produit des signaux de sortie
intermédiaires filtrés et la série d'entrées de retour, et
qui comprend des filtres séparés pour filtrer la réponse
directe et la réponse rapide et une approximation de la
réponse réverbérée, et pour filtrer la réponse de retour de
façon à produire les entrées de retour; et
- une seconde matrice de mixage, qui combine les
signaux de sortie intermédiaires filtrés afin de produire des
sorties stéréophoniques de canal droit et de canal gauche.
Le brevet européen EP2119306 décrit appareil pour
le traitement d'une source sonore audio pour créer des quatre
dimensions du son spatialisé. Une source sonore virtuelle
peut être déplacé le long d'un chemin dans un espace
tridimensionnel sur une période de temps spécifiée pour
obtenir la localisation du son à quatre dimensions.
Un filtre binaural pour un point spatial souhaité
est appliqué à la forme d'onde audio pour produire une forme
d'onde spatialisée que, lorsque la forme d'onde spatialisée
est joué depuis une paire d'enceintes, le son semble provenir
du point choisi spatial au lieu des haut-parleurs.
Un filtre binaural pour un point de l'espace est
simulé par interpolation du plus proche voisin filtres
binauraux choisis parmi une pluralité de filtres prédéfinis
binauraux.
La forme d'onde audio peut être traitée
numériquement en chevauchement des blocs de données à l'aide
d'un court temps de transformation de Fourier.
Le son localisé peut être traité ultérieurement
pour la simulation de décalage Doppler et de chambre.
La présente invention concerne un procédé de
traitement d'un signal audio originel de N.x canaux, N étant
CA 02 909580 2015-10-15
WO 2014/170580
PCT/FR2014/050846
3
supérieur à 1 et x étant supérieur ou égal à 0, comportant
une étape traitement multicanal dudit signal audio d'entrée
par une convolution multicanal avec une empreinte prédéfinie,
ladite empreinte étant élaborée par la capture d'un son de
référence par un ensemble d'enceintes disposé dans un espace
de référence caractérisé en ce qu'il comporte une étape
additionnelle de sélection d'au moins une empreinte parmi une
pluralité d'empreintes préalablement élaborées dans des
contextes sonores différents.
La demande de brevet W02012172264 décrit un procédé
de traitement d'un signal audio originel de N.x canaux, N
étant supérieur à 1 et x étant supérieur ou égal à 0,
comportant une étape traitement multicanal dudit signal audio
d'entrée par une convolution multicanal avec une empreinte
prédéfinie, ladite empreinte étant élaborée par la capture
d'un son de référence par un ensemble d'enceintes disposé
dans un espace de référence caractérisé en ce qu'il comporte
une étape additionnelle de sélection d'au moins une empreinte
parmi une pluralité d'empreintes préalablement élaborées dans
des contextes sonores différents.
La demande de brevet W09725834 propose un autre
procédé et dispositif de traitement de signaux audio
multicanaux, chaque canal correspondant à un haut-parleur
disposé en un point particulier une pièce de façon à donner,
via un casque audio, l'impression que de multiples de haut-
parleurs 'fantômes' sont répartis dans la pièce. On
sélectionne des fonctions HRTF de transfert par rapport à la
tête (Head Related Transfer Functions) en prenant en
considération la hauteur et l'azimut de chaque haut-parleur
considéré par rapport à l'auditeur. Chaque canal fait l'objet
d'un filtrage HRTF de sorte que, lorsque ces canaux sont
combinés dans les canaux gauche et droit et restitués par un
casque audio, l'auditeur a l'impression que le son provient
effectivement de haut-parleurs fantômes répartis dans la
pièce virtuelle. Des jeux de coefficients HRTF saisis en base
CA 02 909580 2015-10-15
WO 2014/170580
PCT/FR2014/050846
4
de données à partir d'un grand nombre d'individus et
l'utilisation pour l'auditeur concerné d'un jeu HRTF optimal
lui fournit des impressions d'écoute semblables à celle
qu'aurait un auditeur isolé s'il écoutait de multiples haut-
parleurs répartis dans le volume d'un local. L'application
d'une fonction HRTF à la sortie des canaux droit et gauche
permet, dans le cas d'une écoute au casque, de donner
l'impression d'une écoute sans casque.
Inconvénients de l'art antérieur
Les solutions de l'art antérieur restent limitées
par les qualités intrinsèques du moyen de restitution (casque
ou haut-parleurs) ainsi que de leur adéquation au traitement
appliqué au signal audio.
Par ailleurs, certains traitements de l'art
antérieur nécessitent des puissances de calcul importantes,
peu compatibles avec les capacités des tablettes, téléphones
ou lecteurs portatifs.
Solution apportée par l'invention
L'objet de la présente invention est d'améliorer la
qualité perçue et notamment l'étendue de la spatialisation, y
compris avec des moyens de reproduction de qualité moyenne,
tels que des stations d'accueil de tablettes ou téléphones
portables ( docks ).
A cet effet, l'invention concerne selon son
acception la plus générale un procédé de restitution sonore
d'un signal numérique audio caractérisé en ce que l'on procède
à une étape de suréchantillonnage consistant à produire à
partir d'un signal échantillonné à une fréquence F un signal
échantillonné à une fréquence NxF, où N correspond à un entier
supérieur à 1, puis à appliquer un traitement de convolution
sur un premier fichier numérique échantillonné à une fréquence
CA 02 909580 2015-10-15
WO 2014/170580
PCT/FR2014/050846
NxF correspondant à l'acquisition de l'ambiance sonore d'un
espace sonore de référence, un second fichier numérique
échantillonné à une fréquence NxF correspondant à
l'acquisition de l'empreinte sonore d'un équipement de
5 restitution de référence, et troisième fichier numérique
échantillonné à une fréquence NxF correspondant à
l'acquisition de l'empreinte sonore d'un équaliseur ainsi
qu'un quatrième fichier correspondant audit fichier audio
suréchantillonné, les paquets numériques résultant faisant
ensuite l'objet d'un traitement numérique de conversion à une
fréquence d'échantillonnage F/M correspondant à la fréquence
de travail de l'équipement d'écoute.
Le traitement est basé sur une opération de
convolution mathématique, et utilise plusieurs échantillons
audios préenregistrés de la réponse impulsionnelle de
l'espace modélisé ainsi que d'un équaliseur et d'un
équipement de restitution.
Selon une variante, le procédé comporte une étape
supplémentaire de recalcule du fichier correspondant à ladite
empreinte sonore de l'espace sonore de référence, pour
modifier l'équilibre entre les voies spatiale de ladite
empreinte sonore.
Description détaillée d'exemples de réalisation non limitatifs
L'invention sera mieux comprise à la lecture de la
description qui suit, se référant au dessin annexé
correspondant à des exemples de réalisation non limitatifs
où :
- la figure 1 représente une vue schématique des
traitements du signal selon l'invention.
CA 02 909580 2015-10-15
WO 2014/170580
PCT/FR2014/050846
6
Le procédé de traitement selon l'invention consiste
à produire différentes empreintes acoustiques d'une source
sonore, en vue de réaliser une convolution de ces différentes
empreintes sonores.
La technologie des convolutions est une technique
connue de captation par l'utilisateur, puis la reproduction
du comportement acoustique d'un lieu ou d'un appareil. A
titre d'exemple, les réverbérations à convolution permettent
de proposer d'utiliser les acoustiques de nombreux lieux
réels, salles de concert célèbres ou autres : ces
acoustiques, préalablement échantillonnées, susceptibles
d'être réutilisées à volonté au sein du programme.
Dans le cas du son à l'image, la première idée
d'exploitation de cette possibilité a été la captation des
acoustiques des décors de tournages dans le but d'obtenir des
raccords acoustiques directs entre les sons directs et sons
rajoutés en post-production (post-synchronisation, bruitages)
Le principe est alors de réaliser l'échantillonnage
des acoustiques des décors dans lesquels les scènes du films
ont été tournées, afin de pouvoir aisément appliquer cette
acoustique aux éléments enregistrés a posteriori pour que
ceux-ci s'intègrent parfaitement aux sons issus des prises
directes.
Le capteur de Réponses Impulsionnelles pour obtenir
la réponse impulsionnelle d'un matériel ou d'une salle
constituant l'empreinte sonore est basée sur la
"déconvolution". Elle utilise l'excitation du système par un
signal connu (appelé ici f(t)). Ce signal est tel que si on
lui applique une transformée (fonction de déconvolution), le
résultat est la fonction de Dirac.
La fonction de déconvolution est choisie telle que,
pour le signal d'excitation f(t) et une fonction h(t)
quelconque :
G[f(t)] = 15(t)
CA 02 909580 2015-10-15
WO 2014/170580
PCT/FR2014/050846
7
G[f(t) * h(t)] = G[h(t)] * f(t) = G[f(t)] * h(t)
Grâce à cette fonction de déconvolution, on produit
un signal de réponse impulsionnel d'un système à partir de la
réponse de celui-ci à un signal d'excitation différent de
l'impulsion de Dirac.
Les types de signaux utilisés pour la capture de
réponses impulsionnelles ressemble, à l'écoute, à un bruit
gaussien ou un bruit blanc . Les séquences d'excitation
sont générées par un algorithme déterministe et sont
périodiques (des périodes de l'ordre de quelques secondes ou
dizaines de seconde pour notre application) et constituent un
signal pseudo-aléatoire.
Ces séquences sont créées par des registres à
décalage à rétroaction linéaire (linear feedback shift
registers, LFSR). Cette structure de registres, dont l'ordre
est déterminé par le nombre de registres, est telle que sur
sa période elle produira l'ensemble des valeurs binaires
possible pour son ordre (si structure d'ordre 4, il existe 2'
valeurs possibles). Ces séquences sont connues par l'homme du
métier sous le terme de MLS, Maximum Length Sequence : la
séquence de nombre binaires la plus longue possible sans
répéter deux fois la même valeur.
La popularité initiale de la MLS est issue de la
facilité du procédé de déconvolution.
En effet, le signal MLS est tel que pour sa
déconvolution, on peut utiliser une transformée appelée
transformée d'Hadamard, qui simplifie les calculs et a
l'avantage d'être calculable informatiquement en utilisant
peu de ressources.
Une autre solution de signal d'excitation est basée
sur la technique dite sweep logarithmique , ou sweep
exponentiel , correspondant comme son nom l'indique à un
CA 02 909580 2015-10-15
WO 2014/170580
PCT/FR2014/050846
8
sinus glissant dont la fréquence est liée au temps par une
loi exponentielle. Cela implique que le glissement est plus
rapide aux fréquences élevées qu'aux fréquences basses, et
par conséquent son spectre est celui d'un bruit rose (moins
d'énergie est dégagé dans les fréquences hautes puisque moins
de temps y est consacré).
Il existe deux façons de déconvoluer les mesures
ainsi effectuées. La première utilise le passage dans le
domaine fréquentiel pour faire les calculs avant de revenir
en temporel. La seconde consiste à convoluer non-
périodiquement le signal enregistré avec le signal
d'excitation retourné temporellement :
h(t) = r(t) * s(T - t) avec T la durée du sweep
En procédant ainsi, deux avantages apparaissent :
¨ Les distorsions non-linéaires du système sont
totalement rejetées et ne perturbent pas la mesure de la
réponse impulsionnelle linéaire du système
¨ La méthode supporte bien les légères
désynchronisation : on peut diffuser le sweep depuis un
appareil et l'enregistrer avec un autre sans que ces deux
machine soient synchronisées par une horloge.
Dans la présente invention, on procède à la capture
de trois empreintes sonores ou réponses impulsionnelles,
correspondant :
- à une empreinte sonore d'un moyen d'écoute, par
exemple d'un casque
- à une empreinte sonore d'un équaliseur
- à une empreinte sonore d'un espace sonore de
référence.
Chacune de ces réponses impulsionnelles est
capturée à partir d'un signal de référence à un
échantillonnage élevé, supérieur à la
fréquence
d'échantillonnage nominale de l'équipement de restitution.
A titre d'exemple, l'empreinte de salle (3) est
acquise à partir d'un bruit blanc produisant un fichier de 6
CA 02 909580 2015-10-15
WO 2014/170580
PCT/FR2014/050846
9
Moctets par enceinte, pendant une durée longue supérieure à
500 millisecondes, de préférence comprise entre une et deux
secondes. Le fichier correspondant à la réponse
impulsionnelle est ensuite comprimé sans perte (compression
ZIP par exemple) et crypté.
L'empreinte du casque (1) (ou d'une série
d'enceintes) est acquise de la même façon avec un signal
blanc ou rose d'une durée d'environ 200 millisecondes,
avantageusement entre 100 et 500 millisecondes.
L'empreinte de l'équaliseur (2) est acquise de la
même façon avec un signal blanc ou rose d'une durée d'environ
200 millisecondes, avantageusement entre 100 et 500
millisecondes pour chacun des réglages de l'équaliseur.
Ces trois fichiers de réponse impulsionnelle (1 à
3) ainsi que le fichier numérique du signal audio (4) font
l'objet d'un traitement de convolution (5) basé sur un
traitement par transformée de fourrier rapide FFT.
Pour réduire les temps de calcul, on procède à une
étape (6) permettant de recalculer dynamiquement les
empreintes gauches et droites en fonction des particularités
de l'équipement de restitution et le cas échéant des
particularités sensorielles de l'auditeur. Il dispose par
exemple d'un moyen de réglage permettant de modifier la
position spatiale virtuelle. Une modification de ce réglage
commande le calcul d'un nouveau couple d'empreintes sonores à
partir des empreintes initialement fournies, par morphose
( morphing ) :
- on prend en compte une enceinte virtuelle
centrale et deux empreintes pour l'enceinte droite et
l'enceinte gauche
- on recalcule les empreintes gauche / droite en
temps réel pour déplacer la scène sonore
Cette fonction peut être pilotée par le capteur
gyroscopique pour créer un déplacement dynamique de la scène
sonore en fonction des mouvements de l'utilisateur
CA 02909580 2015-10-15
WO 2014/170580 PCT/FR2014/050846
Elle permet de centrer la voix en temps réel par
rapport à la tête.