Dans le cas où les sources originelles sont disponibles au début de la chaîne de traitement (mixage d’un morceau de musique par exemple), la “séparation de sources informée” (ISS) repose sur l’insertion, dans le mélange, d’un tatouage décrivant succinctement les sources et le mélange. L’extraction de cette information par le récepteur du mélange facilite alors la séparation.
Nous avons proposé des méthodes alternative de « dopage », consistant à modifier de manière imperceptible l’histogramme de la représentation temporelle ou temps-fréquence des sources. Considérant des distributions gaussiennes généralisées, il s’agit de réduire itérativement leur facteur de forme sous contrainte d’inaudibilité de la transformation (dans le cas de la représentation temporelle) ou des distorsions spectrales introduites (dans le cas de la représentation temps-fréquence). A partir du mélange dopé, les sources sont séparées par des techniques classiques d’analyse en composantes indépendantes (ICA) ou d’analyse en composantes parcimonieuses (SCA). [1,2,4]
L’implémentation du codage spatial d’objets audio (Spatial Audio Object Coding, SAOC) dans la norme MPEG-H a réduit l’intérêt pratique de l’ISS dans ce cadre applicatif, de sorte que nous étudions son application à d’autres contextes, y compris non-audio.
À partir de l’idée qu’une source seule est plus nette que mélangée à d’autres, nous avons proposé de piloter une séparation par la maximisation de la Non-Intrusive Audio Clarity (NIAC), sous l’hypothèse que celle-ci mesure bien la netteté. Dans le cas d’un mélange linéaire instantané déterminé, la séparation de sources fondée sur la NIAC a des performances comparables à celles de l’ICA ; en outre elle converge rapidement et s’avère robuste à l’initialisation de l’algorithme, à la gaussiannité des sources, à leur dépendance et au conditionnement de la matrice de mélange [3,5].
Nous étudions actuellement la séparation de mélanges convolutifs et de mélanges sous-déterminés