MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement <BR>(3 minutes introduction)

MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement
(3 minutes introduction)

Szu-Wei Fu (Academia Sinica, Taiwan), Cheng Yu (Academia Sinica, Taiwan), Tsun-An Hsieh (Academia Sinica, Taiwan), Peter Plantinga (Ohio State University, USA), Mirco Ravanelli (Mila, Canada), Xugang Lu (NICT, Japan), Yu Tsao (Academia Sinica, Taiwan)

The discrepancy between the cost function used for training a speech enhancement model and human auditory perception usually makes the quality of enhanced speech unsatisfactory. Objective evaluation metrics which consider human perception can hence serve as a bridge to reduce the gap. Our previously proposed MetricGAN was designed to optimize objective metrics by connecting the metric with a discriminator. Because only the scores of the target evaluation functions are needed during training, the metrics can even be non-differentiable. In this study, we propose a MetricGAN+ in which three training techniques incorporating domain-knowledge of speech processing are proposed. With these techniques, experimental results on the VoiceBank-DEMAND dataset show that MetricGAN+ can increase PESQ score by 0.3 compared to the previous MetricGAN and achieve state-of-the-art results (PESQ score = 3.15).

Search in Audio

Related Recordings

Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement
(3 minutes introduction)

Tsun-An Hsieh , Cheng Yu , Szu-Wei Fu , Xugang Lu , Yu Tsao

A Spectro-Temporal Glimpsing Index (STGI) for Speech Intelligibility Prediction
(3 minutes introduction)

Amin Edraki , Wai-Yip Chan , Jesper Jensen , Daniel Fogerty

InterSpeech 2021

MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement (3 minutes introduction)

Search in Audio

Related Recordings

Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement (3 minutes introduction)

A Spectro-Temporal Glimpsing Index (STGI) for Speech Intelligibility Prediction (3 minutes introduction)

MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement
(3 minutes introduction)

Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement
(3 minutes introduction)

A Spectro-Temporal Glimpsing Index (STGI) for Speech Intelligibility Prediction
(3 minutes introduction)