Speech Synthesis: Neural Waveform Generation

Glow-WaveGAN: Learning Speech Representations from GAN-based Variational Auto-Encoder For High Fidelity Flow-based Speech Synthesis
(3 minutes introduction)

Jian Cong (Northwestern Polytechnical University, China), Shan Yang (Tencent, China), Lei Xie (Northwestern Polytechnical University, China), Dan Su (Tencent, China)

Harmonic WaveGAN: GAN-Based Speech Waveform Generation Model with Harmonic Structure Discriminator
(3 minutes introduction)

Kazuki Mizuta (University of Tokyo, Japan), Tomoki Koriyama (University of Tokyo, Japan), Hiroshi Saruwatari (University of Tokyo, Japan)

Fre-GAN: Adversarial Frequency-consistent Audio Synthesis
(3 minutes introduction)

Ji-Hoon Kim (Korea University, Korea), Sang-Hoon Lee (Korea University, Korea), Ji-Hyun Lee (Korea University, Korea), Seong-Whan Lee (Korea University, Korea)

GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis
(3 minutes introduction)

Jinhyeok Yang (NCSOFT, Korea), Jae-Sung Bae (NCSOFT, Korea), Taejun Bak (NCSOFT, Korea), Young-Ik Kim (NCSOFT, Korea), Hoon-Young Cho (NCSOFT, Korea)

Continuous Wavelet Vocoder-based Decomposition of Parametric Speech Waveform Synthesis
(3 minutes introduction)

Mohammed Salah Al-Radhi (BME, Hungary), Tamás Gábor Csapó (BME, Hungary), Csaba Zainkó (BME, Hungary), Géza Németh (BME, Hungary)

High-fidelity Parallel WaveGAN with Multi-band Harmonic-plus-Noise Model
(3 minutes introduction)

Min-Jae Hwang (Search Solutions, Korea), Ryuichi Yamamoto (LINE, Japan), Eunwoo Song (Naver, Korea), Jae-Min Kim (Naver, Korea)

InterSpeech 2021