Non-Autoregressive Sequential Modeling for Speech Processing

Pushing the Limits of Non-Autoregressive Speech Recognition
(Oral presentation)

Edwin G. Ng (Google, USA), Chung-Cheng Chiu (Google, USA), Yu Zhang (Google, USA), William Chan (Google, Canada)

Layer Pruning on Demand with Intermediate CTC
(Oral presentation)

Jaesong Lee (Naver, Korea), Jingu Kang (Naver, Korea), Shinji Watanabe (Carnegie Mellon University, USA)

Real-time End-to-End Monaural Multi-speaker Speech Recognition
(Oral presentation)

Song Li (Xiamen University, China), Beibei Ouyang (Xiamen University, China), Fuchuan Tong (Xiamen University, China), Dexin Liao (Xiamen University, China), Lin Li (Xiamen University, China), Qingyang Hong (Xiamen University, China)

TalkNet: Non-Autoregressive Depth-Wise Separable Convolutional Model for Speech Synthesis
(Oral presentation)

Stanislav Beliaev (NVIDIA, USA), Boris Ginsburg (NVIDIA, USA)

WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis
(Oral presentation)

Nanxin Chen (Johns Hopkins University, USA), Yu Zhang (Google, USA), Heiga Zen (Google, Japan), Ron J. Weiss (Google, USA), Mohammad Norouzi (Google, Canada), Najim Dehak (Johns Hopkins University, USA), William Chan (Google, Canada)

Align-Denoise: Single-Pass Non-Autoregressive Speech Recognition
(Oral presentation)

Nanxin Chen (Johns Hopkins University, USA), Piotr Żelasko (Johns Hopkins University, USA), Laureano Moro-Velázquez (Johns Hopkins University, USA), Jesús Villalba (Johns Hopkins University, USA), Najim Dehak (Johns Hopkins University, USA)

VAENAR-TTS: Variational Auto-Encoder based Non-AutoRegressive Text-to-Speech Synthesis
(Oral presentation)

Hui Lu (CUHK, China), Zhiyong Wu (CUHK, China), Xixin Wu (University of Cambridge, UK), Xu Li (CUHK, China), Shiyin Kang (Huya, China), Xunying Liu (CUHK, China), Helen Meng (CUHK, China)

InterSpeech 2021