Speech Synthesis: Toward End-to-End Synthesis I

Federated Learning with Dynamic Transformer on Text to Speech
(3 minutes introduction)

Zhenhou Hong (Ping An Technology, China), Jianzong Wang (Ping An Technology, China), Xiaoyang Qu (Ping An Technology, China), Jie Liu (Ping An Technology, China), Chendong Zhao (Ping An Technology, China), Jing Xiao (Ping An Technology, China)

Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration
(3 minutes introduction)

Chuanxin Tang (Microsoft, China), Chong Luo (Microsoft, China), Zhiyuan Zhao (Microsoft, China), Dacheng Yin (USTC, China), Yucheng Zhao (USTC, China), Wenjun Zeng (Microsoft, China)

Diff-TTS: A Denoising Diffusion Model for Text-to-Speech
(3 minutes introduction)

Myeonghun Jeong (Seoul National University, Korea), Hyeongju Kim (Neosapience, Korea), Sung Jun Cheon (Seoul National University, Korea), Byoung Jin Choi (Seoul National University, Korea), Nam Soo Kim (Seoul National University, Korea)

A Universal Multi-Speaker Multi-Style Text-to-Speech via Disentangled Representation Learning based on Rényi Divergence Minimization
(3 minutes introduction)

Dipjyoti Paul (University of Crete, Greece), Sankar Mukherjee (IIT, Italy), Yannis Pantazis (FORTH, Greece), Yannis Stylianou (University of Crete, Greece)

Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech
(3 minutes introduction)

Hyunseung Chung (Korea University, Korea), Sang-Hoon Lee (Korea University, Korea), Seong-Whan Lee (Korea University, Korea)

Triple M: A Practical Text-to-speech Synthesis System With Multi-guidance Attention And Multi-band Multi-time LPCNet
(3 minutes introduction)

Shilun Lin (Tencent, China), Fenglong Xie (Tencent, China), Li Meng (Tencent, China), Xinhui Li (Tencent, China), Li Lu (Tencent, China)

SC-GlowTTS: an Efficient Zero-Shot Multi-Speaker Text-To-Speech Model
(3 minutes introduction)

Edresson Casanova (Universidade de São Paulo, Brazil), Christopher Shulby (DefinedCrowd, USA), Eren Gölge (Coqui, Germany), Nicolas Michael Müller (Fraunhofer AISEC, Germany), Frederico Santos de Oliveira (Universidade Federal de Goiás, Brazil), Arnaldo Candido Jr. (Universidade Tecnológica Federal do Paraná, Brazil), Anderson da Silva Soares (Universidade Federal de Goiás, Brazil), Sandra Maria Aluisio (Universidade de São Paulo, Brazil), Moacir Antonelli Ponti (Universidade de São Paulo, Brazil)

InterSpeech 2021