Speech Synthesis: Singing, Multimodal, Crosslingual Synthesis

Cross-lingual Low Resource Speaker Adaptation Using Phonological Features
(3 minutes introduction)

Georgia Maniati (Samsung, Greece), Nikolaos Ellinas (Samsung, Greece), Konstantinos Markopoulos (Samsung, Greece), Georgios Vamvoukakis (Samsung, Greece), June Sig Sung (Samsung, Korea), Hyoungmin Park (Samsung, Korea), Aimilios Chalamandaris (Samsung, Greece), Pirros Tsiakoulis (Samsung, Greece)

Improve Cross-Lingual Text-To-Speech Synthesis on Monolingual Corpora with Pitch Contour Information
(3 minutes introduction)

Haoyue Zhan (NetEase, China), Haitong Zhang (NetEase, China), Wenjie Ou (NetEase, China), Yue Lin (NetEase, China)

EfficientSing: A Chinese Singing Voice Synthesis System Using Duration-Free Acoustic Model and HiFi-GAN Vocoder
(3 minutes introduction)

Zhengchen Liu (Ping An Technology, China), Chenfeng Miao (Ping An Technology, China), Qingying Zhu (Ping An Technology, China), Minchuan Chen (Ping An Technology, China), Jun Ma (Ping An Technology, China), Shaojun Wang (Ping An Technology, China), Jing Xiao (Ping An Technology, China)

Cross-lingual Speaker Adaptation using Domain Adaptation and Speaker Consistency Loss for Text-To-Speech Synthesis
(3 minutes introduction)

Detai Xin (University of Tokyo, Japan), Yuki Saito (University of Tokyo, Japan), Shinnosuke Takamichi (University of Tokyo, Japan), Tomoki Koriyama (University of Tokyo, Japan), Hiroshi Saruwatari (University of Tokyo, Japan)

Cross-lingual Speaker Adaptation using Domain Adaptation and Speaker Consistency Loss for Text-To-Speech Synthesis
(longer introduction)

Detai Xin (University of Tokyo, Japan), Yuki Saito (University of Tokyo, Japan), Shinnosuke Takamichi (University of Tokyo, Japan), Tomoki Koriyama (University of Tokyo, Japan), Hiroshi Saruwatari (University of Tokyo, Japan)

Investigating Contributions of Speech and Facial Landmarks for Talking Head Generation
(3 minutes introduction)

Ege Kesim (Koç University, Turkey), Engin Erzin (Koç University, Turkey)

Speech2Video: Cross-Modal Distillation for Speech to Video Generation
(3 minutes introduction)

Shijing Si (Ping An Technology, China), Jianzong Wang (Ping An Technology, China), Xiaoyang Qu (Ping An Technology, China), Ning Cheng (Ping An Technology, China), Wenqi Wei (Ping An Technology, China), Xinghua Zhu (Ping An Technology, China), Jing Xiao (Ping An Technology, China)

Speech2Video: Cross-Modal Distillation for Speech to Video Generation
(longer introduction)

Shijing Si (Ping An Technology, China), Jianzong Wang (Ping An Technology, China), Xiaoyang Qu (Ping An Technology, China), Ning Cheng (Ping An Technology, China), Wenqi Wei (Ping An Technology, China), Xinghua Zhu (Ping An Technology, China), Jing Xiao (Ping An Technology, China)

InterSpeech 2021