Voice activity detection and keyword spotting

Attention-based cross-modal fusion for audio-visual voice activity detection in musical video streams
(3 minutes introduction)

Yuanbo Hou (Ghent University, Belgium), Zhesong Yu (ByteDance, China), Xia Liang (ByteDance, China), Xingjian Du (ByteDance, China), Bilei Zhu (ByteDance, China), Zejun Ma (ByteDance, China), Dick Botteldooren (Ghent University, Belgium)

Noise-Tolerant Self-Supervised Learning for Audio-Visual Voice Activity Detection
(3 minutes introduction)

Ui-Hyun Kim (Toshiba, Japan)

Multi-Channel VAD for Transcription of Group Discussion
(3 minutes introduction)

Osamu Ichikawa (Shiga University, Japan), Kaito Nakano (Shiga University, Japan), Takahiro Nakayama (University of Tokyo, Japan), Hajime Shirouzu (NIER, Japan)

Multi-Channel VAD for Transcription of Group Discussion
(longer introduction)

Osamu Ichikawa (Shiga University, Japan), Kaito Nakano (Shiga University, Japan), Takahiro Nakayama (University of Tokyo, Japan), Hajime Shirouzu (NIER, Japan)

Audio-Visual Information Fusion Using Cross-modal Teacher-Student Learning for Voice Activity Detection in Realistic Environments
(3 minutes introduction)

Hengshun Zhou (USTC, China), Jun Du (USTC, China), Hang Chen (USTC, China), Zijun Jing (iFLYTEK, China), Shifu Xiong (iFLYTEK, China), Chin-Hui Lee (Georgia Tech, USA)

Enrollment-less training for personalized voice activity detection
(3 minutes introduction)

Naoki Makishima (NTT, Japan), Mana Ihori (NTT, Japan), Tomohiro Tanaka (NTT, Japan), Akihiko Takashima (NTT, Japan), Shota Orihashi (NTT, Japan), Ryo Masumura (NTT, Japan)

FastICARL: Fast Incremental Classifier and Representation Learning with Efficient Budget Allocation in Audio Sensing Applications
(3 minutes introduction)

Young D. Kwon (University of Cambridge, UK), Jagmohan Chauhan (University of Cambridge, UK), Cecilia Mascolo (University of Cambridge, UK)

End-to-End Transformer-Based Open-Vocabulary Keyword Spotting with Location-Guided Local Attention
(3 minutes introduction)

Bo Wei (Samsung, China), Meirong Yang (Samsung, China), Tao Zhang (Samsung, China), Xiao Tang (Samsung, China), Xing Huang (Samsung, China), Kyuhong Kim (Samsung, Korea), Jaeyun Lee (Samsung, Korea), Kiho Cho (Samsung, Korea), Sung-Un Park (Samsung, Korea)

Segmental Contrastive Predictive Coding for Unsupervised Word Segmentation
(3 minutes introduction)

Saurabhchand Bhati (Johns Hopkins University, USA), Jesús Villalba (Johns Hopkins University, USA), Piotr Żelasko (Johns Hopkins University, USA), Laureano Moro-Velázquez (Johns Hopkins University, USA), Najim Dehak (Johns Hopkins University, USA)

A Lightweight Framework for Online Voice Activity Detection in the Wild
(3 minutes introduction)

Xuenan Xu (SJTU, China), Heinrich Dinkel (Xiaomi, China), Mengyue Wu (SJTU, China), Kai Yu (SJTU, China)

InterSpeech 2021