Spoken Term Detection & Voice Search

Do Acoustic Word Embeddings Capture Phonological Similarity? An Empirical Study
(3 minutes introduction)

Badr M. Abdullah (Universität des Saarlandes, Germany), Marius Mosbach (Universität des Saarlandes, Germany), Iuliia Zaitova (Universität des Saarlandes, Germany), Bernd Möbius (Universität des Saarlandes, Germany), Dietrich Klakow (Universität des Saarlandes, Germany)

Paraphrase Label Alignment for Voice Application Retrieval in Spoken Language Understanding
(3 minutes introduction)

Zheng Gao (Amazon, USA), Radhika Arava (Amazon, USA), Qian Hu (Amazon, USA), Xibin Gao (Amazon, USA), Thahir Mohamed (Amazon, USA), Wei Xiao (Amazon, USA), Mohamed AbdelHady (Amazon, USA)

Paraphrase Label Alignment for Voice Application Retrieval in Spoken Language Understanding
(longer introduction)

Zheng Gao (Amazon, USA), Radhika Arava (Amazon, USA), Qian Hu (Amazon, USA), Xibin Gao (Amazon, USA), Thahir Mohamed (Amazon, USA), Wei Xiao (Amazon, USA), Mohamed AbdelHady (Amazon, USA)

Streaming Transformer for Hardware Efficient Voice Trigger Detection and False Trigger Mitigation
(3 minutes introduction)

Vineet Garg (Apple, USA), Wonil Chang (Apple, USA), Siddharth Sigtia (Apple, UK), Saurabh Adya (Apple, USA), Pramod Simha (Apple, USA), Pranay Dighe (Apple, USA), Chandra Dhir (Apple, USA)

Few-Shot Keyword Spotting in Any Language
(3 minutes introduction)

Mark Mazumder (Harvard University, USA), Colby Banbury (Harvard University, USA), Josh Meyer (Coqui, Germany), Pete Warden (Google, USA), Vijay Janapa Reddi (Harvard University, USA)

Text Anchor Based Metric Learning for Small-footprint Keyword Spotting
(3 minutes introduction)

Li Wang (Peking University, China), Rongzhi Gu (Peking University, China), Nuo Chen (Peking University, China), Yuexian Zou (Peking University, China)

A meta-learning approach for user-defined spoken term classification with varying classes and examples
(3 minutes introduction)

Yangbin Chen (CUHK, China), Tom Ko (SUSTech, China), Jianping Wang (CityU, China)

Auxiliary Sequence Labeling Tasks for Disfluency Detection
(3 minutes introduction)

Dongyub Lee (Kakao, Korea), Byeongil Ko (Kakao, Korea), Myeong Cheol Shin (Kakao, Korea), Taesun Whang (Wisenut, Korea), Daniel Lee (Kakao, Korea), Eunhwa Kim (Kakao, Korea), Eunggyun Kim (Kakao, Korea), Jaechoon Jo (Hanshin University, Korea)

Keyword Transformer: A Self-Attention Model for Keyword Spotting
(3 minutes introduction)

Axel Berg (Arm, UK), Mark O’Connor (Arm, UK), Miguel Tairum Cruz (Arm, UK)

InterSpeech 2021