Speech and audio analysis

Extending the Fullband E-Model Towards Background Noise, Bursty Packet Loss, and Conversational Degradations
(Oral presentation)

Thilo Michael (Technische Universität Berlin, Germany), Gabriel Mittag (Technische Universität Berlin, Germany), Andreas Bütow (Technische Universität Berlin, Germany), Sebastian Möller (Technische Universität Berlin, Germany)

ORCA-SLANG: An Automatic Multi-Stage Semi-Supervised Deep Learning Framework for Large-Scale Killer Whale Call Type Identification
(Oral presentation)

Christian Bergler (FAU Erlangen-Nürnberg, Germany), Manuel Schmitt (FAU Erlangen-Nürnberg, Germany), Andreas Maier (FAU Erlangen-Nürnberg, Germany), Helena Symonds (OrcaLab, Canada), Paul Spong (OrcaLab, Canada), Steven R. Ness (University of Victoria, Canada), George Tzanetakis (University of Victoria, Canada), Elmar Nöth (FAU Erlangen-Nürnberg, Germany)

Non-Intrusive Speech Quality Assessment with Transfer Learning and Subject-specific Scaling
(Oral presentation)

Natalia Nessler (EPFL, Switzerland), Milos Cernak (Logitech, Switzerland), Paolo Prandoni (EPFL, Switzerland), Pablo Mainar (Logitech, Switzerland)

Audio Retrieval with Natural Language Queries
(Oral presentation)

Andreea-Maria Oncescu (University of Oxford, UK), A. Sophia Koepke (Universität Tübingen, Germany), João F. Henriques (University of Oxford, UK), Zeynep Akata (Universität Tübingen, Germany), Samuel Albanie (University of Oxford, UK)

InterSpeech 2021