Tools, corpora and resources

The Multilingual TEDx Corpus for Speech Recognition and Translation
(3 minutes introduction)

Elizabeth Salesky (Johns Hopkins University, USA), Matthew Wiesner (Johns Hopkins University, USA), Jacob Bremerman (University of Maryland, USA), Roldano Cattoni (FBK, Italy), Matteo Negri (FBK, Italy), Marco Turchi (FBK, Italy), Douglas W. Oard (University of Maryland, USA), Matt Post (Johns Hopkins University, USA)

GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio
(3 minutes introduction)

Guoguo Chen (SpeechColab, China), Shuzhou Chai (SpeechColab, China), Guan-Bo Wang (SpeechColab, China), Jiayu Du (SpeechColab, China), Wei-Qiang Zhang (SpeechColab, China), Chao Weng (Tencent, China), Dan Su (Tencent, China), Daniel Povey (Xiaomi, China), Jan Trmal (Johns Hopkins University, USA), Junbo Zhang (Xiaomi, China), Mingjie Jin (Tencent, China), Sanjeev Khudanpur (Johns Hopkins University, USA), Shinji Watanabe (Johns Hopkins University, USA), Shuaijiang Zhao (KE, China), Wei Zou (KE, China), Xiangang Li (KE, China), Xuchen Yao (Seasalt AI, USA), Yongqing Wang (Xiaomi, China), Zhao You (Tencent, China), Zhiyong Yan (Xiaomi, China)

AusKidTalk: An Auditory-Visual Corpus of 3- to 12-year-old Australian Children’s Speech
(3 minutes introduction)

Beena Ahmed (UNSW Sydney, Australia), Kirrie J. Ballard (University of Sydney, Australia), Denis Burnham (Western Sydney University, Australia), Tharmakulasingam Sirojan (UNSW Sydney, Australia), Hadi Mehmood (UNSW Sydney, Australia), Dominique Estival (Western Sydney University, Australia), Elise Baker (Western Sydney University, Australia), Felicity Cox (Macquarie University, Australia), Joanne Arciuli (Flinders University, Australia), Titia Benders (Macquarie University, Australia), Katherine Demuth (Macquarie University, Australia), Barbara Kelly (University of Melbourne, Australia), Chloé Diskin-Holdaway (University of Mel bourne, Australia), Mostafa Shahin (UNSW Sydney, Australia), Vidhyasaharan Sethu (UNSW Sydney, Australia), Julien Epps (UNSW Sydney, Australia), Chwee Beng Lee (Western Sydney University, Australia), Eliathamby Ambikairajah (UNSW Sydney, Australia)

Human-in-the-Loop Efficiency Analysis for Binary Classification in Edyson
(3 minutes introduction)

Per Fallgren (KTH, Sweden), Jens Edlund (KTH, Sweden)

Annotation Confidence vs. Training Sample Size: Trade-off Solution for Partially-Continuous Categorical Emotion Recognition
(3 minutes introduction)

Elena Ryumina (RAS, Russia), Oxana Verkholyak (RAS, Russia), Alexey Karpov (RAS, Russia)

Europarl-ASR: A Large Corpus of Parliamentary Debates for Streaming ASR Benchmarking and Speech Data Filtering/Verbatimization
(3 minutes introduction)

Gonçal V. Garcés Díaz-Munío (Universitat Politècnica de València, Spain), Joan-Albert Silvestre-Cerdà (Universitat Politècnica de València, Spain), Javier Jorge (Universitat Politècnica de València, Spain), Adrià Giménez Pastor (Universitat Politècnica de València, Spain), Javier Iranzo-Sánchez (Universitat Politècnica de València, Spain), Pau Baquero-Arnal (Universitat Politècnica de València, Spain), Nahuel Roselló (Universitat Politècnica de València, Spain), Alejandro Pérez-González-de-Martos (Universitat Politècnica de València, Spain), Jorge Civera (Universitat Politècnica de València, Spain), Albert Sanchis (Universitat Politècnica de València, Spain), Alfons Juan (Universitat Politècnica de València, Spain)

Towards Automatic Speech to Sign Language Generation
(3 minutes introduction)

Parul Kapoor (IIT Kanpur, India), Rudrabha Mukhopadhyay (IIIT Hyderabad, India), Sindhu B. Hegde (IIIT Hyderabad, India), Vinay Namboodiri (IIT Kanpur, India), C.V. Jawahar (IIIT Hyderabad, India)

Towards Automatic Speech to Sign Language Generation
(longer introduction)

Parul Kapoor (IIT Kanpur, India), Rudrabha Mukhopadhyay (IIIT Hyderabad, India), Sindhu B. Hegde (IIIT Hyderabad, India), Vinay Namboodiri (IIT Kanpur, India), C.V. Jawahar (IIIT Hyderabad, India)

kosp2e: Korean Speech to English Translation Corpus
(3 minutes introduction)

Won Ik Cho (Seoul National University, Korea), Seok Min Kim (Seoul National University, Korea), Hyunchang Cho (Naver, Korea), Nam Soo Kim (Seoul National University, Korea)

speechocean762: An Open-Source Non-native English Speech Corpus For Pronunciation Assessment
(3 minutes introduction)

Junbo Zhang (Xiaomi, China), Zhiwen Zhang (SpeechOcean, China), Yongqing Wang (Xiaomi, China), Zhiyong Yan (Xiaomi, China), Qiong Song (SpeechOcean, China), Yukai Huang (SpeechOcean, China), Ke Li (SpeechOcean, China), Daniel Povey (Xiaomi, China), Yujun Wang (Xiaomi, China)

InterSpeech 2021