Odyssey 2012

The Speaker and Language Recognition Workshop

Odyssey 2012

Odyssey 2012: The Speaker and Language Recognition Workshop was hosted by COLIPS in Singapore on 25-28 June 2012. Odyssey’12 is an ISCA Tutorial and Research Workshop held in cooperation with the ISCA Speaker and Language Characterization SIG. The need for fast, efficient, accurate, and robust means of recognizing people and languages is of growing importance for commercial, forensic, and government applications. The aim of this workshop is to continue to foster interactions among researchers in speaker and language recognition as the successor of previous successful events held in Martigny (1994), Avignon (1998), Crete (2001), Toledo (2004), San Juan (2006), Stellenbosch (2008) and Brno (2010).

Website: http://www.odyssey2012.org

Plenary Session

0:49:33

The Role of Proper Scoring Rules in Training and Evaluating Probabilistic Speaker and Language Recognizers

Niko Brümmer

1:12:18

Being Deep and Being Dynamic - New-Generation Models and Methodology for Advancing Speech Technology

Li Deng

1:04:06

The NIST Speaker Recognition Evaluations

Alvin Martin

Opening & Closing

0:23:36

TAN Geok Leng, Haizhou Li

0:08:36

Closing and Odyssey 2014 Announcement

SESSION 01: Speaker Recognition - Compact Representation

0:27:43

A Small Footprint i-Vector Extractor

Patrick Kenny

0:22:18

Memory and Computation Effective Approaches for i-Vector Extraction

Sandro Cumani, Pietro Laface and Vasileios Vasilakakis

0:19:01

A Hybrid Factor Analysis and Probabilistic PCA-based system for Dictionary Learning and Encoding for Robust Speaker Recognition

Srikanth Madikeri

0:33:02

On Exploring the Similarity and Fusion of i-Vector and Sparse Representation based Speaker Verification Systems

Haris B C and Rohit Sinha

SESSION 02: Speaker Recognition - Generative modeling

0:22:09

PLDA based Speaker Recognition on Short Utterances

Ahilan Kanagasundaram, Robbie Vogt, David Dean and Sridha Sridharan

0:21:39

PLDA based Speaker Verification with Weighted LDA Techniques

Ahilan Kanagasundaram, David Dean, Sridha Sridharan and Robbie Vogt

0:27:37

Dataset Shift in PLDA based Speaker Verification

Carlos Vaquero

0:20:29

Bayesian Adaptation of PLDA Based Speaker Recognition to Domains with Scarce Development Data

Jesus Villalba and Eduardo Lleida

0:26:38

Source Normalization for Language-Independent Speaker Recognition using i-Vectors

Mitchell McLaren, Miranti Indar Mandasari and David A. van Leeuwen

SESSION 04: Neural Network for Speaker Recognition

0:31:58

Factor Analysis of Mixture of Auto-Associative Neural Networks for Speaker Verification

Sivaram Garimella and Hynek Hermansky

0:16:12

Adaptation Transforms of Auto-Associative Neural Networks as Features for Speaker Verification

Samuel Thomas, Sri Harish Mallidi, Sriram Ganapathy and Hynek Hermansky

0:25:51

Bottleneck Features for Speaker Recognition

Sibel Yaman, Jason Pelecanos and Ruhi Sarikaya

0:25:34

Preliminary Investigation of Boltzmann Machine Classifiers for Speaker Recognition

Themos Stafylakis, Patrick Kenny, Mohammed Senoussaoui and Pierre Dumouchel

0:27:55

First attempt of Boltzmann Machines for Speaker Verification

Mohammed Senoussaoui, Najim Dehak, Patrick Kenny, Reda Dehak and Pierre Dumouchel

SESSION 05: Speaker Diarization

0:29:52

Online Two Speaker Diarization

Hagai Aronowitz, Yosef Solewicz and Orith Toledo-Ronen

0:25:22

On the use of Agglomerative and Spectral Clustering in Speaker Diarization of Meetings

Jordi Luque and Javier Hernando

0:24:57

Generalized Viterbi-based Models for Time-Series Segmentation Applied to Speaker Diarization

Itshak Lapidot and Jean-Francois Bonastre

0:15:48

A Global Optimization Framework For Speaker Diarization

Mickael Rouvier and Sylvain Meignier

0:29:13

Cisco's Speaker Segmentation and Recognition System

Sachin Kajarekar, Aparna Khare, Matthias Paulik, Neha Agrawal, Panchi Panchapagesan, Ananth Sankar and Satish Gannu

SESSION 06: Speaker Recognition - Channel Robustness

0:22:36

Variance-Spectra based Normalization for I-vector Standard and Probabilistic Linear Discriminant Analysis

Pierre-Michel Bousquet, Anthony Larcher, Driss Matrouf, Jean-Francois Bonastre and Oldrich Plchot

0:23:36

Utterance Partitioning with Acoustic Vector Resampling for I-Vector based Speaker Verification

Wei RAO and Man-Wai MAK

0:23:04

Study on the Effects of Intrinsic Variation using i-Vectors in Text-Independent Speaker Verification

Sheng Chen, Mingxing Xu, and Emlyn Pratt

SESSION 07: Language Recognition Evaluation

0:24:51

Evaluation of Spoken Language Recognition Technology Using Broadcast Speech: Performance and Challenges

Luis J. Rodriguez-Fuentes, Amparo Varona, Mireia Diez, Mikel Penagarikano and German Bordel

0:26:34

New Resources for Recognition of Confusable Linguistic Varieties: The LRE11 Corpus

Stephanie Strassel, Kevin Walker, Karen Jones, Dave Graff and Christopher Cieri

0:22:47

Description and analysis of the Brno276 system for LRE2011

Niko Brummer, Sandro Cumani, Ondrej Glembek, Martin Karafiat, Pavel Matejka, Jan Pesan, Oldrich Plchot, Mehdi Soufifar, Edward de Villiers and Jan Cernocky

0:22:45

A Linguistic Data Acquisition Front-End for Language Recognition Evaluation

Gang Liu, Chi Zhang and John Hansen

SESSION 08: Features for Speaker Recognition

0:29:46

Feature Extraction Using 2-D Autoregressive Models For Speaker Recognition

Sriram Ganapathy, Samuel Thomas and Hynek Hermansky

0:22:51

Regularization of All-Pole Models for Speaker Verification Under Additive Noise

Cemal Hanilci, Tomi Kinnunen, Rahim Saeidi, Jouni Pohjalainen, Paavo Alku and Figen Ertas

0:18:59

Factor Analysis of Acoustic Features using a Mixture of Probabilistic Principal Component Analyzers for robust Speaker Verification

Taufiq Hasan and John Hansen

0:29:58

Exemplar-based Sparse Representation and Sparse Discrimination for Noise Robust Speaker Identification

Rahim Saeidi, Antti Hurmalainen, Tuomas Virtanen and David A. van Leeuwen

0:18:54

On the use of Asymmetric-shaped Tapers for Speaker Verification using I-vectors

Md Jahangir Alam, Patrick Kenny and Douglas O'Shaughnessy

SESSION 09: Speaker Recognition Evaluation

0:24:07

The Effect of Target/Non-Target Age Difference on Speaker Recognition Performance

George Doddington

0:27:48

Variational Bayes Logistic Regression as Regularized Fusion for NIST SRE 2010

Ville Hautamaki, Kong Aik Lee, Anthony Larcher, Tomi Kinnunen, Bin Ma and Haizhou Li

0:23:44

The 2011 BEST Speaker Recognition Interim Assessment

Craig Greenberg, Alvin Martin and Mark Przybocki

0:15:28

The REPERE Challenge: finding people in a multimodal context

Juliette Kahn, Olivier Galibert, Matthieu Carre, Aude Giraudel, Philippe Joly and Ludovic Quintard

0:25:57

The RATS Radio Traffic Collection System

Kevin Walker and Stephanie Strassel

SESSION 10: Speaker Recognition - Application

0:26:16

Effects of Audio and ASR Quality on Cepstral and High-level Speaker Verification Systems

Andreas Stolcke, Martin Graciarena and Luciana Ferrer

0:22:30

Audio Context Recognition in Variable Mobile Environments from Short Segments using Speaker and Language Recognizers

Tomi Kinnunen, Rahim Saeidi, Jussi Leppaanen and Jukka P. Saarinen

0:25:23

Text Dependent Speaker Verification Using a Small Development Set

Hagai Aronowitz

0:29:51

A Unified Approach for Audio Characterization and its Application to Speaker Recognition

Luciana Ferrer, Lukas Burget, Oldrich Plchot and Nicolas Scheffer

0:25:15

Mean Shift Algorithm for Exponential Families with Applications to Speaker Clustering

Themos Stafylakis, Vassilis Katsouros, Patrick Kenny and Pierre Dumouchel

SESSION 11: Language Recognition - Feature, Classifier and Fusion

0:19:43

Speaker Vectors from Subspace Gaussian Mixture Model as Complementary Features for Language Identification

Oldrich Plchot, Martin Karafiat, Niko Brummer, Ondrej Glembek, Pavel Matejka, Edward de Villiers and Jan Cernocky

0:25:12

Complementary Combination in i-Vector Level for Language Recognition

Zhi-Yi Li, Wei-Qiang Zhang, Liang He and Jia Liu

0:20:20

Bhattacharyya-based GMM-SVM System with Adaptive Relevance Factor for Pair Language Recognition

Changhuai You, Haizhou Li, Eliathamby Ambikairajah, Kong Aik Lee and Bin Ma

0:31:12

Fusing Language Information from Diverse Data Sources for Phonotactic Language Recognition

Mohamed Faouzi BenZeghiba, Jean-Luc Gauvain and Lori Lamel