Petr Motlicek - Idiap Publications

First name(s):	Petr
Last name(s):	Motlicek

Keywords:

accent embedding
Accented speech
Accentual mismatch
acoustic generators
Acoustic model adaptation
acoustic modeling
adaptation
ADS-B data
Aho-Corasick algorithm
air surveillance data
Air traffic control
air traffic control communications
air traffic controller
air traffic controller’s workload
air traffic management
Air-Traffic Communication (ATC)
Alzheimer's disease
AM
Anti-spoofing
Arithmetic Coding
Artificial intelligence
Artificial Neural Networks
ASR
ASR robustness
Assistant Based Speech Recognition
association rules
audio and voice analysis
Audio Coding
audiobook
Automatic Depression Detection
Automatic Speech Recognition
automatic speech recognition (ASR)
automatic speech recognition and understanding
automatic speech understanding
batch norm
batch normalization
bayesian fusion
Benchmark
Benchmarking
BERT
bias
bias aware
BNF
Building Blocks
call sign detection
Call-sign Detection
Call-sign Recognition
chunking
claim verification
Clinical Interviews
Command Prediction Model
command recognition rate
Confidence Measure (CM)
Contextual Adaptation
contextual biasing
Contextualisation and adaptation of ASR
conversational AI
conversational hallucination
conversational modeling
Convolutional Neural Networks
crime scene dataset
Criminal investigations
Cross-modal Alignment
Cross-modal Attentio
Cross-modal Attention
Customization of model
data analysis
Data Selection
dataset
deep learning
Deep learning for speech
deep MLPs
Deep neural network
deep neural networks
Delays
Depression Corpora
depression detection
dialogue
dialogue evaluation
dialogue flow
dialogue simulation
diarization
direction of arrival
direction-of-arrival estimation
Discourse Annotation
Discriminative features
DISPLACE-2
dnn
DOA estimation
domain adaptation
Domain Classification
dropout
Dual mode encoder
ECAPA-TDNN embedding
electronic flight strips
embedding
Encoding
end-to-end
end-to-end ASR
entity linking
Entropy Coding
Environmental mismatch
Estimation
explainability
F1 score
face verification
fact checking
factual reporting
Feature extraction
fine-tuning
finite-state transducers
flow-aware metrics
FM
fmllr
Forensics
Foundation Models
Frequency Domain Linear Prediction (FDLP)
fvae-lora
gaming
GDPR
GMM
GPU decoding
Graph Convolutional Network (GCN)
Graph Convolutional Networks
Graph Neural Networks
hallucination
high-definition video-conferencing
HTK
Huffman Coding
human factors
Human-Computer Interaction
human-robot interaction
hybrid system
i-vector
i-vectors
information verification
Integration of prior knowledge
Intent Classification
inter-task fusion
Interpretability
Interpretable Models
Iterative learning
KeyWord Spotting (KWS)
Keyword spotting detection
KL-HMM
knowledge distillation
lan- guage identification
language identification
Language IDentification (LID)
language modeling
Language Models
Language Production
Language targets
Large Language Models
Large Vocabulary Continuous Speech Recognition (LVCSR)
latent space factorization
Lattice-Free MMI
LEA
legal framework
LID
likelihood-based encoding
limited training data
Linear prediction
LLM
LLM evaluation
LLM-based ASR
local speaker segmentation
logistic regression
LoRA
Low resource language
low-rank adaptation
low-resource
LVCSR
machine learning
Machine Translation
media bias
Mental Lexicon
MFCC
microphone arrays
Microphones
model adaptation
multi-face tracking
multi-lingual automatic speech recognition
multi-lingual SAD
Multi-modal Approach
multi-modal database
multi-task
multilingual acoustic modeling
Multilingual automatic speech recognition
Multimodal machine translation
multimodal signal processing
multiple remote tower
multiple sound sources
multiple speaker detection
multitask acoustic modeling
multitask learning
multitask training
named entity recognition
Natural language processing
network analysis
network output
neural nets
neural network
neural network-based sound source localization methods
neural networks
news media
node weighted graphs
non-native speech
online speech recognition
OOV-word recognition
open-architecture distributed system
OpenSky Network
Operant Motive Test
orchestration
OSINT
Out- Of-Language (OOL) detection
out-of-domain
Out-Of-Language (OOL) detection
parametric speech synthesis
parametric synthesis
perceptual evaluation of audio quality (PEAQ)
personal data processing
personas
PLDA
Position measurement
procedural similarity
prompt projection
Prompting
pseudo-labelling
Psycholinguistics
rare word recognition
Rare-word integration
Raw Speech
real-time ASR
real-time audio processing
real-time processing
real-time speech recognition
recurrent neural network
reinforcement learning
reliability estimation
Representation and Processing
reproducibility
resources and evaluation
Robots
Robust Automatic Speech Recognition
ROXANNE
ROXSD
saftety
scenario management
self-supervised learning
self-supervised pre-training
semi-supervised learning
Semi-supervised training
sensor fusion
sentence embeddings
Sentiment Analysis
SGMM
SGMM adaptation
shallow fusion
signal processing
simulated Call Detail Records (CDRs)
simultaneous detection
single sound source
situation awareness
sound mixtures
sound source localization
spatial spectrum-based approaches
speaker adaptation
Speaker change detection
speaker clustering
Speaker Diarization
Speaker identification
speaker recognition
speaker role classification
speaker role detection
speaker role identification
speaker turn detection
speaker verification
Speech activity detection
speech coding
speech dataset
speech decoding
speech meta-data
speech quality evaluations
speech recognition
speech synthesis
speech understanding
Speech-to-LLM alignment
speech-to-text alignment
spoken dialogue systems
Spoken Language Understanding
Spoken Term Detection (STD)
spurious correlation robustness
streaming ASR
streaming transducer
Subs-ace Gaussian Mixture Models
subspace Gaussian mixture models
supervised adaptation
Supervised Autoencoders
supervision
synthetic dialogue
synthetic NCD dataset
System Combination
Tandem
task-oriented dialog
task-oriented dialogue
Text classification
text denoising
Text fine-tuning
Text Representation
text to speech
Text-based speaker diarization
text-to-speech
text-to-speech synthesis
tower utterances
TRACY · Law Enforcement Agencies · Suspect Detection· Non-Content Data· Social Influence Analysis· Link Prediction
TRACY· Non-Content data· Law Enforcement Agencies · Suspect Detection· Mobile Signaling Data· ROXANNE
training
transfer learning
transformer transducer
transformers
TTS
Under-resourced data
under-resourced languages
under-resourced speech recognition
unsupervised learning
user identity linkage
verification
Very low bit rate speech coding
voice-activity detection
wav2vec 2.0
wav2vec2
weakly-supervised learning.
Web data
weighted finite state transducer
WFST
whisper
Whisper models
Word Consensus Networks
Word-Confusion-Networks
XLS-R
XLSR
XLSR-Transducer
Zipformer

processing time: 0.0006 seconds.