Probabilistic models for multi-classifier biometric authentication using quality measures

Richiardi, Jonas

Abstract

Biometric authentication can be cast as a signal processing and statistical pattern recognition prob- lem. As such, it relies on models of signal representations that can be used to discriminate between classes. One of the assumptions typically made by the practioner is that the training set used to learn the parameters of the class-conditional likelihood functions is a representative sample of the unseen test set on which the system will be used. If the test set data is distorted, the assumption no longer holds and the Bayes decision rule or Maximum Likelihood rules are no longer optimal. In bio- metrics, the distortions of the data come from two main sources: intra-user variability, and changes in acquisition conditions. The aim of the thesis is to increase robustness of biometric verification systems to these sources of variability.
Since the signals under consideration are not deterministic, but stochastic, steady-state signal analysis techniques are not adequate for modelling. By using probabilistic methods instead, we can obtain models describing, amongst other, the amount of spread in the random variables, meaning that we can take into account the uncertainty on the realisation of the random variables (features) due to intra-user variability. Furthermore, we posit that modelling information reflecting the acqui- sition conditions (signal quality measures) should be useful in improving the robustness of biometric verification systems to changes of data from the training conditions.
In this thesis, we use probabilistic approaches at all stages of the biometric authentication pro- cessing chain, while taking into account the quality of the signal being modelled. We use the theoretical framework of Bayesian networks, a family of graphical models offering important flexi- bility. We use them both for single-classifier systems (base classifier and reliability model) and for multiple-classifier systems (classifier combination with and without quality measures).
In the single-classifier part, we propose to use a Bayesian network topology equivalent to a Gaussian mixture model for signature verification, and show that experimental results are equivalent to state-of-the-art signature verification systems. Furthermore, the model can be used for speaker verification as well.
Quality measures are auxiliary information that can be used in both single-classifier systems and multi-classifier systems. We define precisely the concept of quality measure, and show the different potential types of quality measures. We propose new quality measures for both speech and signature, as well as the concept of modality-independent quality measure, as an additional type of auxiliary information. We show that the effect of signal degradation could be different on impostor and client score distributions, an important effect to take into account when designing quality-based fusion models. We propose a principled evaluation methodology for quality measures.
The use of reliability models is proposed. They are probabilistic models of single-classifier behaviour, taking into account quality measures. They result in an enhanced confidence measure, which is to some degree robust with respect to changing quality. Experiments show that reliability estimation generally outperforms confidence estimation.
We formalise different classifier combination algorithms as probabilistic models in the framework of Bayesian networks for both decision-level and score-level fusion, and propose enhancements to existing models. We also propose a new structure learning algorithm, sparse regression fusion (SRF), specifically designed for classifier combination tasks. The SRF model obtains good results over three multimodal benchmark databases.
Lastly, we propose a theoretical view on probabilistic classifier combination with quality measure, based on an analysis of independence and conditional independence relationships induced by different model topologies. We also show the importance of the notion of context-specific independence, and draw a parallel between decision tree building and enforcing a weak version of context-specific independence. Three quality-based fusion schemes are proposed: SRF-Q, an adaptation of the SRF algorithm to the use of quality measures, Context-specific fusion with quality measures (CSF- Q), a fusion model equivalent to a decision tree but motivated by probabilistic and independence arguments, and rigged majority voting, a flexible scheme that can be used with both reliability models and other meta-classifiers, with clear limits on accuracy gains that can be expected. The CSF-Q and the SRF-Q algorithms perform better than state-of-the-art combiners not using quality measures, and under certain conditions better than existing state-of-the-art combiners using quality measures.
--
La vérification biométrique d’identité peut être vue comme un problème de traitement du signal et de reconnaissance des formes statistique. En tant que tel, elle se base sur des modèles de représentations de signaux qui peuvent être utiliser pour discriminer entre des classes. Un des présupposés généralement employé par le praticien est que l’ensemble de données d’entraînement utilisé pour apprendre les paramètres du modèle constitue un échantillon représentatif de l’ensemble de test caché sur lequel le système sera testé. Si l’ensemble de test est distordu, ce présupposé n’est plus applicable, et la règle de décision de Bayes, ou la règle de la vraisemblance maximale, ne sont plus optimales. En biométrie, les distortions dans les données proviennent de deux sources principales: la variabilité interne à l’utilisateur, et le changement dans les conditions d’acquisitions du signal. L’object de la présente thèse est d’améliorer la robustesse des systèmes de vérification biométriques
à ces sources de variabilité.
Comme les signaux en cause ne sont pas déterministes, mais stochastiques, les techniques d’analyse de signal fixe ne sont pas applicable pour la modélisation. En utilisant des méthodes probabilistes, nous obtenons des modèles décrivant, entre autres, l’écart-type des variables aléatoires, ce qui signifie que l’on peut prendre en compte l’incertitude liée à la réalisation de la variable aléatoire (paramètre) due à la variabilité interne à l’utilisateur. De plus, nous supposons que la modélisation d’information reflétant les conditions d’acquisitions du signal pourraient être utiles pour améliorer la robustesse des systèmes de vérification d’identité biométrique aux changement de la distribution des données par rapport aux distributions d’entraînements.
Dans cette thèse, nous utilisons des approches probabilistes à toutes les étapes du processus de traitement biométrique, en prenant en compte la qualité du signal modélisé. Nous utilisons le cadre théorique des réseaux Baysésiens, un membre de la famille des modèle graphiques qui offre une souplesse importante. Nous utilisons les réseaux de Bayes aussi bien pour les systèmes à un seul classifieur (classifieur de base et modèle de fiabilité) que pour les sytèmes à classifieurs multiples (combinaison de classifieur avec et sans mesures de qualité).
Dans la partie traitant des systèmes à un seul classifieur, nous proposons l’utilisation d’une topologie de réseau de Bayes équivalente à un modèle à mélange de Gaussiennes, pour la vérification de signature, et nous montrons que les résultats expérimentaux sont équivalent aux résultats de pointe. De plus, le même modèle peut être utilisé pour la vérification du locuteur.
Les mesures de qualité sont une information auxiliaire qui peut être utilisée aussi bien dans les systèmes à un seul classifieur que dans les systèmes à classifieurs multiples. Nous définissons précisément le concept de mesure de qualité, et montrons les différents types potentiels de mesures de qualité. Nous proposons des nouvelles mesures de qualité pour la voix et la signature, et introduisons le concept de mesure de qualité indépendante de la modalité. Nous montrons que l’effet d’une dégradation du signal peut être différente sur les distributions des scores des clients et sur celles des imposteurs; ceci est un effet important à considérer lors de la conception de modèles de fusion basés sur la qualité. Nous proposons une méthodologies d’évaluation pour les mesures de qualité.
Nous proposons l’utilisation des modèles de fiabilité. Ce sont des modèles probabilistes du comportement de classifieurs de base, qui prennent en compte les mesures de qualité. Leur application résulte en des estimations de confiance améliorées, qui est quelque peu robuste aux changement de conditions d’acquisition. Les expériences montrent que l’estimation de la fiabilité donne généralement des meilleurs résultats que l’estimation de confiance.
Nous formalisons plusieurs algorithmes de combinaisons de classifieurs en tant que modèles probabilistes dans le cadre théorique des réseaux de Bayes, aussi bien pour la fusion au niveau des décisions que pour la fusion au niveau des scores. Nous proposons des améliorations à des modèles existants. Nous proposons également un nouvel algorithme d’apprentissage de structure, l’algorithme de fusion par régression à densité faible (SRF), qui est con¸cu spécialement pour les taˆches de combinaison de classifieurs. Cet algorithme obtient des bons résultats sur trois bases de données multimodales de référence.
Pour terminer, nous proposons un regard théorique sur la combinaison probabiliste de classifieurs avec des mesures de qualité, basée sur une analyse des relations d’indépendence et d’indépendence conditionnelle induite par différente topologies de modèle. Nous montrons également l’importance de la notion d’indépendence spécifique au contexte, et trac¸ons un parallèle entre la construction d’arbres de décision et la mise en oeuvre d’une version faible de l’indépendence spécifique au contexte. Nous proposons trois modèles de fusion basée sur la qualité: Le modèle SRF-Q, qui est une adaptation de l’algorithme SRF pour l’utilisation des mesures de qualité. CSF-Q, un modèle de fusion équivalent
à un arbre de décision, mais motivé par des arguments probabilistes et d’indépendence, et le modèle de vote majoritaire truqué, un modèle de fusion flexible qui peut s’utiliser soit avec des modèles de fiabilité, soit avec de méta-classifieurs, avec des limites claires sur les gains qui peuvent être attendus. Les modèles CSF-Q et SRF-Q donnent de meilleurs résultats que des combineurs de pointe qui n’utilisent pas de mesures de qualité, et sous certaines conditions de meilleurs résultats que les combineurs de pointe utilisant les mesures de qualité.

SERVAL

serveur académique lausannois

Probabilistic models for multi-classifier biometric authentication using quality measures

Details