Classification supervisée multi-étiquette en actes de dialogue: analyse discriminante et transformations de Schoenberg

Cocco, C.

Classification supervisée multi-étiquette en actes de dialogue: analyse discriminante et transformations de Schoenberg

Détails

Télécharger: BIB_DDF987FF7BF5.P001.pdf (3976.17 [Ko])
Etat: Public
Version: Final published version

ID Serval

serval:BIB_DDF987FF7BF5

Type

Actes de conférence (partie): contribution originale à la littérature scientifique, publiée à l'occasion de conférences scientifiques, dans un ouvrage de compte-rendu (proceedings), ou dans l'édition spéciale d'un journal reconnu (conference proceedings).

Collection

Publications

Institution

UNIL/CHUV

Titre

Classification supervisée multi-étiquette en actes de dialogue: analyse discriminante et transformations de Schoenberg

Titre de la conférence

Actes des 12èmes Journées internationales d'analyse statistique des données textuelles (JADT 2014)

Auteur⸱e⸱s

Cocco C.

Organisation

INALCO ; Sorbonne Nouvelle

Adresse

Paris

ISBN

9782954778112

Statut éditorial

Publié

Date de publication

2014

Peer-reviewed

Oui

Editeur⸱rice scientifique

Née E., Daube J.-M., Valette M., Fleury S.

Pages

147-160

Langue

français

Résumé

Abstract
This work studies the multi-label classification of turns in simple English Wikipedia talk pages into dialog acts. The treated dataset was created and multi-labeled by (Ferschke et al., 2012). The first part analyses dependences between labels, in order to examine the annotation coherence and to determine a classification method. Then, a multi-label classification is computed, after transforming the problem into binary relevance. Regarding features, whereas (Ferschke et al., 2012) use features such as uni-, bi-, and trigrams, time distance between turns or the indentation level of the turn, other features are considered here: lemmas, part-of-speech tags and the meaning of verbs (according to WordNet). The dataset authors applied approaches such as Naive Bayes or Support Vector Machines. The present paper proposes, as an alternative, to use Schoenberg transformations which, following the example of kernel methods, transform original Euclidean distances into other Euclidean distances, in a space of high dimensionality.
Résumé
Ce travail étudie la classification supervisée multi-étiquette en actes de dialogue des tours de parole des contributeurs aux pages de discussion de Simple English Wikipedia (Wikipédia en anglais simple). Le jeu de données considéré a été créé et multi-étiqueté par (Ferschke et al., 2012). Une première partie analyse les relations entre les étiquettes pour examiner la cohérence des annotations et pour déterminer une méthode de classification. Ensuite, une classification supervisée multi-étiquette est effectuée, après recodage binaire des étiquettes. Concernant les variables, alors que (Ferschke et al., 2012) utilisent des caractéristiques telles que les uni-, bi- et trigrammes, le temps entre les tours de parole ou l'indentation d'un tour de parole, d'autres descripteurs sont considérés ici : les lemmes, les catégories morphosyntaxiques et le sens des verbes (selon WordNet). Les auteurs du jeu de données ont employé des approches telles que le Naive Bayes ou les Séparateurs à Vastes Marges (SVM) pour la classification. Cet article propose, de façon alternative, d'utiliser et d'étendre l'analyse discriminante linéaire aux transformations de Schoenberg qui, à l'instar des méthodes à noyau, transforment les distances euclidiennes originales en d'autres distances euclidiennes, dans un espace de haute dimensionnalité.

Mots-clé

actes de dialogue, pages de discussion de Wikipédia, classification multi-étiquette, WordNet, analyse discriminante, transformations de Schoenberg

URN

urn:nbn:ch:serval-BIB_DDF987FF7BF51

OAI-PMH

oai:serval.unil.ch:BIB_DDF987FF7BF5

Site de l'éditeur

http://lexicometrica.univ-paris3.fr/jadt/jadt2014/

Création de la notice

06/05/2014 15:54

Dernière modification de la notice

20/08/2019 17:02

Données d'usage

SERVAL

serveur académique lausannois

Classification supervisée multi-étiquette en actes de dialogue: analyse discriminante et transformations de Schoenberg

Détails