Classification supervisée multi-étiquette en actes de dialogue: analyse discriminante et transformations de Schoenberg

Cocco, C.

Classification supervisée multi-étiquette en actes de dialogue: analyse discriminante et transformations de Schoenberg

Details

Download: BIB_DDF987FF7BF5.P001.pdf (3976.17 [Ko])
State: Public
Version: Final published version

Serval ID

serval:BIB_DDF987FF7BF5

Type

Inproceedings: an article in a conference proceedings.

Collection

Publications

Institution

UNIL/CHUV

Title

Classification supervisée multi-étiquette en actes de dialogue: analyse discriminante et transformations de Schoenberg

Title of the conference

Actes des 12èmes Journées internationales d'analyse statistique des données textuelles (JADT 2014)

Author(s)

Cocco C.

Organization

INALCO ; Sorbonne Nouvelle

Address

Paris

ISBN

9782954778112

Publication state

Published

Issued date

2014

Peer-reviewed

Oui

Editor

Née E., Daube J.-M., Valette M., Fleury S.

Pages

147-160

Language

french

Abstract

Abstract
This work studies the multi-label classification of turns in simple English Wikipedia talk pages into dialog acts. The treated dataset was created and multi-labeled by (Ferschke et al., 2012). The first part analyses dependences between labels, in order to examine the annotation coherence and to determine a classification method. Then, a multi-label classification is computed, after transforming the problem into binary relevance. Regarding features, whereas (Ferschke et al., 2012) use features such as uni-, bi-, and trigrams, time distance between turns or the indentation level of the turn, other features are considered here: lemmas, part-of-speech tags and the meaning of verbs (according to WordNet). The dataset authors applied approaches such as Naive Bayes or Support Vector Machines. The present paper proposes, as an alternative, to use Schoenberg transformations which, following the example of kernel methods, transform original Euclidean distances into other Euclidean distances, in a space of high dimensionality.
Résumé
Ce travail étudie la classification supervisée multi-étiquette en actes de dialogue des tours de parole des contributeurs aux pages de discussion de Simple English Wikipedia (Wikipédia en anglais simple). Le jeu de données considéré a été créé et multi-étiqueté par (Ferschke et al., 2012). Une première partie analyse les relations entre les étiquettes pour examiner la cohérence des annotations et pour déterminer une méthode de classification. Ensuite, une classification supervisée multi-étiquette est effectuée, après recodage binaire des étiquettes. Concernant les variables, alors que (Ferschke et al., 2012) utilisent des caractéristiques telles que les uni-, bi- et trigrammes, le temps entre les tours de parole ou l'indentation d'un tour de parole, d'autres descripteurs sont considérés ici : les lemmes, les catégories morphosyntaxiques et le sens des verbes (selon WordNet). Les auteurs du jeu de données ont employé des approches telles que le Naive Bayes ou les Séparateurs à Vastes Marges (SVM) pour la classification. Cet article propose, de façon alternative, d'utiliser et d'étendre l'analyse discriminante linéaire aux transformations de Schoenberg qui, à l'instar des méthodes à noyau, transforment les distances euclidiennes originales en d'autres distances euclidiennes, dans un espace de haute dimensionnalité.

Keywords

actes de dialogue, pages de discussion de Wikipédia, classification multi-étiquette, WordNet, analyse discriminante, transformations de Schoenberg

URN

urn:nbn:ch:serval-BIB_DDF987FF7BF51

OAI-PMH

oai:serval.unil.ch:BIB_DDF987FF7BF5

Publisher's website

http://lexicometrica.univ-paris3.fr/jadt/jadt2014/

Create date

06/05/2014 15:54

Last modification date

20/08/2019 17:02

Usage data

SERVAL

serveur académique lausannois

Classification supervisée multi-étiquette en actes de dialogue: analyse discriminante et transformations de Schoenberg

Details