Textual autocorrelation : formalism and illustrations
Details
Download: BIB_E0A7ADF5A7E7.P001.pdf (2472.03 [Ko])
State: Public
Version: author
State: Public
Version: author
Serval ID
serval:BIB_E0A7ADF5A7E7
Type
Inproceedings: an article in a conference proceedings.
Collection
Publications
Institution
Title
Textual autocorrelation : formalism and illustrations
Title of the conference
11èmes Journées internationales d'analyse statistique des données textuelles
Publisher
Université de Liège
Organization
Université de Liège Facultés Universitaires Saint-Louis - Bruxelles
Address
Liège
ISBN
978-2-9601246-0-6
Publication state
Published
Issued date
2012
Peer-reviewed
Oui
Editor
Dister A., Longrée D., Purnelle G.
Pages
109-120
Language
french english italian
Abstract
Abstract
Textual autocorrelation is a broad and pervasive concept, referring to the similarity between nearby textual units:
lexical repetitions along consecutive sentences, semantic association between neighbouring lexemes, persistence
of discourse types (narrative, descriptive, dialogal...) and so on. Textual autocorrelation can also be negative, as
illustrated by alternating phonological or morpho-syntactic categories, or the succession of word lengths.
This contribution proposes a general Markov formalism for textual navigation, and inspired by spatial statistics.
The formalism can express well-known constructs in textual data analysis, such as term-document matrices, references
and hyperlinks navigation, (web) information retrieval, and in particular textual autocorrelation, as measured
by Moran's I relatively to the exchange matrix associated to neighbourhoods of various possible types.
Four case studies (word lengths alternation, lexical repulsion, parts of speech autocorrelation, and semantic autocorrelation)
illustrate the theory. In particular, one observes a short-range repulsion between nouns together with a
short-range attraction between verbs, both at the lexical and semantic levels.
Résumé:
Le concept d'autocorrélation textuelle, fort vaste, réfère à la similarité entre unités textuelles voisines: répétitions
lexicales entre phrases successives, association sémantique entre lexèmes voisins, persistance du type de discours
(narratif, descriptif, dialogal...) et ainsi de suite. L'autocorrélation textuelle peut être également négative, comme
l'illustrent l'alternance entre les catégories phonologiques ou morpho-syntaxiques, ou la succession des longueurs
de mots.
Cette contribution propose un formalisme markovien général pour la navigation textuelle, inspiré par la statistique
spatiale. Le formalisme est capable d'exprimer des constructions bien connues en analyse des données textuelles,
telles que les matrices termes-documents, les références et la navigation par hyperliens, la recherche documentaire
sur internet, et, en particulier, l'autocorélation textuelle, telle que mesurée par le I de Moran relatif à une matrice
d'échange associée à des voisinages de différents types possibles.
Quatre cas d'étude illustrent la théorie: alternance des longueurs de mots, répulsion lexicale, autocorrélation des
catégories morpho-syntaxiques et autocorrélation sémantique. On observe en particulier une répulsion à courte
portée entre les noms, ainsi qu'une attraction à courte portée entre les verbes, tant au niveau lexical que sémantique.
Textual autocorrelation is a broad and pervasive concept, referring to the similarity between nearby textual units:
lexical repetitions along consecutive sentences, semantic association between neighbouring lexemes, persistence
of discourse types (narrative, descriptive, dialogal...) and so on. Textual autocorrelation can also be negative, as
illustrated by alternating phonological or morpho-syntactic categories, or the succession of word lengths.
This contribution proposes a general Markov formalism for textual navigation, and inspired by spatial statistics.
The formalism can express well-known constructs in textual data analysis, such as term-document matrices, references
and hyperlinks navigation, (web) information retrieval, and in particular textual autocorrelation, as measured
by Moran's I relatively to the exchange matrix associated to neighbourhoods of various possible types.
Four case studies (word lengths alternation, lexical repulsion, parts of speech autocorrelation, and semantic autocorrelation)
illustrate the theory. In particular, one observes a short-range repulsion between nouns together with a
short-range attraction between verbs, both at the lexical and semantic levels.
Résumé:
Le concept d'autocorrélation textuelle, fort vaste, réfère à la similarité entre unités textuelles voisines: répétitions
lexicales entre phrases successives, association sémantique entre lexèmes voisins, persistance du type de discours
(narratif, descriptif, dialogal...) et ainsi de suite. L'autocorrélation textuelle peut être également négative, comme
l'illustrent l'alternance entre les catégories phonologiques ou morpho-syntaxiques, ou la succession des longueurs
de mots.
Cette contribution propose un formalisme markovien général pour la navigation textuelle, inspiré par la statistique
spatiale. Le formalisme est capable d'exprimer des constructions bien connues en analyse des données textuelles,
telles que les matrices termes-documents, les références et la navigation par hyperliens, la recherche documentaire
sur internet, et, en particulier, l'autocorélation textuelle, telle que mesurée par le I de Moran relatif à une matrice
d'échange associée à des voisinages de différents types possibles.
Quatre cas d'étude illustrent la théorie: alternance des longueurs de mots, répulsion lexicale, autocorrélation des
catégories morpho-syntaxiques et autocorrélation sémantique. On observe en particulier une répulsion à courte
portée entre les noms, ainsi qu'une attraction à courte portée entre les verbes, tant au niveau lexical que sémantique.
Keywords
Hyponymy, local variance, Markov transitions, Moran's I, semantic scores, textual attraction, textual dissimilarities, textual navigation, textual repulsion
Publisher's website
Create date
22/08/2012 12:53
Last modification date
20/08/2019 16:04