Les séquences (suite)

Etienne Brunet 1
1 BCL, équipe Logométrie et corpus politiques, médiatiques et littéraires
BCL - Bases, Corpus, Langage (UMR 7320 - UNS / CNRS)
Résumé : Nous proposons ici une démarche exploratoire où cinq fonctions relèvent de la même approche, orientée vers l'étude des séquences plutôt que des fréquences. On y considère les mots (ou d'autres objets) dans leur environnement immédiat (paragraphes ou pages) en ignorant la partition en textes. 1- La fonction Topologie représente la distribution, aléatoire ou non, d'un ou de deux objets dans l'espace du corpus, et, le cas échéant, mesure la distance entre les deux distributions, le calcul relevant de la loi hypergéométrique. 2- La fonction Corrélats regroupe les substantifs ou les mots sémantiques qui sont les plus fréquents dans le corpus et établit la carte synthétique de leurs cooccurrences (par une analyse factorielle des correspondances). 3- La fonction Alceste établit un pont avec le logiciel Alceste. Elle lui fournit les données convenablement formatées, en lui transmettant la liste des substantifs les plus fréquents qu’on trouve associés dans un contexte étroit, paragraphe après paragraphe. Après traitement, elle en reçoit les résultats sous forme de « classes ». 4- La fonction Thème recense et assemble tous les passages où un mot (ou autre objet) est rencontré dans le corpus et oppose ces passages au reste du corpus. Il en résulte une liste de spécificités associée à l'objet de la recherche, graphie ou lemme. Ces mots associés au mot-pôle peuvent avoir entre eux des liaisons qui sont explorées, phrase après phrase dans le texte. Il en résulte un tableau de cooccurrences, représenté dans un graphe. 5- La fonction Associations généralise cette démarche et l’étend au corpus entier. En s’appuyant sur la fréquence, une liste des mots pleins est d’abord constituée et donne lieu à un tableau carré de cooccurrences. Quand le tableau est rempli par un balayage complet du corpus, le détail des associations deux à deux est trié et analysé, et une représentation, sous forme de graphe est proposée pour rendre compte des liens préférentiels qui tissent un réseau autour de chaque élément du tableau.
Type de document :
Communication dans un congrès
Serge Heiden (ed.). JADT 2008, 2008, Lyon, France. Pul, pp.253-266, 2008, Actes des JADT 2008
Liste complète des métadonnées

https://hal.univ-cotedazur.fr/hal-01362726
Contributeur : Umr 7320 Bases, Corpus, Langage <>
Soumis le : vendredi 9 septembre 2016 - 11:00:50
Dernière modification le : jeudi 3 mai 2018 - 12:52:02

Fichier

15_séquences.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01362726, version 1

Collections

Citation

Etienne Brunet. Les séquences (suite). Serge Heiden (ed.). JADT 2008, 2008, Lyon, France. Pul, pp.253-266, 2008, Actes des JADT 2008. 〈hal-01362726〉

Partager

Métriques

Consultations de la notice

97

Téléchargements de fichiers

56