Sémantique légère pour le document
Assistance personnalisée pour l’accès au document et l’exploration de son contenu

Vincent Perlerin
GREYC - Université de Caen

THÈSE

Doctorat de l’Université de Caen / Basse-Normandie
Spécialité Informatique

Soutenue publiquement le 7 décembre 2004

Membres du jury
M. Benoît Habert Professeur de l’Université de Paris X,Nanterre (rapporteur)
M. Ioannis Kanellos Professeur de l’ENST de Brest (rapporteur)
Mme Anne Nicolle Professeur de l’Université de Caen (directrice de thèse)
M. François Rastier Directeur de recherche au CNRS  
Mme Pascale Sébillot Maître de conférences HDR de l’Université de Rennes I  
M. Pierre Beust Maître de conférences de l’Université de Caen  

Résumé

Cette thèse met en place les principes d’une sémantique légère pour le Traitement Automatique des Langues qui suppose une limitation à la fois des ressources et des processus utilisés pour proposer des services personnalisés aux utilisateurs. Elle s’inscrit en cela dans le courant des recherches récentes qui tentent de pallier les inconvénients des objectifs maximalistes de l’IA classique pour la compréhension et le calcul du sens des textes.

Les ressources utilisées sont des entités lexicales catégorisées et décrites de façon componentielle et différentielle par un utilisateur. Ces données sont exploitées pour des calculs fondés sur la récurrence et la différence. Le modèle proposé permet l’expression de besoins spécifiques à un utilisateur ou à un groupe d’utilisateurs dans le cadre de tâches génériques nécessitant l’exploration du contenu de textes. Les ressources du système sont construites en interaction avec la machine ; elles peuvent être acquises à partir d’un corpus. Nos efforts ont porté à la fois sur la modélisation lexicale et sur les moyens de l’interaction entre l’utilisateur et la machine.

Les champs d’évaluation sont la veille documentaire et l’analyse d’un fait de langue (une métaphore conventionnelle).

Cette thèse d’informatique participe aux recherches qui ont pour but de transformer la machine en un média à valeur ajoutée pour l’accès personnalisé aux documents textuels. Elle se situe à l’intersection de trois courants de recherche : celui de la mise en oeuvre de la sémantique lexicale de tradition saussurienne (la Sémantique Interprétative de F.Rastier), celui de l’exploitation assistée de corpus numériques et enfin, celui de l’interaction homme / machine située.

Title :

Light semantics for document content analysis – Customized services for document content analysis.

Abstract :

This thesis investigates and defends a "light semantics" approach to Natural Language Processing (NLP). The contrast between "light semantics" and the use of large databases and complex processes is described. Our system provides users with customized services based on both limited-quantity resources and simple processes. This study is thus related to the recent works trying to mitigate the disadvantages of the maximum objectives of the classic AI approaches for automatic text understanding.

The system resources are lexical entities, which are categorized and described both componentially and differentially. Text processing is then based on recurrences and differences in textual documents. The model allows users to express their specific needs within the framework of generic tasks requiring document content analysis. The system entries are built through interactions between user and computer. They can be acquired from a corpus. Our work has focused both on the lexical model and on the needed interaction between user and computer.

The chosen evaluation fields are document scanning and linguistic fact analysis (a conventional conceptual metaphor).

This work is part of researches aiming at transforming computers into an added value media for customized access to texts and for assistance to text content analysis. It is at the junction of three fields of research : traditional structural lexical semantics of Saussure (Interpretative Semantics of F. Rastier), assisted corpora analysis and situated human / computer interaction. Key words : Natural Language Processing, semantics, human-machine systems, user interfaces.


Cette thèse également disponible en ligne dans la revue Texto! (http://www.revue-texto.net/Inedits/Perlerin/Perlerin.html).

Cliquez ici pour téléchargez l'archive zip de tous les fichiers PDF.

[RETOUR AU SITE]


Sommaire

Couverture, remerciements et table des matières ( ⇒ pdf : 107ko)
0-10

Chapitre 1     Vers une sémantique légère pour le TAL ( ⇒ pdf : 494ko)
1.1 Un modèle de ressources sémantiques personnalisées
12
1.2 Définition des objectifs
15
1.2.1 Accès aux documents
15
1.2.2 Accès au contenu des documents
19
1.3 Démarche
22
1.3.1 Décrire des significations
22
1.3.2 Organiser les descriptions
25
1.3.3 L’interaction comme alternative aux approches classiques
27
1.4 Sémantique légère
28
1.4.1 Les ressources
28
1.4.2 Les processus
29
1.4.3 Vers une sémantique légère pour le TAL
30
1.5 Plan de la thèse
31

Chapitre 2    Fondements de l’approche ( ⇒ pdf : 423ko)
2.1 Accès aux documents et à leur contenu
36
2.1.1 Les ontologies et le web sémantiques
36
2.1.2 Représentation des connaissances
40
2.1.3 Terminologie et linguistique
42
2.1.4 Subjectivité, hypermédias et interprétation
44
2.1.5 Conclusion
47
2.2 Fondements
51
2.2.1 Valeur saussurienne
52
2.2.2 Approche interprétative, Sémantique Interprétative
59
2.2.3 Modèle de catégorisation différentielle et modèle oppositionnel du sème
63
2.2.4 Interaction dans le système
65
2.3 Conclusion
67

Chapitre 3    Le modèle LUCIA ( ⇒ pdf : 1,8Mo)
3.1 Entrées lexicales du système
71
3.1.1 Lexique de mots versus lexique de morphèmes
72
3.1.2 Détermination des entités
73
3.1.3 Critères de sélection
75
3.2 Modèle de catégorisation et de description
77
3.2.1 Les attributs
77
3.2.2 Les tables, les topiques
83
3.2.3 Les dispositifs
91
3.3 LUCIA, un modèle de représentation des mots dans le discours
96
3.3.1 Point de vue et jugement de l’utilisateur
97
3.3.2 Les mots dans le discours interprété
100
3.3.3 Approche complémentaire entre onomasiologie et sémasiologie
103
3.4 Expérience
104
3.5 Conclusion
110

Chapitre 4    Acquisition et structuration des ressources ( ⇒ pdf : 5,6Mo)
4.1 Les tâches
113
4.1.1 Aspects génériques des tâches
113
4.1.2 Veille documentaire
114
4.1.3 Étude d’une métaphore conceptuelle
120
4.1.4 Autres tâches
123
4.2 Corpus d’observation et acquisition
124
4.2.1 Définition du corpus d’observation
125
4.2.2 Extraction supervisée
127
4.2.3 MEMLABOR – Logiciel d’aide à l’acquisition
129
4.2.4 Première évaluation du lexique : THEMEEDITOR
141
4.2.5 Variantes morphosyntaxiques
147
4.3 LUCIABuilder – Logiciel interactif pour la construction de dispositifs
151
4.4 Propriétés des dispositifs
160
4.4.1 Exemple de dispositif
160
4.4.2 Symétrie du processus : des attributs aux dispositifs
163
4.5 Protocole de construction d’un dispositif
174
4.6 Conclusion
178

Chapitre 5    Analyses et interactions ( ⇒ pdf : 9,8Mo)
5.1 Projections des informations lexicales
182
5.2 Visualisation et interaction
190
5.2.1 Techniques de visualisation interactive
190
5.2.2 Interactions génériques et spécifiques
196
5.2.3 Facteurs à prendre en considération
207
5.3 Étude de la métaphore
210
5.3.1 Première expérience
211
5.3.2 Observations et résultats
213
5.3.3 Conclusions et perspectives pour l’étude de la métaphore
223
5.4 Veille documentaire
226
5.4.1 LUCIASearch
227
5.4.2 Exemple d’utilisation
232
5.4.3 Conclusions et perspectives sur le projet de veille documentaire
247
5.5 Évaluation
248

Conclusion ( ⇒ pdf : 28ko)
251
Bibliographie ( ⇒ pdf :62ko)
255
Index ( ⇒ pdf : 14ko)
269
Glossaire ( ⇒ pdf : 12ko)
271
Résumé / Abstract ( ⇒ pdf : 13ko)
272

© texto! décembre 2004 pour l'édition électronique