Soutenue le 3O novembre 2001
Cette thèse rentre dans le domaine d'activité de la découverte de connaissances à partir des données. En classification, la plupart des stratégies d'évaluation se focalisent sur la précision du modèle prédictif construit. L'objectif de ce travail est de mettre en relief les contributions des explications fournies par les classifieurs à l'aide de leurs capacités prédictives afin d'étudier la qualité de données.
Nous proposons une approche générale appropriée à toute méthode procédant par restructuration de l'ensemble d'apprentissage en une hiérarchie de partitions. À partir de cette dernière, nous proposons à l'utilisateur une quantification de la qualité du modèle qui est élaborée en fonction de l'explication fournie. Nous mettons en oeuvre cette approche avec les arbres de décision. Nous avons ainsi mis au point IQN, IQA et IQR, des indices de qualité qui résument la valeur spécifique et globale des arbres. Ces indices estiment la généralité, la complexité et la précision du résultat. IQN évalue la qualité des noeuds alors que IQA et IQR synthétisent la qualité des arbres et sous-arbres à partir de celles de leurs feuilles. Ensuite, nous proposons deux méthodes d'élagage qui optimisent la qualité de l'arbre ou la qualité de ses feuilles. Ainsi, nous sommes en mesure de déterminer les éléments qui influencent le plus la qualité des arbres. Nous montrons l'intérêt de ces techniques d'évaluation de la qualité appliquées à l'explication et à la restructuration des données en les illustrant sur deux problèmes médicaux pour lesquels les performances en classification sont opposées. Dans un cas, l'explication des données est satisfaisante alors que dans l'autre elle demeure incertaine. Pour réaliser ces expérimentations, nous avons développé le système UnDeT qui applique nos méthodes d'évaluation aux arbres de décision.
| Rapporteurs : | Mohamed Quafafou, maître de conférences (HDR) | Université de Nantes |
|---|---|---|
| Louis Wehenkel, professeur d'université | Université de Liège, Belgique | |
| Examinateurs : | Bernadette Bouchon-Meunier, directeur de Recherche | LIP6, Paris |
| Marinette Revenu, professeur d'université | GREYC, ISMRA Caen | |
| Directeurs : | Bruno Crémilleux, maître de conférences | GREYC, Université de Caen |
| Khaldoun Zreik, professeur d'université | GREYC, Université de Caen |