Étude de la qualité de données à partir de l'apprentissage automatique
Application aux arbres d'induction

Soutenue le 3O novembre 2001

Résumé :

Cette thèse rentre dans le domaine d'activité de la découverte de connaissances à partir des données. En classification, la plupart des stratégies d'évaluation se focalisent sur la précision du modèle prédictif construit. L'objectif de ce travail est de mettre en relief les contributions des explications fournies par les classifieurs à l'aide de leurs capacités prédictives afin d'étudier la qualité de données.

Nous proposons une approche générale appropriée à toute méthode procédant par restructuration de l'ensemble d'apprentissage en une hiérarchie de partitions. À partir de cette dernière, nous proposons à l'utilisateur une quantification de la qualité du modèle qui est élaborée en fonction de l'explication fournie. Nous mettons en oeuvre cette approche avec les arbres de décision. Nous avons ainsi mis au point IQN, IQA et IQR, des indices de qualité qui résument la valeur spécifique et globale des arbres. Ces indices estiment la généralité, la complexité et la précision du résultat. IQN évalue la qualité des noeuds alors que IQA et IQR synthétisent la qualité des arbres et sous-arbres à partir de celles de leurs feuilles. Ensuite, nous proposons deux méthodes d'élagage qui optimisent la qualité de l'arbre ou la qualité de ses feuilles. Ainsi, nous sommes en mesure de déterminer les éléments qui influencent le plus la qualité des arbres. Nous montrons l'intérêt de ces techniques d'évaluation de la qualité appliquées à l'explication et à la restructuration des données en les illustrant sur deux problèmes médicaux pour lesquels les performances en classification sont opposées. Dans un cas, l'explication des données est satisfaisante alors que dans l'autre elle demeure incertaine. Pour réaliser ces expérimentations, nous avons développé le système UnDeT qui applique nos méthodes d'évaluation aux arbres de décision.

Rapporteurs : Mohamed Quafafou, maître de conférences (HDR) Université de Nantes
Louis Wehenkel, professeur d'université Université de Liège, Belgique
Examinateurs : Bernadette Bouchon-Meunier, directeur de Recherche LIP6, Paris
Marinette Revenu, professeur d'université GREYC, ISMRA Caen
Directeurs : Bruno Crémilleux, maître de conférences GREYC, Université de Caen
Khaldoun Zreik, professeur d'université GREYC, Université de Caen


Document : (ps 11.4 Mo), (ps.gz 738 Ko), (pdf 963 Ko), (pdf.gz 799 Ko)
Présentation : (PowerPoint 370 Ko) , (Gzippé 159 Ko) , (Zippé 159 Ko)

[accueil]