Le format de fichier "C4.5"

C4.5 a besoin de 2 fichiers: le premier décrit la structure des données et l'autre les données elle-mêmes.

Le fichier de description se décompose ligne par ligne. La première ligne énumère les modalités de la classe. Les lignes suivantes sont associées aux variables décrivant les données. A noter : Les commentaires sont précédés du caractère '|'. Voici le détail du format des fichiers de description :
classe0, classe1, classe2 | premiere ligne : les modalités de la classe
desc1 : Id | descripteur identifiant optionel
desc2 : mod1, mod2, mod3 | descripteur discret et ses modalités
desc3 : continuous | descripteur continu
desc4 : ignore | descripteur inutilisé lors de la construction de l'arbre

Le fichier de données est constitué d'une série de ligne, chacune associée à un exemple. Un ligne indique la valeur de chaque descripteur séparé par des virgules (nb : la valeur de la classe apparait en dernier!). Voici le détail du format des fichiers de données :
Exemple1, mod1, 2.45, blanc, classe0
Exemple2, mod1, 5.3, noir, classe2
Exemple3, mod2, 1.333, noir, classe1
Exemple4, mod3, -0.45, blanc, classe2
Exemple5, mod3, 1.5, blanc, classe0
Exemple6, mod2, 4.5, noir, classe0

Retour