Le grand intérêt des arbres de décision est qu'ils combinent l'approche logique et l'approche statistique, pour donner un modèle expressif et lisible flou (c'est à dire, probabiliste et non déterministe). Ainsi ils produisent un modèle qui peut être traduit sous forme de règles, exprimant une conditionnalité complexe (avec disjonctions) des valeurs discrètes à prédire.
Exemple d'arbre de décision
select ciel
case soleil: select humidité
case elevée : return "non"; break;
case normale : return "oui"; break;
case couvert : return "oui"; break;
case pluie: select vent
case fort: return "non"; break;
case faible: return "oui"; break
Expression sous forme logique (règle) :
(ciel==soleil et humidité==normale) ou (ciel==couvert) ou (ciel==pluie et vent==faible)
Comment juger si un attribut est plus clivant qu'un autre? Utiliser l'entropie, ou contenu en information (son contraire).
C'est une mesure de l'homogénéité des exemples : plus l'entropie est élevée , plus les occurrences sont équiprobables, ce qui correspond à un manque d'information pour faire une bonne prédiction.
Dans notre exemple, nous avons 9 V et 5 F : -\frac{9}{14} \log \frac{9}{14} - \frac{5}{14} \log \frac{5}{14} = 0,940 est l'entropie initiale. Quel attribut peut le réduire le plus fortement? Pour savoir, nous devons calculer, pour chaque attribut, l'entropie associée à chacune de ses valeurs et pondéré par la fréquence de cette valeur.
Donc, puisque max{0.151 0,048 0,246 0,029}=0,246, nous choisons ciel comme attribut racine, et poursuivons l'évaluation des gains potentiels si on affine dans chacun de ses trois fils. Nous constatons que pour “couvert” la valeur de la variable dépendante est toujours ”+” donc on s'arrête là en ce qui le concerne, et n'étudions que ses deux frères. Etc.
Dans cet algorithme, l'apprentissage est une recherche dans un espace d'hypothèses (les arbres de séquences de décisions), guidé par le gain incrémental à chaque instant mesuré par une fonction (entropie). Cela suppose que l'espace d'hypothèses est complet, ce qui est le cas, et les choix sont faits sur la base de critères statistiques. Mais ce n'est pas une recherche exhaustive, car c'est une recherche en largeur d'abord qui ne retourne pas en arrière pour mettre en question les séquences des attributs. C'est un algorithme “greedy”, qui préfère produire les règles les plus courtes.
C'est, je crois, une question de degrés de liberté. Pour palier,
En faire un attribut discret. Par exemple, pour la température, grouper les températures en tranches.
Si un attribut a beaucoup de valeurs, il sera favorisé, pour peu que leur répartition (de fréquences) ne soit pas uniforme. On peu escompter le gain d'information par une indice de saucissonnage.
Dans certains domaines, le coût d'obtention d'informations (attributs) peut être élevé, le délai d'acquisition peut être long (robotique, diagnostique médicale, e.g.). Des indices pour évaluer à la louche l'intérêt d'utiliser de tels attributs sont proposées: