Table des matières

Arbres de Décision

Intérêts

Le grand intérêt des arbres de décision est qu'ils combinent l'approche logique et l'approche statistique, pour donner un modèle expressif et lisible flou (c'est à dire, probabiliste et non déterministe). Ainsi ils produisent un modèle qui peut être traduit sous forme de règles, exprimant une conditionnalité complexe (avec disjonctions) des valeurs discrètes à prédire.

Représentation

Exemple d'arbre de décision

select ciel
  case soleil: select humidité
      case elevée : return "non"; break;
      case normale : return "oui"; break;
 
  case couvert : return "oui"; break;
 
  case pluie: select vent
      case fort: return "non"; break;
      case faible: return "oui"; break
      

Expression sous forme logique (règle) :

(ciel==soleil et humidité==normale) ou (ciel==couvert) ou (ciel==pluie et vent==faible)

Domaines d'application

Algorithme de base

Critère d'évaluation

Comment juger si un attribut est plus clivant qu'un autre? Utiliser l'entropie, ou contenu en information (son contraire).

C'est une mesure de l'homogénéité des exemples : plus l'entropie est élevée , plus les occurrences sont équiprobables, ce qui correspond à un manque d'information pour faire une bonne prédiction.

Dans notre exemple, nous avons 9 V et 5 F : -\frac{9}{14} \log \frac{9}{14} - \frac{5}{14} \log \frac{5}{14} = 0,940 est l'entropie initiale. Quel attribut peut le réduire le plus fortement? Pour savoir, nous devons calculer, pour chaque attribut, l'entropie associée à chacune de ses valeurs et pondéré par la fréquence de cette valeur.

Donc, puisque max{0.151 0,048 0,246 0,029}=0,246, nous choisons ciel comme attribut racine, et poursuivons l'évaluation des gains potentiels si on affine dans chacun de ses trois fils. Nous constatons que pour “couvert” la valeur de la variable dépendante est toujours ”+” donc on s'arrête là en ce qui le concerne, et n'étudions que ses deux frères. Etc.

ID3

Espace des hypothèses et biais inductif

Dans cet algorithme, l'apprentissage est une recherche dans un espace d'hypothèses (les arbres de séquences de décisions), guidé par le gain incrémental à chaque instant mesuré par une fonction (entropie). Cela suppose que l'espace d'hypothèses est complet, ce qui est le cas, et les choix sont faits sur la base de critères statistiques. Mais ce n'est pas une recherche exhaustive, car c'est une recherche en largeur d'abord qui ne retourne pas en arrière pour mettre en question les séquences des attributs. C'est un algorithme “greedy”, qui préfère produire les règles les plus courtes.

Extensions

Sur-apprentissage

C'est, je crois, une question de degrés de liberté. Pour palier,

Attributs continues

En faire un attribut discret. Par exemple, pour la température, grouper les températures en tranches.

Ratio du gain d'information

Si un attribut a beaucoup de valeurs, il sera favorisé, pour peu que leur répartition (de fréquences) ne soit pas uniforme. On peu escompter le gain d'information par une indice de saucissonnage.

Valeurs manquantes

Coût des attributs

Dans certains domaines, le coût d'obtention d'informations (attributs) peut être élevé, le délai d'acquisition peut être long (robotique, diagnostique médicale, e.g.). Des indices pour évaluer à la louche l'intérêt d'utiliser de tels attributs sont proposées: