Différences

Cette page vous donne les différences entre la révision choisie et la version actuelle de la page.

m1ilc:fouille_4 [2010/01/02 11:23]
suitable
m1ilc:fouille_4 [2010/01/02 11:45] (Version actuelle)
suitable
Ligne 87: Ligne 87:
  
 === Ratio du gain d'information === === Ratio du gain d'information ===
 +
 +Si un attribut a beaucoup de valeurs, il sera favorisé, pour peu que leur répartition (de fréquences) ne soit pas uniforme. On peu escompter le gain d'information par une indice de saucissonnage.
 +  * <jsm>\displaystyle SplitInformation\left(S,A\right) = - \sum_{i=1}^{c} \frac{|S_i|}{|S|}\log_2 \frac{|S_i|}{|S|}</jsm>
 +  * <jsm>\displaystyle GainRation\left(G,A\right) = \frac{Gain\left(S,A\right)}{SplitInformation\left(S,A\right)}</jsm>
  
 === Valeurs manquantes === === Valeurs manquantes ===
 +
 +  * substituer la valeur la plus commune parmi les exemple de ce noeud
 +  * utiliser la valeur la plus commune
 +  * faire une loi de répartition des valeurs (et simuler avec chaque valeur?)
  
 === Coût des attributs === === Coût des attributs ===
  
 +Dans certains domaines, le coût d'obtention d'informations (attributs) peut être élevé, le délai d'acquisition peut être long (robotique, diagnostique médicale, e.g.). Des indices pour évaluer à la louche l'intérêt d'utiliser de tels attributs sont proposées:
 +  * <jsm>\displaystyle \frac{Gain^2\left(S,A\right)}{Cout\left(A\right)}</jsm>
 +  * <jsm>\displaystyle \frac{2^{Gain\left(S,A\right)}-1}{\left(Cout\left(A\right)+1\right)^w},\; w\in [0,1]</jsm>
 
m1ilc/fouille_4.txt · Dernière modification: 2010/01/02 11:45 par suitable
 
Sauf mention contraire, le contenu de ce wiki est placé sous la licence suivante :CC Attribution-Noncommercial-Share Alike 3.0 Unported
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki