Différences

Cette page vous donne les différences entre la révision choisie et la version actuelle de la page.

m1ilc:fouille_1 [2009/12/29 14:14]
suitable créée
m1ilc:fouille_1 [2009/12/29 15:43] (Version actuelle)
suitable
Ligne 1: Ligne 1:
 ===== Introduction ===== ===== Introduction =====
 +
 +
 +==== Motivations ====
 +
 +  * Il y a des questions, des prémisses de décisions, que l'humain a besoin ou envie (économique) de traiter;
 +  * Ces "études" peuvent impliquer des quantités de données et besoins en calcul énormes;
 +  * La technologie permet économiquement de faire des traitements qu'on ne pouvait pas faire il y a peu d'années.
 +  * De quoi a-t-on besoin ?  Extraire des connaissances intéressantes et utiles à partir des
 +données : Règles, régularités, irrégularités, motifs, contraintes
 +
 +
 +==== KDD -- ECD ====
  
 Nous abordons un processus, dont fouille((data mining -- the application of specific algorithms for extracting patterns from data)) --recherche algorithmique-- n'est qu'une étape; le processus est "KDD" ou extraction de connaissances.  Nous abordons un processus, dont fouille((data mining -- the application of specific algorithms for extracting patterns from data)) --recherche algorithmique-- n'est qu'une étape; le processus est "KDD" ou extraction de connaissances. 
Ligne 26: Ligne 38:
   * des concepts, regroupements   * des concepts, regroupements
   * associations, corrélations ou correspondances entre attributs ou données.   * associations, corrélations ou correspondances entre attributs ou données.
 +
 +Or, Fayyad et al. aborde la question de finalités autrement, en partant des buts ou intentions d'utilisation du système et les formalismes mathématiques primaires au lieu de la forme représentationnelle du résultat souhaité:
 +  * pourquoi
 +    * vérification
 +    * découverte
 +      * découverte prédictive
 +      * découverte descriptive
 +  * formalismes mathématiques primaires
 +    * //statistique//
 +    * //logique//
 +
 +
 +Les méthodes communément employées pour prédiction et description sont répertoriées par les uns et les autres, avec quelques différences.
 +
 +^ Cours ^ Fayyad ^ Méthode  ^  Description  ^
 +| Oui | Oui | Classification | créer une fonction qui classifie une élémentaire parmi plusieurs classes prédéfinies existantes. |
 +| Oui |  |  Estimation  | créer un modèle qui décrit au mieux une variable de prévision liée à des données réelles.  |
 +| Oui |  Oui | Régression  | Une des méthodes (avec réseaux de neurones) pour faire de l'estimation. |
 +| Oui | Oui | Regroupement \\ (clustering) | rechercher à identifier un ensemble fini de catégories ou groupes en vue de décrire les données.  |
 +|  | Oui | "Summarization" |  |
 +| Oui | Oui | Modélisation des dépendances | trouver un modèle qui décrit des dépendances significatives entre les variables |
 +|  | Oui | Détection de changements et d'écarts | découverte des changements les plus significatifs par rapport à une mesure précédente ou par rapport à des valeurs normatives. |
 +
 +==== Méthodes décortiquées ====
 +
 +Ensuite, Fayyad et al. distinguent trois facettes qui caractérisent les différents méthodes en fouille:
 +  - représentation du modèle ((model representation))
 +  - évaluation (ou critère) du modèle ((model evaluation))
 +  - recherche ((search.))
 +Ils reconnaissent que s'est très réducteur, mais préconisent une attention particulière à ces aspects, qui expriment (pour eux) les concepts clés pour décrire les algorithmes de fouille de données.
 +
 +
 +
 +^ Apprentissage ^  Supervisé  ^  Non-supervisé  ^
 +^ Paradigme |  Modèle **inductif** où l’apprenant considère un ensemble d’exemples.. la cible « à apprendre » est connue (classe d’appartenance) | Exploratoire : construction d’un modèle et découverte des relations dans les données sans référence à d’autres données. On ne dispose d'aucune information a priori sur le données, on ne sait pas trop ce qu'on cherche. |
 +^ Utilisations  | Data mining prédictif : \\ • Diviser/regrouper les instances dans des classes spécifiques pour des prédictions futures\\ • Prédire des valeurs inconnues ou manquantes | Data mining explicatif \\ • Regrouper les instances dans des classes spécifiques en se basant sur leur ressemblance ou sur le partage de propriétés. Les classes sont inconnues et sont donc créées : elles servent à « expliquer » ou résumer les données\\ • Mise en relation des données  |
 +^ Algorithmes | arbres de décision, régression, réseau de neurones, classif. Bayésienne, SVM, algorithmes génétiques | Segmentation, regroupement, découverte d’associations et de règles |
 +
 +
 +
 +
  
  
 
m1ilc/fouille_1.txt · Dernière modification: 2009/12/29 15:43 par suitable
 
Sauf mention contraire, le contenu de ce wiki est placé sous la licence suivante :CC Attribution-Noncommercial-Share Alike 3.0 Unported
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki