Introduction

Motivations

  • Il y a des questions, des prémisses de décisions, que l'humain a besoin ou envie (économique) de traiter;
  • Ces “études” peuvent impliquer des quantités de données et besoins en calcul énormes;
  • La technologie permet économiquement de faire des traitements qu'on ne pouvait pas faire il y a peu d'années.
  • De quoi a-t-on besoin ? Extraire des connaissances intéressantes et utiles à partir des

données : Règles, régularités, irrégularités, motifs, contraintes

KDD -- ECD

Nous abordons un processus, dont fouille1) –recherche algorithmique– n'est qu'une étape; le processus est “KDD” ou extraction de connaissances.

KDD is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data (Fayyad, Piatetsky-Shapiro, and Smythe 1996)
ECBD est le processus nontrivial de l'identification 2) de dessins 3) dans des données qui soient valides, nouveaux, potentiellement utiles, et compréhensibles à terme.

Le Processus

Selon Selon Fayyad et al.
1 Poser le problème. Comprendre ce qu'en attend le client.
2 Recherche des données.
échantillonage
* sélection des sources
Créer le jeu de données.
3 Nettoyage des données. Nettoyage et pré-traitement des données.
4 Codage des données4) , actions sur les variables.
Réduction de dimensionnalité
* sélection ou transformation d'attributs
* pondération
Réduction et projection des données, découverte de représentations utiles des données adaptées à l'objet de la recherche.
5 Recherche d'un modèle, de connaissances. Choisir une approche analytique adaptée à l'objet de la recherche.
6 Validation et interprétation du résultat. Analyse exploratoire, sélection de modèle, hypothèses, algorithmes.
7 Intégration des choses apprises. Fouille de données : rechercher les régularités inédites.
8 Interprétation des découvertes. Retour en arrière si une autre représentation des données, une autre démarche analytique semble en ressortir plus intéressante.
9 Conclure : intégrer les découvertes, résoudre d'éventuels conflits avec d'autres modèles ou croyances.

Fouille

Le but est d'apprendre quelque chose de nouveau

  • des concepts, regroupements
  • associations, corrélations ou correspondances entre attributs ou données.

Or, Fayyad et al. aborde la question de finalités autrement, en partant des buts ou intentions d'utilisation du système et les formalismes mathématiques primaires au lieu de la forme représentationnelle du résultat souhaité:

  • pourquoi
    • vérification
    • découverte
      • découverte prédictive
      • découverte descriptive
  • formalismes mathématiques primaires
    • statistique
    • logique

Les méthodes communément employées pour prédiction et description sont répertoriées par les uns et les autres, avec quelques différences.

Cours Fayyad Méthode Description
Oui Oui Classification créer une fonction qui classifie une élémentaire parmi plusieurs classes prédéfinies existantes.
Oui Estimation créer un modèle qui décrit au mieux une variable de prévision liée à des données réelles.
Oui Oui Régression Une des méthodes (avec réseaux de neurones) pour faire de l'estimation.
Oui Oui Regroupement
(clustering)
rechercher à identifier un ensemble fini de catégories ou groupes en vue de décrire les données.
Oui “Summarization”
Oui Oui Modélisation des dépendances trouver un modèle qui décrit des dépendances significatives entre les variables
Oui Détection de changements et d'écarts découverte des changements les plus significatifs par rapport à une mesure précédente ou par rapport à des valeurs normatives.

Méthodes décortiquées

Ensuite, Fayyad et al. distinguent trois facettes qui caractérisent les différents méthodes en fouille:

  1. représentation du modèle 5)
  2. évaluation (ou critère) du modèle 6)
  3. recherche 7)

Ils reconnaissent que s'est très réducteur, mais préconisent une attention particulière à ces aspects, qui expriment (pour eux) les concepts clés pour décrire les algorithmes de fouille de données.

Apprentissage Supervisé Non-supervisé
Paradigme Modèle inductif où l’apprenant considère un ensemble d’exemples.. la cible « à apprendre » est connue (classe d’appartenance) Exploratoire : construction d’un modèle et découverte des relations dans les données sans référence à d’autres données. On ne dispose d'aucune information a priori sur le données, on ne sait pas trop ce qu'on cherche.
Utilisations Data mining prédictif :
• Diviser/regrouper les instances dans des classes spécifiques pour des prédictions futures
• Prédire des valeurs inconnues ou manquantes
Data mining explicatif
• Regrouper les instances dans des classes spécifiques en se basant sur leur ressemblance ou sur le partage de propriétés. Les classes sont inconnues et sont donc créées : elles servent à « expliquer » ou résumer les données
• Mise en relation des données
Algorithmes arbres de décision, régression, réseau de neurones, classif. Bayésienne, SVM, algorithmes génétiques Segmentation, regroupement, découverte d’associations et de règles
1) data mining – the application of specific algorithms for extracting patterns from data
2) découverte est peut être mieux
3) régularités
4) agrégation (somme, moyenne), discrétisation, codage des attributs discrets, uniformisation d'échelle ou standardisation, “centrée réduite” e.g.
5) model representation
6) model evaluation
7) search.

 
m1ilc/fouille_1.txt · Dernière modification: 2009/12/29 15:43 par suitable