===== Introduction ===== ==== Motivations ==== * Il y a des questions, des prémisses de décisions, que l'humain a besoin ou envie (économique) de traiter; * Ces "études" peuvent impliquer des quantités de données et besoins en calcul énormes; * La technologie permet économiquement de faire des traitements qu'on ne pouvait pas faire il y a peu d'années. * De quoi a-t-on besoin ? Extraire des connaissances intéressantes et utiles à partir des données : Règles, régularités, irrégularités, motifs, contraintes ==== KDD -- ECD ==== Nous abordons un processus, dont fouille((data mining -- the application of specific algorithms for extracting patterns from data)) --recherche algorithmique-- n'est qu'une étape; le processus est "KDD" ou extraction de connaissances. > KDD is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data (Fayyad, Piatetsky-Shapiro, and Smythe 1996) > ECBD est le processus nontrivial de l'identification ((découverte est peut être mieux)) de dessins ((régularités)) dans des données qui soient valides, nouveaux, potentiellement utiles, et compréhensibles à terme. ==== Le Processus ==== ^ ^ Selon ^ Selon Fayyad et al. ^ | 1 | Poser le problème. | Comprendre ce qu'en attend le client. | | 2 | Recherche des données.\\ échantillonage\\ * sélection des sources | Créer le jeu de données. | | 3 | Nettoyage des données. | Nettoyage et pré-traitement des données. | | 4 | Codage des données((agrégation (somme, moyenne), discrétisation, codage des attributs discrets, uniformisation d'échelle ou standardisation, "centrée réduite" e.g.)) , actions sur les variables. \\ Réduction de dimensionnalité \\ * sélection ou transformation d'attributs\\ * pondération | Réduction et projection des données, découverte de représentations utiles des données adaptées à l'objet de la recherche. | | 5 | Recherche d'un modèle, de connaissances. | Choisir une approche analytique adaptée à l'objet de la recherche. | | 6 | Validation et interprétation du résultat. | Analyse exploratoire, sélection de modèle, hypothèses, algorithmes. | | 7 | Intégration des choses apprises. | Fouille de données : rechercher les régularités inédites. | | 8 | | Interprétation des découvertes. Retour en arrière si une autre représentation des données, une autre démarche analytique semble en ressortir plus intéressante. | | 9 | | Conclure : intégrer les découvertes, résoudre d'éventuels conflits avec d'autres modèles ou croyances. | ==== Fouille ==== Le but est d'apprendre quelque chose de nouveau * des concepts, regroupements * associations, corrélations ou correspondances entre attributs ou données. Or, Fayyad et al. aborde la question de finalités autrement, en partant des buts ou intentions d'utilisation du système et les formalismes mathématiques primaires au lieu de la forme représentationnelle du résultat souhaité: * pourquoi * vérification * découverte * découverte prédictive * découverte descriptive * formalismes mathématiques primaires * //statistique// * //logique// Les méthodes communément employées pour prédiction et description sont répertoriées par les uns et les autres, avec quelques différences. ^ Cours ^ Fayyad ^ Méthode ^ Description ^ | Oui | Oui | Classification | créer une fonction qui classifie une élémentaire parmi plusieurs classes prédéfinies existantes. | | Oui | | Estimation | créer un modèle qui décrit au mieux une variable de prévision liée à des données réelles. | | Oui | Oui | Régression | Une des méthodes (avec réseaux de neurones) pour faire de l'estimation. | | Oui | Oui | Regroupement \\ (clustering) | rechercher à identifier un ensemble fini de catégories ou groupes en vue de décrire les données. | | | Oui | "Summarization" | | | Oui | Oui | Modélisation des dépendances | trouver un modèle qui décrit des dépendances significatives entre les variables | | | Oui | Détection de changements et d'écarts | découverte des changements les plus significatifs par rapport à une mesure précédente ou par rapport à des valeurs normatives. | ==== Méthodes décortiquées ==== Ensuite, Fayyad et al. distinguent trois facettes qui caractérisent les différents méthodes en fouille: - représentation du modèle ((model representation)) - évaluation (ou critère) du modèle ((model evaluation)) - recherche ((search.)) Ils reconnaissent que s'est très réducteur, mais préconisent une attention particulière à ces aspects, qui expriment (pour eux) les concepts clés pour décrire les algorithmes de fouille de données. ^ Apprentissage ^ Supervisé ^ Non-supervisé ^ ^ Paradigme | Modèle **inductif** où l’apprenant considère un ensemble d’exemples.. la cible « à apprendre » est connue (classe d’appartenance) | Exploratoire : construction d’un modèle et découverte des relations dans les données sans référence à d’autres données. On ne dispose d'aucune information a priori sur le données, on ne sait pas trop ce qu'on cherche. | ^ Utilisations | Data mining prédictif : \\ • Diviser/regrouper les instances dans des classes spécifiques pour des prédictions futures\\ • Prédire des valeurs inconnues ou manquantes | Data mining explicatif \\ • Regrouper les instances dans des classes spécifiques en se basant sur leur ressemblance ou sur le partage de propriétés. Les classes sont inconnues et sont donc créées : elles servent à « expliquer » ou résumer les données\\ • Mise en relation des données | ^ Algorithmes | arbres de décision, régression, réseau de neurones, classif. Bayésienne, SVM, algorithmes génétiques | Segmentation, regroupement, découverte d’associations et de règles |