Cours Data Mining – Fouille de Données – Initiation – Master 1

Objectif : Le Data Mining est l'aboutissement des avancées liées aux Bases de Données et à l'Intelligence Artificielle au sens de l'apprentissage. C'est une discipline émergente mais à fort potentiel pour la recherche en biologie mais également pour les entreprises à cheval entre les mathématiques/statistiques et l'informatique. Dans ce cours, au cours de l'étude des différents outils théoriques de la fouille, nous nous concentrerons sur l'aspect algorithmique et logiciel, ainsi que leur utilisation. A la fin de ce cours, l'étudiant connaîtra les notions d'apprentissage non supervisé et supervisé, les algorithmes afférant et leur utilisation sur des cas pratiques. Un outil fédérateur sera particulièrement utilisé : le logiciel libre et évolutif Weka programmé en Java. Des lectures d'articles permettront de comprendre et de rendre opérationnelles les connaissances enseignées.


Page Web : http://www.math-info.univ-paris5.fr/~lomn/Cours/DM/

Références :

Pratique :

Data Mining Cookbook, Olivia Parr Rud, Ed. Wiley, 2001

Data Mining, Gestion de la relation client, Personnalisation de Site Web, René Lefébure et Gilles Venturi, Ed. Eyrolles, 2001 (en bibliothèque des Saints-Pères)

Mining the Web : transforming customer data into customer value + Mastering Data Mining, G. S. Linoff et M. J.A Berry, Ed. Wiley, 2001 (en bibliothèque des Saints-Pères)

Théorique :

Apprentissage Artificiel, concepts et algorithmes, Antoine Cornuéjols et Laurent Miclet, Ed. Eyrolles, 2003 (en bibliothèque des Saints-Pères)

Métaheuristique pour l'optimisation difficile, Johann Dréo et al., Ed. Eyrolles, 2003 (en bibliothèque des Saints-Pères)

Biologie :

Bioinformatics : a practical guide to the analysis of Genes and Proteins, Ed. A. D. Baxevanis et B.F. F. Ouellette, Ed. Wiley, 2001 (en commande, bientôt en bibliothèque des Saints-Pères)

Introduction à la bioinformatique / Cynthia Gibas et Per Jambeck ; trad. d’Hélène Dauchel, Isabelle Milazzo et Laurent Mouchard, O’Reilly , 2002 (en bibliothèque des Saints-Pères)


Web :

http://www.math-info.univ-paris5.fr/~lomn/Cours/DM/Material/


Instructeur : Nicolas Loménie (Salle 705 E4 sur rendez-vous au lomenie@sip-crip5.org )

Charge de Travail/Semaine hors présentiel : 2 heures

TP/TD : http://www.math-info.univ-paris5.fr/sip-lab/lomn/Cours/DM/Material/Tutorial

Matériel et données pour TP/TD : http://www.math-info.univ-paris5.fr/sip-lab/lomn/Cours/DM/Material/Data/

Contrôle de Connaissance :

    Remarque importante : les TP/TD non traités en présentiel devront être terminés et les corrections de ces TP/TD seront disponible après le dernier cours sur l'intranet de Paris Descarte



Les séances de 3 heures seront un mélange de cours magistraux et de travaux pratiques. Les contrôles écrits se dérouleront sans documents et le plan approximatif est :

Séance 1-2: Des Bases de Données vers la Fouille de Données– Rappels – OLTP vers OLAP

Séance 3-4-5-6 : Apprentissage non supervisé : clustering, arbre hiérarchique

Séance 7-8-9-10 : Apprentissage supervisé : réseaux de neurones, arbres de décision