Cours Data Mining – Fouille de Données – Initiation – Master 1

Objectif : Le Data Mining est l'aboutissement des avancées liées aux Bases de Données et à l'Intelligence Artificielle au sens de l'apprentissage. C'est une discipline émergente mais à fort potentiel pour les entreprises à cheval entre les mathématiques/statistiques et l'informatique. Dans ce cours, au cours de l'étude des différents outils théoriques de la fouille, nous nous concentrerons sur l'aspect algorithmique et logiciel, ainsi que leur utilisation. A la fin de ce cours, l'étudiant connaîtra les notions d'apprentissage non supervisé et supervisé, les algorithmes afférant et leur utilisation sur des cas pratiques. Un outil fédérateur sera particulièrement utilisé : le logiciel libre et évolutif Weka programmé en Java. Un mini-projet et des lectures d'articles permettront de comprendre et de rendre opérationnelles les connaissances enseignées.


Page Web : http://www.math-info.univ-paris5.fr/~lomn/Cours/DM/

Références :

Pratique :

Data Mining Cookbook, Olivia Parr Rud, Ed. Wiley, 2001

Data Mining, Gestion de la relation client, Personnalisation de Site Web, René Lefébure et Gilles Venturi, Ed. Eyrolles, 2001 (en bibliothèque des Saints-Pères)

Mining the Web : transforming customer data into customer value + Mastering Data Mining, G. S. Linoff et M. J.A Berry, Ed. Wiley, 2001 (en bibliothèque des Saints-Pères)

Théorique :

Apprentissage Artificiel, concepts et algorithmes, Antoine Cornuéjols et Laurent Miclet, Ed. Eyrolles, 2003 (en bibliothèque des Saints-Pères)

Métaheuristique pour l'optimisation difficile, Johann Dréo et al., Ed. Eyrolles, 2003 (en bibliothèque des Saints-Pères)


Web :

http://www.math-info.univ-paris5.fr/~lomn/Cours/DM/Material/



Instructeur : Nicolas Loménie (Salle 705 E4 sur rendez-vous au lomenie@sip-crip5.org )

Charge de Travail/Semaine hors présentiel : 2 heures

TP/TD : http://www.math-info.univ-paris5.fr/sip-lab/lomn/Cours/DM/Material/Tutorial

Matériel et données pour TP/TD : http://www.math-info.univ-paris5.fr/sip-lab/lomn/Cours/DM/Material/Data/

Contrôle de Connaissances - Partie Fouille de Données :

    Remarque importante : les TP/TD non traités en présentiel devront être terminés et les corrections de ces TPs seront disponible après le dernier cours sur l'intranet de Paris Descartes





Contrôle de Connaissances - Partie Analyse de Données :



Règle de notation de l'année universitaire 2007-2008 : Note Finale = 70%Note2+30%Note1

Le plan approximatif du cours est le suivant :

Séance 1-2: Des Bases de Données vers la Fouille de Données– Rappels – OLTP vers OLAP

Séance 3-4-5-6 : Introduction et apprentissage non supervisé : clustering, arbre hiérarchique

Séance 7-8-9-10 : apprentissage supervisé : réseaux de neurones, arbres de décision

 Séance 11-12-13-14 : analyse des données, nettoyage et transformations des données + études de cas

Séances 15-16-17 : projet

Séance 18 : soutenance orale du projet