Objectif : Le Data Mining est l'aboutissement des avancées liées aux Bases de Données et à l'Intelligence Artificielle au sens de l'apprentissage. C'est une discipline émergente mais à fort potentiel pour les entreprises à cheval entre les mathématiques/statistiques et l'informatique. Dans ce cours, au cours de l'étude des différents outils théoriques de la fouille, nous nous concentrerons sur l'aspect algorithmique et logiciel, ainsi que leur utilisation. A la fin de ce cours, l'étudiant connaîtra les notions d'apprentissage non supervisé et supervisé, les algorithmes afférant et leur utilisation sur des cas pratiques. Un outil fédérateur sera particulièrement utilisé : le logiciel libre et évolutif Weka programmé en Java. Un mini-projet et des lectures d'articles permettront de comprendre et de rendre opérationnelles les connaissances enseignées.
Page Web : http://www.math-info.univ-paris5.fr/~lomn/Cours/DM/
Références :
Pratique :
Data Mining Cookbook, Olivia Parr Rud, Ed. Wiley, 2001
Data Mining, Gestion de la relation client, Personnalisation de Site Web, René Lefébure et Gilles Venturi, Ed. Eyrolles, 2001 (en bibliothèque des Saints-Pères)
Mining the Web : transforming customer data into customer value + Mastering Data Mining, G. S. Linoff et M. J.A Berry, Ed. Wiley, 2001 (en bibliothèque des Saints-Pères)
Théorique :
Apprentissage Artificiel, concepts et algorithmes, Antoine Cornuéjols et Laurent Miclet, Ed. Eyrolles, 2003 (en bibliothèque des Saints-Pères)
Métaheuristique pour l'optimisation difficile, Johann Dréo et al., Ed. Eyrolles, 2003 (en bibliothèque des Saints-Pères)
Web :
http://www.math-info.univ-paris5.fr/~lomn/Cours/DM/Material/
Instructeur : Nicolas Loménie (Salle 705 E4 sur rendez-vous au lomenie@sip-crip5.org )
Charge de Travail/Semaine hors présentiel : 2 heures
TP/TD : http://www.math-info.univ-paris5.fr/sip-lab/lomn/Cours/DM/Material/Tutorial
Matériel et données pour TP/TD : http://www.math-info.univ-paris5.fr/sip-lab/lomn/Cours/DM/Material/Data/
Contrôle de Connaissances - Partie Fouille de Données :
Contrôle Continu par (a) rendu de Compte-Rendu écrit de TP synthétisé sur maximum 6 pages avec un 1er rendu début décembre 2008 et le complément au dernier cours (b) et des fiches de lecture courte = Note 1
Remarque importante : les TP/TD non traités en présentiel devront être terminés et les corrections de ces TPs seront disponible après le dernier cours sur l'intranet de Paris Descartes |
Soutenance orale de projet avec rendu d'un rapport écrit = Note 2
Contrôle de Connaissances - Partie Analyse de Données :
Contrôle Continu : les 2 pages du compte-rendu précédent qui portent sur la Classification automatique et le TP d'introduction (TP1&2) + d'éventuels fiches de lecture courtes en rapport avec la thématique = Note 1
Ecrit sur le document ExploStat.pdf dans les Compléments de Cours en particulier les p.1 à 42, p.85 à 98 et p. 125 à 132 en liaison avec l'onglet traitant des corrélations dans le logiciel HCE =Note 2
Règle de notation de l'année universitaire 2007-2008 : Note Finale = 70%Note2+30%Note1
Le plan approximatif du cours est le suivant :
Séance 1-2: Des Bases de Données vers la Fouille de Données– Rappels – OLTP vers OLAP
Séance 3-4-5-6 : Introduction et apprentissage non supervisé : clustering, arbre hiérarchique
Séance 7-8-9-10 : apprentissage supervisé : réseaux de neurones, arbres de décision
Séance 11-12-13-14 : analyse des données, nettoyage et transformations des données + études de cas
Séances 15-16-17 : projet
Séance 18 : soutenance orale du projet