Apprentissage automatique

François Caron, INRIA Bordeaux

Master MIMSE - Spécialité 2 : Statistiques et fiabilité - Automne 2011



Informations pratiques

Horaire : Vendredi de 08h00 à 10h00 (Emploi du temps)
Lieu :
Cours : Bat A13, S004, Université Bordeaux 1 (Plan)
Séances sur ordinateur : CREMI, Bâtiment A28, salle 205, Université Bordeaux 1 (Plan)

Résumé

Ce cours donne une introduction aux méthodes statistiques pour l'apprentissage automatique. On s'intéressera particulièrement aux méthodes de classification de données supervisée et non supervisée.  Plusieurs algorithmes d'apprentissage, basés ou non sur des modèles, seront étudiés, et des applications seront présentées en reconnaissance de formes, traitement du signal, vision, intelligence artificielle et bioinformatique.


Evaluation

Examen et mini-projets.


Synopsis

DateLieuNotes de coursExercicesDonnéesRéférences supplémentaires
Introduction à l'apprentissage automatique23/09/2011Bat A13, S004, Université Bordeaux 1Version présentation
Version impression
Exercice 1  
Méthodes linéaires pour la classification supervisée (1/2)
  • Analyse discriminante linéaire et quadratique
  • Bayésien naïf
30/09/2011Bat A13, S004, Université Bordeaux 1 Version présentation
Version impression

  
Séance sur ordinateur07/10/2011CREMI, Bat. A28, salle 205, Bx 1 TP1   synthétique : train - test
vowel : info - train - test
zip : info - train - test

Méthodes linéaires pour la classification supervisé (2/2)
  • Régression logistique
14/10/2011Bat A13, S004, Université Bordeaux 1 Version présentation
Version impression
Exercice 2
  
Arbres de classification21/10/2011Bat A13, S004, Université Bordeaux 1Version présentation
Version impression
Cours en ligne
sur les arbres
de classification et de régression
PAS DE COURS
28/10/2011   
 
   
Séance sur ordinateur04/11/2011CREMI, Bat. A28, salle 205, Bx 1
     
PAS DE COURS
11/11/2011
Machines à vecteurs support (support vector machines)18/11/2011Bat A13, S004, Université Bordeaux 1Version présentation
Version impression
    
Cours en ligne sur les svms et les méthodes à noyaux
Classification non supervisée
  • K-means
  • Modèles de mélange et algorithme EM
25/11/2011Bat A13, S004, Université Bordeaux 1Version présentation
Version impression
    
Séance sur ordinateur02/12/2011CREMI, Bat. A28, salle 205, Bx 1 TP  mixture_train.txt
mixture_test.txt
Séance sur ordinateur09/12/2011CREMI, Bat. A28, salle 205, Bx 1    



Projets

Les projets peuvent être effectués en monôme ou binôme. Ils donneront lieu à l'écriture d'un rapport à remettre pour le lundi 23 janvier 2012. Les codes informatiques utilisés pour la réalisation du projet devront être envoyés par courrier électronique pour cette même date. Le langage de programmation est libre.

***

Projet 1 : Analyse discriminante à mélange pour la classification
Pré-requis : Analyse discriminante et modèles de mélange

Résumé : Plutôt que de considérer que les données dans chaque classe sont gaussiennes, on suppose qu'elle sont distribuées selon un mélange de gaussiennes. Les paramètres du mélange peuvent être estimés à l'aide d'un algorithme EM.

Procédure :
***
Projet 2 : Classification non supervisée et méthodes de Monte Carlo
Pré-requis : Modèle de mélange, méthode de Monte Carlo par chaîne de Markov, inférence bayésienne

Résumé : L'algorithme EM recherche l'estimée de maximum de vraisemblance d'un modèle de mélange, et fourni donc une estimée ponctuelle. L'inférence bayésienne, en considérant les paramètres inconnus comme des variables aléatoires puis en approchant la distribution a posteriori de ces variables, permet d'avoir une mesure de l'incertitude sur ces paramètres. L'approximation de cette distribution a posteriori se fait à l'aide de Méthode de Monte Carlo par Chaîne de Markov.

Procédure :
***

Projet 3 : Classification de pixels d'images satellitaires

Pré-requis : Méthodes de classification supervisée

Résumé : L'objectif est, dans une image satellitaire, de classer chaque pixel en fonction du type de sol. Les données sont constituées de 4 images (2 dans le domaine visible, 2 en infra-rouge).

Procédure :
***

Projet 4 : Classification de cépages de vin

Pré-requis : Méthodes de classification supervisée

Résumé : L'objectif est, à partir d'un ensemble d'apprentissage, de définir une règle de classification permettant de déterminer le cépage d'un vin à partir d'un ensemble de caractéristiques.

Procédure :

***

Projet 5 : Compression d'images numériques
Pré-requis : K-means et algorithme EM pour les modèles de mélange

Résumé : L'objectif est d'utiliser les méthodes de classification non supervisée pour la compression d'images noir et blanc et couleur.

Procédure :

***
Projet 6 : Classification non supervisée de séquences d'expression de gènes
Pré-requis : K-means et algorithme EM pour les modèles de mélange
Référence : K.Y. Yeung, C. Fraley, A. Murua, A.E. Raftery et W.L. Ruzzo. Model-based clustering and data transformations for gene expression data. Bioinformatics, 2001. Page web.

Résumé
: L'objectif est d'effectuer la classification non supervisée de séquences d'expression de gènes afin d'identifier des gènes ayant des comportements similaires.

Procédure :


***
Projet 7 : Algorithme de classement de résultats sportifs
Pré-requis : Algorithme EM
Référence : F. Caron et A. Doucet. Efficient Bayesian Inference for generalized Bradley-Terry Models. Journal of Computational and Graphical Statistics, to appear, 2011.

Résumé
: L'objectif est d'estimer le paramètre d'aptitude de chaque équipe à partir de résultats sportifs, à l'aide d'un algorithme Expectation-Maximization, puis d'utiliser ce paramètre afin d'effectuer des prédictions.

Procédure :

Références

Trois livres que nous suivrons durant ce cours
Des cours consultables en ligne (en anglais)
Articles de journaux sur les statistiques et l'apprentissage
Des ressources pour aller plus loin:
Jeux de données
Liens utiles