Journées MAS 2010

Sélection de modèles (pdf)

Session organisée par Sylvain Arlot (CNRS, Equipe-Projet Willow)

Le problème de la sélection de modèle consiste à choisir parmi une famille de modèles celui qui conduit à un estimateur de risque minimal, à l'aide des données uniquement. Le choix optimal étant appelé l'oracle, on cherche à prouver une inégalité-oracle, c'est-à-dire que le risque de l'estimateur sélectionné est inférieur à celui de l'oracle multiplié par une (petite) constante C avec grande probabilité. La pénalisation a souvent été utilisée pour cela avec succès, depuis les travaux de Mallows et Akaike notamment, puis ceux de Barron, Birgé et Massart dans un cadre non-asymptotique. Elle consiste à choisir le modèle qui minimise la somme du risque empirique sur le modèle et d'une pénalité mesurant la complexité du modèle. Le choix d'une pénalité adéquate est crucial pour optimiser le risque de l'estimateur final, à la fois du point de vue théorique et du point de vue pratique. Cette session abordera, dans différents cadres statistiques (régression, estimation de densité, clustering, etc.), différentes questions liées au choix d'une pénalité optimale, sous un angle à la fois théorique et pratique :

quelle est la forme d'une pénalité adaptée au problème de sélection de modèles posé?
comment calibrer au mieux (à l'aide des données uniquement) les constantes intervenant dans la pénalité (en particulier, via l'heuristique de pente proposée par Birgé et Massart)?
comment calculer de manière effective la pénalité et le modèle sélectionné?

Exposé de 40 minutes Nathalie Akakpo (Universit\'e Paris-sud; Universit\'e Paris DescartesUniversité Paris-sud, Université Paris Descartes) en collaboration avec Claire Lacour Estimation adaptative par sélection de partitions en rectangles dyadiques transparents

Supposons que l'on veuille estimer une fonction s définie sur le carré unité en se basant sur l'observation de n variables indépendantes. Nous proposons une procédure basée sur une collection particulière de partitions du carré unité, composées chacune de rectangles dyadiques de dimensions éventuellement différentes. Sur chaque partition, nous définissons un estimateur polynomial par morceaux adéquat. Puis nous sélectionnons la meilleure partition à l'aide d'un critère de type moindres carrés pénalisé basé sur les données. Dans cet exposé, nous nous intéresserons à l'estimation de densité ou de densité conditionnelle. Nous proposons dans ce cadre une pénalité permettant d'obtenir une inégalité de type oracle. Notre estimateur possède alors également des propriétés d'adaptation au sens minimax, à constante près, sur des classes de fonctions de régularité éventuellement non homogène et non isotrope. De plus, il peut être implémenté avec une complexité algorithmique seulement linéaire en la taille de l'échantillon.

Exposé de 20 minutes Adrien Saumard (Université Rennes) Heuristique de pente en sèlection de modéles pour des M-estimateurs à contraste règulier transparents

Les procèdures de sèlection de modéles sont sensibles au choix des constantes dans les pènalitès, choix qui se rèvéle souvent peu fondè en pratique, une sous-pènalisation pouvant dègrader considèrablement la performance de l'algorithme associè. Birgè et Massart ont ainsi rècemment introduit une mèthode de calibration automatique des pènalitès, appelèe heuristique de pente, dont le but intrinséque - contrairement à d'autres mèthodes de calibration - est d'amèliorer la performance en prèdiction des algorithmes. Cette mèthode se base en pratique sur un saut identifiable dans les dimensions des modéles sèlectionnès, ce saut ètant localisè autour d'un certain seuil de pènalisation appelè pènalitè minimale. L'heuristique stipule alors que la pènalitè optimale, qui sèlectionne un estimateur dont le risque est èquivalent à celui de l'oracle, vaut deux fois la pènalitè minimale. Le but de l'exposè est de valider cette heuristique et de montrer l'optimalitè non-asymptotique de l'estimateur sèlectionnè dans un cadre gènèrique nouveau que nous dèfinirons et que nous appellerons M-estimation à contraste règulier. Dans ce cadre, nous retrouverons et gènèraliserons certains rèsultats de Arlot et Massart, et Lerasle. Nous validerons aussi pour la premiére fois l'heuristique de pente pour un risque non quadratique, dans le cas de l'estimation de la densitè par maximum de vraisemblance.

Exposé de 20 minutes Jean-Patrick Baudry (Université Paris-sud; INRIA, Projet SELECT; MAP5, Université Paris Descartes) en collaboration avec Cathy Maugis et Bertrand Michel Pratique de l'heuristique de pente et le package Capushe transparents

La mise en oeuvre des méthodes data-driven de calibration de critères pénalisés, issues de l'heuristique de pente de Birgé et Massart, implique des difficultés pratiques. Nous discutons et comparons les deux approches disponibles : le saut de dimension et l'estimation directe de la pente. Nous présentons une solution pour la mise en oeuvre de cette dernière approche, qui repose sur une étude de la stabilité du modèle sélectionné. Les solutions proposées sont implémentées dans le package Capushe qui permet une application simple et conviviale de ces méthodes.

Exposé de 20 minutes Dominique Bontemps (Université Paris-Sud 11) en collaboration avec Wilson Toussile Clustering et sélection de variables sur des données génétiques transparents

Nous nous intéressons au problème d'estimer les variables pertinentes et le nombre de composantes d'une loi de mélange pour des données génotypiques multilocus. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. En outre, sous des conditions faibles portant sur la distribution qui a généré les observations, le modèle sélectionné est asymptotiquement consistent. D'un point de vue pratique, la pénalité est définie à une constante multiplicative près, et celle-ci est calibrée par l'heuristique de pente. Sur des données simulées la procédure de sélection fait mieux que des critères classiques tels que BIC et AIC. Le nouveau critère apporte une réponse à la question : Quel critère choisir en fonction de la taille de l'échantillon?