La production massive de données par les techniques actuelles de mesure des transcrits posent des problèmes difficiles au statisticien en le confrontant en particulier à un problème de dimension. Les expressions de milliers ou dizaines de milliers de gènes (variables) sont observées sur quelques dizaines ou au mieux centaines d'échantillons. La plupart de l'arsenal statistique est mis à contribution : techniques non paramétriques pour la normalisation, classification à la recherche de réseaux de régulation, analyse de variance et tests avec une très grande multiplicité, modèles de mélange, modèles mixtes, données longitudinales, techniques de discrimination et apprentissage statistique.

Nous nous focaliserons sur quelques approches récemment développées à Toulouse dans le cadre de projets soutenus par l'ANR et plus particulièrement sur le problème de la sélection de gènes différentiellement exprimés. Cette question est généralement traitée par un réglage du seuil de tests multiples (Benjamini Hoechberg) ,de façon à contrôler un taux de faux positifs (FDR) pour filtrer les gènes jugés différentiellement exprimés. L'autre approche consiste à rechercher les gènes les plus discriminants au sens d'un modèle : analyse discriminante, support vector machine, régression logistique PLS, arbres de discrimination, forêts aléatoires... Dans cette idée un algorithme stochastique (Gadat S. et Younes L. 2007. A stochastic algorithm for feature selection in pattern recognition, à paraître, Journal of Machine learning) a été appliqué et étendu pour optimiser une mesure de probabilités sur les gènes. L'objectif est que, tirés selon cette loi, un nombre fixé de gènes conduit au meilleur modèle prédictif estimé par un ensemble d'arbres ou encore par des SVM. Des considérations biologiques sur plusieurs ensembles de données classiques montrent que la sélection de gènes obtenue par cette approche globale est pertinente voire plus pertinente que celle obtenue par filtrage.