Développements récents dans les modèle de Poisson lognormaux multivariés

Le modèle Poisson lognormal multivarié (PLN) proposé par Atchinson en 1989 est un modèle à variable latente naturel et populaire pour la modélisation d'observations d'un vecteur de comptages. Il présente l'avantage de décrire la dépendance dans une couche latente gaussienne, offrant un cadre de modélisation familier et bien maîtrisé. Dans une série de travaux, nous avons proposé diverses variantes au modèle PLN (ACP, discriminante, covariance parcimonieuse, mélange) couplés à un cadre d'inférence variationnelle qui nous a permis d'ajuster cette famille de modèles à des données de taille moyenne (quelques centaines de lignes et de colonnes), tailles couramment rencontrées en écologie. Cette famille de méthodes est implémentée dans le package R/C++ PLNmodels (https://pln-team.github.io/PLNmodels).

Plus récemment, nous avons exploré diverses questions qui limitent le cadre d'utilisation des modèles PLN : i) les données de grandes taille (100,000s de ligne, 10,000 de colonnes, typique de la génomique ou de l'écologie microbienne); ii) la présence d'un excès de comptages nuls (typique des données single-cell) iii) ou encore l'impossibilité d'évaluer l'incertitude des estimateurs variationnels. Pour pallier ces problèmes, nous avons exploré plusieurs pistes que nous présenterons lors de cet exposé: un modèle PLN zéro-inflaté, avec parcimonie dans la covariance latente; l'utilisation d'outils d'optimisation issus de l'apprentissage machine (gradient stochastique) pour passer l'inférence variationnelle à de très gros jeu de données; et un algorithme de résolution direct de la vraisemblance utilisant une approximation du gradient, couplant des technique d'importance sampling et de descente de gradient incrémentaux.

Ces travaux sont issus de collaboration avec Bastien Batardière, Joon Kwon, Mahendra Mariadassou et Stéphane Robin.