Meeting in Lyon, 2019, July the 1st
Présents
Thibault Espinasse, Olivier Gandrillon, Aymeric Stamm, Vincent Calvez, Thomas Lepoutre, Elias Ventre, Alice Cleynenne, Jean-Philippe Vert, Clément Bénesse, Claire Gayral, Anthony Ozier-Lafontaine, Jean-Baptiste Albert, Angelina Roche, Laure Sansonnet, Bertrand Michel, Franck Picard, Julien Chiquet, Laurent Modolo, Joon Kwon
Points
- Workshop à venir (en particulier Probabilistic Modeling In Genomics)
- Question sur le partage de bonnes pratiques et sur la mise en commun de logiciels
Matrice aléatoire et cellules uniques
Thomas présente le papier de Aparicio et al. (2018) décrivant le soft Randomly.
Distribution asymptotique des valeurs propres
Soit \(X\) la matrice \(n \times p\) des données(\(n\) cellules, \(p\) gènes). On s’intéresse à une problématique de réduction de dimension sur les cellules. On suppose que \(n <p\) et on pose \(W = \mathbf{X} \mathbf{X}^\top\). Soit la décomposition en vecteurs propres / valeurs propres \[\begin{equation} W \phi_k = \lambda_k \psi_k, \end{equation}\] et la mesure \(\mu_n(A = \frac{1}{n} \#\{\lambda_j \in A \})\), \(A \subset \mathbb{R}\)
Theorem
Si \(X\) est une matrice aléatoire dont les entrées sont des variables aléatoires localement indépendamment distribuées et centrées/réduites, alors, pour \(a_{+/-} = (1+/- \sqrt{\gamma})^2\), et \(n,p \to \infty\) tels que \(n/p \to \gamma > 0\), les valeurs propres sont distribuées selon Marchenko–Pastur: \[\begin{equation*} d \mu(\lambda) = \frac{1}{2\pi\gamma} \frac{\sqrt{(a_+ - \lambda_)(\lambda- a_-)}}{\lambda} \mathbf{1}_{a_-, a_+} d \lambda. \end{equation*}\]
Filtration des données
L’idée est de comparer la distribution empirique des valeurs propres à la distribution asymptotique de Marchenko-Pastur pour filtrer les axes de “bruit”.
Dans un deuxième temps, le caractère “creux” des données (présence de beaucoup de zéros en cellules uniques) est pris en compte pour raffiner la distribution asymptotique de Marchenko-Pastur et améliorer la filtration des vecteurs propres non informatifs ou dus au caractère creux des données. Thomas décrit une étape de randomisation pour faire cette estimation.
Présentation des travaux de master
Dimension Reduction and Sensitivity Analysis
Présentation de Clément Bénesse, master encadré par Bertrand et Franck.
Mathematical Framework of Epigenetic Landscape for a Stochastic Hybrid System
Présentation de Élias Ventre, master encadré par Olivier, Thibault et Thomas.
Integrating ATAC-seq and RNA-seq quasi single-cell data
Présentation de Claire Gayal, étudiante en master encadré par Franck et Julien.
Discussion:
- Remarque de Olivier: modulation due aux facteurs de transcription?
- Remarque de Félix: binarisation des données?
- Référence de données existante: “cut and run” Hainer et al. (2019)
Cellule unique et inférence variationnelle
Félix
- Introduction à EM et aux modèles à variable latente: modèle de mélange gaussien
- Principe de l’approche variationnelle, champs moyen
- Principe des Variational Auto Encoder (VAE)
Anthony:
- la méthode “scVI” (Single-Cell Variational Inference)
- Modèle hiérarchique de scVI: zero-inflated negative binomial
- Inférence par Variational Auto-Encoder
Reference
Aparicio, Luis, Mykola Bordyuh, Andrew J. Blumberg, and Raul Rabadan. 2018. “Quasi-Universality in Single-Cell Sequencing Data.” bioRxiv. https://doi.org/10.1101/426239.
Hainer, Sarah J, Ana Bošković, Kurtis N McCannell, Oliver J Rando, and Thomas G Fazzio. 2019. “Profiling of Pluripotency Factors in Single Cells and Early Embryos.” Cell 177 (5): 1319–29.