Meeting in Lyon, 2019, July the 1st

Présents

Thibault Espinasse, Olivier Gandrillon, Aymeric Stamm, Vincent Calvez, Thomas Lepoutre, Elias Ventre, Alice Cleynenne, Jean-Philippe Vert, Clément Bénesse, Claire Gayral, Anthony Ozier-Lafontaine, Jean-Baptiste Albert, Angelina Roche, Laure Sansonnet, Bertrand Michel, Franck Picard, Julien Chiquet, Laurent Modolo, Joon Kwon

Points

Matrice aléatoire et cellules uniques

Thomas présente le papier de Aparicio et al. (2018) décrivant le soft Randomly.

Distribution asymptotique des valeurs propres

Soit \(X\) la matrice \(n \times p\) des données(\(n\) cellules, \(p\) gènes). On s’intéresse à une problématique de réduction de dimension sur les cellules. On suppose que \(n <p\) et on pose \(W = \mathbf{X} \mathbf{X}^\top\). Soit la décomposition en vecteurs propres / valeurs propres \[\begin{equation} W \phi_k = \lambda_k \psi_k, \end{equation}\] et la mesure \(\mu_n(A = \frac{1}{n} \#\{\lambda_j \in A \})\), \(A \subset \mathbb{R}\)

Theorem

Si \(X\) est une matrice aléatoire dont les entrées sont des variables aléatoires localement indépendamment distribuées et centrées/réduites, alors, pour \(a_{+/-} = (1+/- \sqrt{\gamma})^2\), et \(n,p \to \infty\) tels que \(n/p \to \gamma > 0\), les valeurs propres sont distribuées selon Marchenko–Pastur: \[\begin{equation*} d \mu(\lambda) = \frac{1}{2\pi\gamma} \frac{\sqrt{(a_+ - \lambda_)(\lambda- a_-)}}{\lambda} \mathbf{1}_{a_-, a_+} d \lambda. \end{equation*}\]

Filtration des données

L’idée est de comparer la distribution empirique des valeurs propres à la distribution asymptotique de Marchenko-Pastur pour filtrer les axes de “bruit”.

Dans un deuxième temps, le caractère “creux” des données (présence de beaucoup de zéros en cellules uniques) est pris en compte pour raffiner la distribution asymptotique de Marchenko-Pastur et améliorer la filtration des vecteurs propres non informatifs ou dus au caractère creux des données. Thomas décrit une étape de randomisation pour faire cette estimation.

Présentation des travaux de master

Dimension Reduction and Sensitivity Analysis

Présentation de Clément Bénesse, master encadré par Bertrand et Franck.

Mathematical Framework of Epigenetic Landscape for a Stochastic Hybrid System

Présentation de Élias Ventre, master encadré par Olivier, Thibault et Thomas.

Integrating ATAC-seq and RNA-seq quasi single-cell data

Présentation de Claire Gayal, étudiante en master encadré par Franck et Julien.

Discussion:

  • Remarque de Olivier: modulation due aux facteurs de transcription?
  • Remarque de Félix: binarisation des données?
  • Référence de données existante: “cut and run” Hainer et al. (2019)

Cellule unique et inférence variationnelle

Félix

  • Introduction à EM et aux modèles à variable latente: modèle de mélange gaussien
  • Principe de l’approche variationnelle, champs moyen
  • Principe des Variational Auto Encoder (VAE)

Anthony:

  • la méthode “scVI” (Single-Cell Variational Inference)
  • Modèle hiérarchique de scVI: zero-inflated negative binomial
  • Inférence par Variational Auto-Encoder

Reference

Aparicio, Luis, Mykola Bordyuh, Andrew J. Blumberg, and Raul Rabadan. 2018. “Quasi-Universality in Single-Cell Sequencing Data.” bioRxiv. https://doi.org/10.1101/426239.

Hainer, Sarah J, Ana Bošković, Kurtis N McCannell, Oliver J Rando, and Thomas G Fazzio. 2019. “Profiling of Pluripotency Factors in Single Cells and Early Embryos.” Cell 177 (5): 1319–29.

ANR project 2019 - 2022

Related