Meeting in Paris, 2019, April the 8th

Meeting du 8 avril 2019

Présents

Bertrand Michel, Félix Raimundo, Jean-Philippe Vert, Laurent Modolo, Franck Picard, Philippe Veber, Clément Bénesse, Claire Gayral, Yoann de Castro, Thomas Lepoutre, Joon Kwon, Anthony Ozier-Lafontaine, Julien Chiquet, Elias Ventre, Stéphane Robin, Aymeric Stamm, Olivier Gandrillon, Filipo Santambrogio

RNA Velocity in single cells

Présentation de Philippe sur http://velocyto.org/, et l’article de La Manno et al. (2018).

Contexte

Une question récurrente est l’inférence de trajectoire (parcours des cellules entre différents états).

Les méthodes existantes 1. Représentation des profile scRNAseq dans l’espace de l’expression 2. Réduction de dimension sur le vecteur vitesse 3. Représentation d’une structure de graphe sur l’espace projeté entre groupe de cellule 4. Inférence de trajectoires sur les graphes

Il existe plus de 80 méthodes suivants ce schéma sortis les deux dernières années. Les benchmarks entre les méthodes sont faites sur données artificielles générées sur uen bases ODE avec ajout de bruit.

  • [OG] On questionne la validité de ces simulateurs vis-à-vis de la réalité bioligique.
  • [JP] Les tester sur données réelles permettrait de valider également les méthodes.

Modèles

Les Modèles de cinétiques de transcription utilise une base d’ODE pour décrire deux sources de mRNA (avec et sans épissage), ainsi que la dégradation.

Traditionnellement, les données RNAseq sont utilisées pour étudier le signal des mRNA épicés (un filtre arbitraire est appliqué pour s’affranchir de l’ARN ribosomal ou non épissé). Philippe décrit une technique permettant d’extraire une partie du signal associé au mRNA non épissé, y compris sur du “bulk”.

[SR] Questions sur les durées des mécanisme d’épissage (de l’ordre de plusieurs heures).

Le modèle cinétique simplifié est le suivant

\[\begin{array}% \frac{d u}{d t} &= \alpha - u(t) \\ \frac{d s}{d t} & = u(t) - \gamma s(t) \\ \end{array}\]

où - \(u\) est la quantité de mRNA non-épissé - \(s\) est la quantité de mRNA épissé - \(\alpha, \gamma\) sont les paramètres du modèle - \(\alpha\) (paramètre de transcription) est fixé - \(\gamma\) est estimé par régression linéaire sur comptage transformé: \(u = \gamma s + o\)

Exemple sur un jeu de données réelles

Manifestement beaucoup de tuning pour obtenir la figure finale (accessible ici)

L’ajout des “flèches” sur les représentations permet d’identifier l’origine (la population source) des processus de différentiation.

[FP] La question suivantes est l’identification des gènes à l’origine des bifurcations.

GRN inference and the manifold issue

Contexte

Question récurrente: reconstruction d’un réseau de régulation génique à partir de données d’expression

Équipe d’Olivier: utilisation du single-cell pour répondre à cette question

Cadre général

Décrit dans le papier de Herbach et al. (2017)

Modèle à deux-états (on/off) pour décrire la dynamique du gène avec PDMP (piecewise deterministic Makov Processes).

modèle

modèle

Cadre d’estimation des paramètres \(\boldsymbol\theta\) à l’aide de données protéomes \(\mathbf{x}\) et transcriptome \(\mathbf{y}\).

Validation de la procédure d’estimation: génération de données stationnaires à partir du modèle dynamique.

[SR] Problème d’identifiabilité ?

WASABI: iterative divide-and-conquer approach

Description des travaux d’Olivier issus de Bonnaffoux et al. (2018)

  • Infer a causal dynamical network from time-stamped single-cell data
  • Hypothèse: External stimulus affect genes one-by-one through a cascade, like waves spreading through a network
  • -> Infer the network one gene at a time, after genes have been ordered regarding their time of regulation (from data).
  • Generation of a population of candidate networks. Keep the networks that generate relevent transcription data

[FP] Connexion avec l’ABC ?

[BM] Pourquoi Wasserstein comme distance de validation à la population initiale ?

Comment apprendre la variété/l’espace sous jacent pour mieux apprendre les réseaux ?

Inférence dans les modèles génératifs avec Wasserstein

Clément présente l’article Bernton et al. (2017), disponible sur arXiv

Soit une distribution paramétrique \(\{\mu_{\theta}, \theta \in \Theta \}\) et soit \(\hat{\mu}_n = n^{-1}\sum \delta_x\) l’estimateur empirique de la densité (estimation discrète pouvant porter sur des distribution continue). On définit \(\hat{\mu}_{\star}\) l’estimateur obtenu en minimisant la distance de Wasserstein \[ \theta^\star \in \arg \min_{\theta} W_p(\hat{\mu}_n,\mu_\theta) \]

Théorème 1 Presque surement, on a \[ \lim_{n\to\infty} \sup \arg \min_{\theta} W_p(\hat{\mu}_n,\mu_\theta) \in \arg \min_{\theta} W_p(\hat{\mu}_\star,\mu_\theta) \] sous les hypothèses 1. \(W_p(\hat{\mu}_\star,\mu_\theta) \to 0\) en probabilité quand \(n\to\infty\) 2. \(\theta \to \mu_\theta\) (continuité) 3. Pour \(\varepsilon > 0\), \[ \mathcal{B}_\star(\varepsilon) = \{ \theta\in\Theta, W_p(\mu_\star,\mu_\theta) \leq \varepsilon^\star - \varepsilon\} \]\(\varepsilon^\star = \inf W_p(\mu_\star, \mu_\theta)\) 4.

Théorème 2 (5.3 dans le papier.) \(\Rightarrow\) convergence faible pour les mesures

\[ \sqrt{n}(\hat{\theta}_n - \theta_\star) \Rightarrow \arg \min_\mathcal{u \in \mathcal{H}} \int_{\mathbb{R}} |G_\star(t) - \langle u, D_\star(t) \rangle| \]

Chapitre 8

Filipo présente le chapitre 8 du livre de Peyré/Cuturi de Peyré, Cuturi, and others (2017), qui étudie quelques mesures de divergence:

  1. \(\phi-divergence\) (avec \(\phi\) convexe)
  2. \(W_p\) (\(p-\) Wasserstein)
  3. normes duales

L’objectif du chapitre est de faire le point sur les outils permettant de comparer les mesures, notamment en considérant les propriétés de convergence, le coût computationelle.

Point sur les stages

Claire Gayral

Co-encadré par Franck et Julien

Recherche de signature génique de différence clonale des lymphocytes CD8 (10 clones)

  • Données ATACseq: mesure le niveau d’ouverture de la chromatine
  • Données RNAseq: mesure du niveau d’expression
  • Données de target Hi-C: définit des zones de contact tri-dimensionnel

Question: Couplage ATAseq/RNAseq

[OG] données Hi-C issues de bulk?

[JP] appariement ? Sur les clones, qui sont des “mini” bulk (10 C), pas au niveau cellulaire

Clément Bénesse

Co-encadré par Franck et Bertrand

Étude du lien t-SNE / Kernel Multi-dimensional scaling (MDS)

  • Probabilistic Kernel MDS (Kernel -> matrice de covariance d’un processus gaussien latent)
  • Algorithme d’inférence (lien avec le variationnel )
  • Analyse de sensibilité (difficulté de lien variables d’origine / projetées due à la non-linéarité)

Élias Ventre

Co-encadré par Thibault, Thomas et Olivier

Ingrédients

  • modèles PDMP pour la dynamique du GRN,
  • équation de Fokker-Plank / processus de diffusion
  • modèle gamma-binomial, variable cachée

Anthony Ozier-Lafontaine

Co-encadré par Bertrand Michel

Myélome

  • Étude de la variabilité différentielle
  • Variational Auto-encoders

Félix Raimundo

Doctorant CIFRE entre Curie (Céline Vallot) et Google (JP Vert)

  • Épigénétique
    • DNA methylation (ATACseq, Hi-C)
    • modification d’histone (Chip-Seq)
  • TNBC (triple negative breast cancer)
    • tumeur très hétérogènes, sous populations de cellule responsable
    • Soupçon de causes épigenetiques
    • intérêt du single-cell
  • Questions
    • Imputation
    • Feature extraction, dimensionality reduction
    • Group characteriation
    • Pseudo-time reconstruction

Reference

Bernton, Espen, Pierre E Jacob, Mathieu Gerber, and Christian P Robert. 2017. “Inference in Generative Models Using the Wasserstein Distance.” arXiv Preprint arXiv:1701.05146.

Bonnaffoux, Arnaud, Ulysse Herbach, Angelique Richard, Anissa Guillemin, Sandrine Giraud, Pierre-Alexis Gros, and Olivier Gandrillon. 2018. “WASABI: A Dynamic Iterative Framework for Gene Regulatory Network Inference.” bioRxiv. Cold Spring Harbor Laboratory, 292128.

Herbach, Ulysse, Arnaud Bonnaffoux, Thibault Espinasse, and Olivier Gandrillon. 2017. “Inferring Gene Regulatory Networks from Single-Cell Data: A Mechanistic Approach.” BMC Systems Biology 11 (1). BioMed Central: 105.

La Manno, Gioele, Ruslan Soldatov, Amit Zeisel, Emelie Braun, Hannah Hochgerner, Viktor Petukhov, Katja Lidschreiber, et al. 2018. “RNA Velocity of Single Cells.” Nature 560 (7719). Nature Publishing Group: 494.

Peyré, Gabriel, Marco Cuturi, and others. 2017. “Computational Optimal Transport.”

Avatar
SingleStatOmics
ANR project 2019 - 2022