Hauptinhalt
Forschungsschwerpunkte des Instituts
Übersicht
Das Chung-Lab verwendet experimentelle und computergestützte Ansätze, um grundlegende Aspekte biologischer Prozesse auf molekularer Ebene zu untersuchen. Wir kombinieren experimentelle Methoden wie RNA-seq, ChIP-seq und HiC mit maßgeschneiderten bioinformatischen/computergestützten Analysen, um Mechanismen aufzudecken, die es Tumorzellen ermöglichen, der Immunreaktion zu entgehen. Neben diesen biologischen Fragen interessieren uns neuartige computergestützte Ansätze zur Datenintegration, Netzwerkrekonstruktion und dynamischen Modellierung mit begrenzten Daten.
Projekte
Erfassung der Chromosomenkonformation: EPI-seq
Wir haben einen neuartigen HiC-Ansatz entwickelt, der als Enhancer-Promoter-Interaction-Sequenzierung (EPI-seq) bezeichnet wird, um Enhancer-Promoter-Interaktionen gezielt zu untersuchen. Dies wird durch die Kombination des DNAse-Hypersensitivitätstests mit dem In-situ-HiC-Protokoll erreicht. Auf diese Weise erhalten wir Chromosomenkontaktkarten mit einer Auflösung nahe der Basenpaarauflösung bei gleichzeitig moderaten Sequenzierungskosten.
Analyse von EPI-seq-Daten
Die durch EPI-seq aufgedeckten Ligationsereignisse sind nicht auf Schnittstellen von Restriktionsenzymen beschränkt, sondern konzentrieren sich auf offene Chromatinregionen (z. B. Enhancer und Promotoren) mit einer Auflösung von prinzipiell nur noch Basenpaaren. Diese neuen Eigenschaften der EPI-seq-Daten erfordern neuartige Analysemethoden, um von der verbesserten Auflösung zu profitieren. Wir schätzen die Dichte dieser Karten mittels „Voronoi-Tessallation“ – einem in der Astronomie weit verbreiteten Ansatz. Darüber hinaus haben wir Ansätze entwickelt, um die ungleichmäßige Verteilung entlang des Genoms aufgrund der Anreicherung von DNAse-hypersensitiven Stellen zu berücksichtigen. Auf diese Weise erhalten wir Kontakte von Regionen mit einer Größe von nur 100 bis 500 Basenpaaren und Abständen von >500 Basenpaaren.
Single-cell RNA-seq
Wir sind dabei, ein mikrofluidisches Gerät für die tröpfchenbasierte RNA-Sequenzierung einzelner Zellen zu entwickeln. We leverage on existing designs and made substantial improvements to maximize the number of cell-bead droplets.
Analyse von RNA-seq-Daten
Moderne Ansätze zur Analyse von RNA-Sequenzdaten verwenden die negative Binomialverteilung, um die Zählungen und ihre Überdispersion von der erwarteten Poisson-Varianz zu modellieren. Hier schlagen wir vor, stattdessen die Dirichlet-Multinomialverteilung zu verwenden. Wir haben Modelle für die Analyse der differenziellen Genexpression und die blinde Dekonvolution von Zelltypen in Proben mit Zellmischungen (z. B. PBMCs) abgeleitet. Wir haben effiziente Methoden zur Schätzung der Parameter der Modelle mit TensorFlow implementiert, wodurch diese Algorithmen nun auf CPUs, GPUs und TPUs ausgeführt werden können.
Deep Learning 2.0
Deep Learning hat das Feld des maschinellen Lernens revolutioniert. Allerdings erfordert es riesige Datenmengen, um seine parameterreichen Modelle zu trainieren und die Fähigkeit zur Generalisierung auf Testdaten aufrechtzuerhalten. In den biomedizinischen Wissenschaften sind wir oft mit einer Situation konfrontiert, in der wir viele Merkmale für eine Probe messen (z. B. erhalten wir bei RNA-Sequenzierung typischerweise Expressionsmessungen für 20.000 bis 30.000 Gene), aber nur wenige Proben haben. Anstelle von „Big Data“ haben wir also „Broad Data“. Diese „Broad Data“-Situation erfordert besondere Aufmerksamkeit, da sie die Unsicherheit über die zugrunde liegenden Prozesse erhöht, die diese Daten generiert haben. In Zukunft wollen wir die Wahrscheinlichkeitstheorie mit Algorithmen und Ansätzen aus dem Deep Learning kombinieren, um intern konsistente Modelle zu lernen, die aussagekräftige Informationen über ihre Modellparameter austauschen.