Projektdaten
Projektbeschreibung
Angesichts der jüngsten Fortschritte bei der Erkennung struktureller Varianten (SVs) und der Untersuchung regulatorischer Genomarchitekturen schlagen wir einen rechnergestützten Ansatz vor, um die Auswirkungen von SVs im gesamten menschlichen Genom abzuschätzen. Aufgrund ihrer Größe können SVs verschiedene Arten von genomischen Sequenzen umfassen, d.h. kodierende Proteine und funktionelle RNAs, Sequenzen regulatorischer Natur, oder Sequenzen ohne erwartete Funktion. Insbesondere können SVs in die regulatorische Architektur des Genoms eingreifen und sind daher in den Fokus der Forschung gerückt, wodurch bisher unbekannte Krankheitsätiologien aufgeklärt werden. In unserer Vorarbeit haben wir einen unverfälschten Trainingsdatensatz entwickelt, um funktionelle SVs von neutralen Varianten zu unterscheiden. Dies liefert uns einen unverfälschten und ausreichend großen Datensatz, um maschinelle Lernmodelle für Einfügungen, Löschungen und Duplizierungen zu trainieren. Bisherige Arbeiten sind ebenfalls Grundlage für eine schnelle SV-Annotation und Zusammenfassung von Daten und ermöglichen es uns, eine große Sammlung von Informationen in einem maschinellen Lernmodell zu kombinieren, um funktionelle und krankheitsrelevante SVs zu identifizieren. Hier werden wir diese Idee weiterentwickeln und insbesondere die folgenden Ziele verfolgen: (1) Verbesserung des Scorings von SVs durch Integration sequenzbasierter Modelle, z.B. zur Vorhersage des potenziellen funktionellen Inhalts eingefügter Sequenzen, (2) Aufnahme neuer Modellmerkmale (z.B. regulatorische Elemente der SCREEN-Datenbank und Genfusionen) und Anwendung von CNNs zur Verallgemeinerung funktioneller Daten (z.B. über viele Zelltypen) oder zur Vorhersage molekularer Assaydaten für neue Sequenzen (z.B. Hi-C-Kontakte mit deepC) und (3) Entwicklung eines robusten und überlegenen Scores für SVs im gesamten Genom – bestätigt durch ein unvoreingenommenes Benchmarking, sowie Modellinterpretation für die relevantesten prädiktiven Merkmale und Bewertung des Beitrags mechanistischer Effekte in pathogenen SVs (z.B. 3D-Architektur vs. kodierende Sequenzeffekte). Das Ergebnis wird ein verbessertes allgemeines Framework (Combined Annotation Dependent Depletion for Structural Variants, CADD-SV) für die computergestützte Bewertung von Strukturvarianten sein, basierend auf der Integration verschiedener Informationen von der regulatorischen Genomarchitektur bis hin zu kodierenden Sequenzeffekten. Wir werden ein innovatives Computerprogramm und eine Scoring-Website entwickeln, um die Priorisierung von SV-Varianten leicht zugänglich zu machen. Die Interpretation unserer Modelle soll mechanistische Einblicke in die Genomregulation liefern sowie eine Ressource für die Entdeckung neuer Genotyp-Phänotyp-Effekte sein.
| Status | Laufend |
|---|---|
| Tatsächlicher Beginn/ -es Ende | 01.01.23 → 31.12.27 |
UN-Ziele für nachhaltige Entwicklung
2015 einigten sich UN-Mitgliedstaaten auf 17 globale Ziele für nachhaltige Entwicklung (Sustainable Development Goals, SDGs) zur Beendigung der Armut, zum Schutz des Planeten und zur Förderung des allgemeinen Wohlstands. Die Arbeit dieses Projekts leistet einen Beitrag zu folgendem(n) SDG(s):
-
SDG 3 – Gesundheit und Wohlergehen
Mittelgeber
- DFG - Deutsche Forschungsgemeinschaft
Strategische Forschungsbereiche und Zentren
- Querschnittsbereich: Medizinische Genetik
DFG-Fachsystematik
- 2.11-07 Bioinformatik und Theoretische Biologie
- 2.11-05 Allgemeine Genetik und funktionelle Genomforschung
- 2.22-03 Humangenetik
Fingerprint
Erkunden Sie die Forschungsthemen zu diesem Projekt. Diese Zuordnungen werden Bewilligungen und Fördermitteln entsprechend generiert. Zusammen bilden sie einen einzigartigen Fingerprint.