ChromoGen: Η AI που προβλέπει 3D γονιδιωματικές δομές με πρωτοφανή ταχύτητα

Κάθε κύτταρο στο σώμα μας περιέχει την ίδια γενετική αλληλουχία, αλλά κάθε κύτταρο εκφράζει μόνο ένα υποσύνολο αυτών των γονιδίων. Αυτά τα συγκεκριμένα για κάθε κύτταρο πρότυπα γονιδιακής έκφρασης, τα οποία εξασφαλίζουν ότι ένα κύτταρο του εγκεφάλου διαφέρει από ένα κύτταρο του δέρματος, καθορίζονται εν μέρει από την τρισδιάστατη δομή του γενετικού υλικού, η οποία ελέγχει την προσβασιμότητα κάθε γονιδίου.

Οι χημικοί του ΜΙΤ έχουν τώρα καταλήξει σε έναν νέο τρόπο για τον προσδιορισμό αυτών των τρισδιάστατων δομών του γονιδιώματος, χρησιμοποιώντας παραγωγική Τεχνητή Νοημοσύνη. Η τεχνική τους μπορεί να προβλέψει χιλιάδες δομές σε μόλις λίγα λεπτά, γεγονός που την καθιστά πολύ πιο γρήγορη από τις υπάρχουσες πειραματικές μεθόδους ανάλυσης των δομών.

Χρησιμοποιώντας αυτή την τεχνική, οι ερευνητές θα μπορούσαν να μελετήσουν ευκολότερα πώς η τρισδιάστατη οργάνωση του γονιδιώματος επηρεάζει τα πρότυπα και τις λειτουργίες της γονιδιακής έκφρασης των μεμονωμένων κυττάρων.

«Στόχος μας ήταν να προσπαθήσουμε να προβλέψουμε την τρισδιάστατη δομή του γονιδιώματος από την υποκείμενη αλληλουχία του DNA», αναφέρει ο Bin Zhang, αναπληρωτής καθηγητής Χημείας και κύριος συγγραφέας της μελέτης. «Τώρα που μπορούμε να το κάνουμε αυτό, το οποίο θέτει αυτή την τεχνική στο ίδιο επίπεδο με τις πειραματικές τεχνικές αιχμής, μπορεί πραγματικά να ανοίξει πολλές ενδιαφέρουσες προοπτικές».

Στο εσωτερικό του κυτταρικού πυρήνα, το DNA και οι πρωτεΐνες σχηματίζουν ένα σύμπλεγμα που ονομάζεται χρωματίνη, το οποίο έχει διάφορα επίπεδα οργάνωσης, επιτρέποντας στα κύτταρα να χωρέσουν 2 μέτρα DNA σε έναν πυρήνα που έχει διάμετρο μόλις 1 εκατοστό του χιλιοστού. Οι μακριές αλυσίδες του DNA τυλίγονται γύρω από πρωτεΐνες που ονομάζονται ιστόνες, δημιουργώντας μια δομή που μοιάζει κάπως με χάντρες σε κορδόνι.

Χημικές ετικέτες, γνωστές ως επιγενετικές τροποποιήσεις, μπορούν να προσκολληθούν στο DNA σε συγκεκριμένες θέσεις και αυτές οι ετικέτες, οι οποίες ποικίλλουν ανάλογα με τον τύπο του κυττάρου, επηρεάζουν την αναδίπλωση της χρωματίνης και την προσβασιμότητα των κοντινών γονιδίων. Αυτές οι διαφορές στη διαμόρφωση της χρωματίνης συμβάλλουν στον καθορισμό των γονιδίων που εκφράζονται σε διαφορετικούς κυτταρικούς τύπους ή σε διαφορετικές χρονικές στιγμές εντός ενός συγκεκριμένου κυττάρου.

Τα τελευταία 20 χρόνια, οι επιστήμονες έχουν αναπτύξει πειραματικές τεχνικές για τον προσδιορισμό των δομών της χρωματίνης. Μια ευρέως χρησιμοποιούμενη τεχνική, γνωστή ως Hi-C, λειτουργεί συνδέοντας γειτονικές αλυσίδες DNA στον πυρήνα του κυττάρου. Οι ερευνητές μπορούν στη συνέχεια να προσδιορίσουν ποια τμήματα βρίσκονται κοντά το ένα στο άλλο, τεμαχίζοντας το DNA σε πολλά μικροσκοπικά κομμάτια και αναλύοντας την αλληλουχία του.

Η μέθοδος αυτή μπορεί να χρησιμοποιηθεί σε μεγάλους πληθυσμούς κυττάρων για τον υπολογισμό μιας μέσης δομής για ένα τμήμα της χρωματίνης ή σε μεμονωμένα κύτταρα για τον προσδιορισμό δομών εντός του συγκεκριμένου κυττάρου. Ωστόσο, το Hi-C και παρόμοιες τεχνικές μπορεί να χρειαστούν περίπου μια εβδομάδα για να παραχθούν δεδομένα από ένα κύτταρο.

Για να ξεπεράσουν αυτούς τους περιορισμούς, ο Zhang και οι φοιτητές του ανέπτυξαν ένα μοντέλο που εκμεταλλεύεται τις πρόσφατες εξελίξεις στην παραγωγική AI για να δημιουργήσει έναν γρήγορο και ακριβή τρόπο πρόβλεψης των δομών της χρωματίνης σε μεμονωμένα κύτταρα. Το AI μοντέλο που σχεδίασαν μπορεί να αναλύσει γρήγορα τις αλληλουχίες DNA και να προβλέψει τις δομές χρωματίνης που αυτές οι αλληλουχίες μπορεί να παράγουν σε ένα κύτταρο.

Η βαθιά μάθηση είναι πραγματικά καλή στην αναγνώριση προτύπων. Μας επιτρέπει να αναλύουμε πολύ μεγάλα τμήματα DNA, χιλιάδες ζεύγη βάσεων, και να καταλάβουμε ποιες είναι οι σημαντικές πληροφορίες που κωδικοποιούνται σε αυτά τα ζεύγη βάσεων DNA.

Το ChromoGen, το μοντέλο που δημιούργησαν οι ερευνητές, έχει δύο συνιστώσες. Η πρώτη είναι ένα μοντέλο βαθιάς μάθησης που διδάσκεται να «διαβάζει» το γονιδίωμα, αναλύει τις πληροφορίες που κωδικοποιούνται στην υποκείμενη αλληλουχία DNA και τα δεδομένα προσβασιμότητας της χρωματίνης, τα τελευταία εκ των οποίων είναι ευρέως διαθέσιμα και αφορούν συγκεκριμένους κυτταρικούς τύπους.

Η δεύτερη συνιστώσα είναι ένα παραγωγικό μοντέλο AI που προβλέπει φυσικώς ακριβείς διαμορφώσεις της χρωματίνης, έχοντας εκπαιδευτεί σε περισσότερες από 11 εκατομμύρια διαμορφώσεις της. Τα δεδομένα αυτά προέκυψαν από πειράματα με τη χρήση του Dip-C (παραλλαγή του Hi-C) σε 16 κύτταρα από μια σειρά ανθρώπινων Β λεμφοκυττάρων.

Όταν ενσωματωθεί, η πρώτη συνιστώσα ενημερώνει το παραγωγικό μοντέλο για το πώς το περιβάλλον που σχετίζεται με τον κυτταρικό τύπο επηρεάζει το σχηματισμό διαφορετικών δομών χρωματίνης, και αυτό το σχήμα αποτυπώνει αποτελεσματικά τις σχέσεις αλληλουχίας-δομής. Για κάθε αλληλουχία, οι ερευνητές χρησιμοποιούν το μοντέλο τους για να δημιουργήσουν πολλές πιθανές δομές. Αυτό συμβαίνει επειδή το DNA είναι ένα πολύ αταξικό μόριο, οπότε μια και μόνο αλληλουχία DNA μπορεί να προκαλέσει πολλές διαφορετικές πιθανές διαμορφώσεις.

«Ένας σημαντικός παράγοντας που περιπλέκει την πρόβλεψη της δομής του γονιδιώματος είναι ότι δεν υπάρχει μια ενιαία λύση στην οποία στοχεύουμε. Υπάρχει μια κατανομή δομών, ανεξάρτητα από το τμήμα του γονιδιώματος που εξετάζουμε. Η πρόβλεψη αυτής της πολύ περίπλοκης, πολυδιάστατης στατιστικής κατανομής είναι κάτι που αποτελεί απίστευτη πρόκληση», σημειώνει ο Greg Schuette.

Αφού εκπαιδευτεί, το μοντέλο μπορεί να παράγει προβλέψεις σε πολύ ταχύτερη χρονική κλίμακα από το Hi-C ή άλλες πειραματικές τεχνικές.

«Ενώ μπορεί να περάσετε έξι μήνες κάνοντας πειράματα για να βρείτε μερικές δεκάδες δομές σε έναν συγκεκριμένο τύπο κυττάρου, μπορείτε να δημιουργήσετε χίλιες δομές σε μια συγκεκριμένη περιοχή με το μοντέλο μας σε 20 λεπτά σε μία μόνο GPU», αναφέρει ο Schuette.

Αφού εκπαίδευσαν το μοντέλο τους, οι ερευνητές το χρησιμοποίησαν για να δημιουργήσουν προβλέψεις δομών για περισσότερες από 2.000 αλληλουχίες DNA και στη συνέχεια τις συνέκριναν με τις δομές που προσδιορίστηκαν πειραματικά για τις αλληλουχίες αυτές. Διαπίστωσαν ότι οι δομές που παρήγαγε το μοντέλο ήταν ίδιες ή πολύ παρόμοιες με εκείνες που παρατηρήθηκαν στα πειραματικά δεδομένα.

«Συνήθως εξετάζουμε εκατοντάδες ή χιλιάδες διαμορφώσεις για κάθε αλληλουχία και αυτό μας δίνει μια λογική αναπαράσταση της ποικιλομορφίας των δομών που μπορεί να έχει μια συγκεκριμένη περιοχή», αναφέρει ο Zhang. «Αν επαναλάβουμε το πείραμά μας πολλές φορές, σε διαφορετικά κύτταρα, είναι πολύ πιθανό να καταλήξουμε σε μια πολύ διαφορετική διαμόρφωση. Αυτό προσπαθεί να προβλέψει το μοντέλο μας».

Οι ερευνητές διαπίστωσαν επίσης ότι το μοντέλο μπορούσε να κάνει ακριβείς προβλέψεις για δεδομένα από τύπους κυττάρων διαφορετικούς από αυτούς στους οποίους εκπαιδεύτηκε. Αυτό υποδηλώνει ότι το μοντέλο θα μπορούσε να είναι χρήσιμο για την ανάλυση του τρόπου με τον οποίο οι δομές της χρωματίνης διαφέρουν μεταξύ των κυτταρικών τύπων και πώς αυτές οι διαφορές επηρεάζουν τη λειτουργία τους. Το μοντέλο θα μπορούσε επίσης να χρησιμοποιηθεί για τη διερεύνηση διαφορετικών καταστάσεων χρωματίνης που μπορεί να υπάρχουν μέσα σε ένα μόνο κύτταρο και πώς αυτές οι αλλαγές επηρεάζουν τη γονιδιακή έκφραση.

Μια άλλη πιθανή εφαρμογή θα ήταν η διερεύνηση του τρόπου με τον οποίο οι μεταλλάξεις σε μια συγκεκριμένη αλληλουχία DNA αλλάζουν τη διαμόρφωση της χρωματίνης, γεγονός που θα μπορούσε να ρίξει φως στον τρόπο με τον οποίο οι μεταλλάξεις αυτές μπορεί να προκαλούν ασθένειες (π.χ. καρκίνος).

Οι ερευνητές έχουν διαθέσει όλα τα δεδομένα τους και το μοντέλο σε άλλους που επιθυμούν να το χρησιμοποιήσουν.

Οι μεταπτυχιακοί φοιτητές του MIT, Greg Schuette και Zhuohan Lao είναι οι κύριοι συγγραφείς της εργασίας, η οποία δημοσιεύθηκε στο Science Advances.

[via]

Loading