廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà):020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
3D基因組學(xué):一個(gè)嶄新的領(lǐng)域
日期:2018-11-15 標簽:3D基因組,TAD
前言
基因組是生命體完整的遺傳信息。而基因組學(xué)則是研究基因組結構、功能與進(jìn)化的學(xué)科。自上世紀八九十年代以來(lái),隨著(zhù)技術(shù)的發(fā)展,基因組學(xué)取得長(cháng)足發(fā)展:從過(guò)去獲得核酸的序列,到如今對序列功能的描繪。
生物學(xué)中有一個(gè)基本觀(guān)點(diǎn):結構與功能相適應。盡管提到核酸鏈的結構,絕大多數人的第一反應是“雙螺旋”模型,但是,基因組的物理結構,卻遠比雙螺旋來(lái)得復雜——核酸鏈會(huì )在蛋白質(zhì)的輔助下,形成更加高級的結構。這也催生了基因組學(xué)中一門(mén)子學(xué)科的誕生:三維(3D)基因組學(xué)。
倘若僅是回望基因組學(xué)本身的發(fā)展歷程——從1977年首個(gè)生物基因組噬菌體φX174序列被測定,到2003年人類(lèi)基因組計劃完成,再到2012年ENCODE計劃完成——還不足以代表人類(lèi)解讀生命遺傳奧秘的歷史。我們更應該回顧和基因組學(xué)不分家的遺傳學(xué)之發(fā)展歷程。
高中的生物學(xué)課堂就已經(jīng)學(xué)到,Gregor Johann Mendel(孟德?tīng)枺┦沁z傳學(xué)的奠基人,他的“豌豆雜交實(shí)驗”(1856-1863年),依然是中學(xué)生物考題的常用材料。隨后,對孟德?tīng)栍陕忿D粉的Thomas Hunt Morgan(摩爾根)利用果蠅的突變體,首次確認基因位于染色體上,提出“連鎖互換定律”,成為了現代遺傳學(xué)的奠基人(1908-1915;摩爾根的貢獻非常多,這個(gè)時(shí)間段只是一個(gè)粗略的標記)。
對如今的我們來(lái)說(shuō),不難理解DNA與RNA是攜帶遺傳信息的物質(zhì)。不過(guò)在上世紀中期以前,世人還認為蛋白質(zhì)才是遺傳物質(zhì)。1928年,Frederick Griffith(格里菲斯)的“肺炎雙球菌轉化實(shí)驗”,提出了轉化因子學(xué)說(shuō)。但直到1944年,Oswald Avery、Colin MacLeod和Maclyn McCarty三人通過(guò)比較蛋白質(zhì)、多糖與DNA等的轉化效應,才逐漸樹(shù)立了DNA是遺傳物質(zhì)的地位。到了1952年,Alfred Hershey與Martha Chase利用同位素分別標記蛋白質(zhì)和DNA,最終確認了DNA是遺傳物質(zhì)。
早在DNA發(fā)現之初(1869年,Friedrich Miescher),科學(xué)家便展開(kāi)了對其物理結構的鑒定。但一直到1953年,才由James Watson和Francis Crick闡明了DNA的雙螺旋結構。
真核生物的基因組含有大量的結合蛋白,包括組蛋白。在原核生物中,也有組蛋白樣的DNA結合蛋白。1974-1976年間,科學(xué)家首次獲得DNA纏繞在組蛋白上的電鏡照片(Science. 1974 Jan 25;183(4122):330-2.,Exp Cell Res. 1976 Jan;97:101-10.),并最終在1997年獲得結晶結構(Nature. 1997 Sep 18;389(6648):251-60.)。
DNA-組蛋白這種beads on a string“串珠式”的結構,能夠顯著(zhù)縮短DNA鏈在一維水平的尺度,大概7倍。形象一些,對于人類(lèi)全部DNA而言,將DNA鏈線(xiàn)性展開(kāi),能得到約為2米的長(cháng)鏈,再經(jīng)串珠式壓縮,也還有約29厘米。顯然,這對于袖珍的細胞核來(lái)說(shuō),這種結構依然太大了。對染色體的形態(tài)觀(guān)察也提示,DNA與結合蛋白一定形成了更加高級的結構。
2005年,Timothy J. Richmond團隊首次報道了chromatin fiber(染色質(zhì)纖維)的結構。2014年,中國科學(xué)家Ping Zhu和Guohong Li小組得到了更加精確的染色質(zhì)纖維結構。他們的研究都證明,DNA-組蛋白的串珠式結構,還會(huì )進(jìn)一步被壓縮成直徑僅有30納米的纖維結構。而在目前的理論模型中,這些染色質(zhì)纖維還會(huì )在包括Cohesin、CTCF等蛋白的幫助之下,扭曲成環(huán),形成更加復雜的結構,最終被壓縮成染色體。
講了半天歷史,目的是為了讓各位讀者能夠得到這樣一個(gè)基本認識:生命體的遺傳功能元件,包括編碼基因、非編碼基因、順式調控元件等,在空間結構上,并不是在染色體上呈線(xiàn)性地一字依次排開(kāi),而是隨著(zhù)DNA形成復雜高級結構的同時(shí),具備了三維組織形式。
為了加深印象,我們不妨再來(lái)看下方另外一幅染色體結構的卡通。簡(jiǎn)而言之,DNA雙鏈就跟糾纏在一起的電話(huà)線(xiàn)一般,一圈圈地繞行、壓縮,最終形成了染色體。也正因為有這種繞圈圈的壓縮方式,我們不難想象,DNA能夠密密麻麻地形成許多環(huán)狀結構。這些環(huán)狀結構還能再繼續繞圈壓縮下去。
換句話(huà)說(shuō),在DNA一維層面上相隔比較遠的區域,反而有可能靠得更近。比方說(shuō)下圖中的ABCD四個(gè)點(diǎn),若以A為參照物,C比B遠,但由于基因組形成了高級結構,反而把A和C拉得更近。這個(gè)示意圖還提示了另外一個(gè)問(wèn)題,即同一條染色體上的某些區域,可能很難互相接觸,比如B和D之間就,被環(huán)狀結構給隔開(kāi)了。
DNA這種相對穩定的高級結構,是由蛋白質(zhì)來(lái)維持的。這同時(shí)也為破解基因組的三維結構奠定了技術(shù)基礎。我們再來(lái)利用上面那個(gè)ABCD四個(gè)小點(diǎn)的圖來(lái)理解這一項技術(shù)。假如說(shuō),A和C是幫助DNA凹造型的蛋白,并且它們靠得很近,甚至有蛋白-蛋白相互作用。這時(shí),我們使用甲醛等交聯(lián)劑,就可以把DNA-結合蛋白以及他們之間形成的高級結構給固定下來(lái)。但這種復合物體積非常龐大,為了方便測序建文庫,我們需要將DNA利用超聲或限制性?xún)惹忻复蛩?。這時(shí)候我們得到的,就是許許多多由蛋白質(zhì)緊緊鎖住的包含缺口的小結構。我們再用酶把這些斷裂的DNA給修復回去,就會(huì )得到許多能夠發(fā)生相互作用的、具備環(huán)狀結構DNA了。最后,我們再通過(guò)測序的方法就能發(fā)現,原本中間隔了個(gè)B的A和C位點(diǎn),居然靠到一起,而C和D雖然很靠近,但卻可能測不到它們在一起。
上面所述的方法,便是染色質(zhì)構象捕獲(Chromatin Conformation Capture)技術(shù)。大致的流程,可以看下面的圖片。最早的技術(shù)路線(xiàn)(簡(jiǎn)稱(chēng)3C,源自英文名首字母),只能研究一個(gè)位點(diǎn)對另外一個(gè)位點(diǎn)的相互作用(一對一)。而后又發(fā)展出了4C(一對全),5C(多對多),Hi-C(全對全),Capture-C(多重一對一)等技術(shù)。只是隨著(zhù)復雜度的提高,分辨率也會(huì )降低。相關(guān)綜述可以看這篇文章Unraveling the 3D genome: genomics tools for multi-scale exploration,這里就不詳述了。
通過(guò)構象捕獲技術(shù),從全基因組的角度而言,科學(xué)家都得到了什么樣的發(fā)現呢?
許多小組都發(fā)現了一個(gè)共同現象:如下圖所示,基因組的相互作用,因其三維的物理結構,形成了許多分區。為了讀懂這個(gè)圖,我們需要先理解它是如何繪制。假設線(xiàn)性的染色體座位的藍、橙、綠三點(diǎn)之間能夠發(fā)生相互作用,我們就用線(xiàn)段把它們連起來(lái),形成一個(gè)等腰三角形,并在線(xiàn)段的交叉點(diǎn),用顏色的深淺,來(lái)代表相互作用的頻率,或者說(shuō)強度。
通過(guò)這種方法作圖,可以得到許多三角形結構,密集排布在染色體之上。有些小的三角形,顏色比較深,代表著(zhù)這個(gè)三角形內部的相互作用更頻繁,同時(shí)它們之間甚至有些“涇渭分明”地相鄰排布,即甚少與相鄰區域發(fā)生相互作用,從而形成不同的結構域??茖W(xué)家將這樣的結構域稱(chēng)為T(mén)opologically Associating Domain(TAD,中文名姑且翻譯為“拓撲相關(guān)結構域”)。但又不是說(shuō),小結構域之間就絕對不會(huì )發(fā)生相互作用了,只是頻率會(huì )比較低。數個(gè)相鄰且又能發(fā)生相互作用的TAD,就形成了Superdomain(超結構域)。隨著(zhù)在染色體上的物理距離增大,相互作用的頻率會(huì )呈負指數式降低。
TAD里面會(huì )是些什么東西呢?
在哺乳動(dòng)物基因組中,TAD通常由CTCF這個(gè)轉錄抑制因子給分割開(kāi)來(lái)。CTCF還會(huì )和Cohesin蛋白復合物結合,幫助基因組形成相對穩定的三維結構。正由于此,兩個(gè)TAD之間的轉錄活性是非常低的(轉錄需要打開(kāi)DNA),而結合CTCF等轉錄抑制因子的DNA元件,也被稱(chēng)為insulator(絕緣子)。
不過(guò),在TAD內部可就熱鬧了。CTCF在幫助基因組DNA凹造型的同時(shí),就把線(xiàn)性展開(kāi)時(shí)距離較遠的DNA元件給綁到了一起。而這樣相互作用的元件,通常是enhancer(增強子)和promoter(啟動(dòng)子)。
這樣做有兩個(gè)好處。一是縮短了enhancer和promoter之間的空間距離,增強了基因的轉錄。二是給調控元件合理分區,使得基因轉錄在不同發(fā)育階段、不同生理條件下,受到特定enhancer的調控。比方說(shuō),在胚胎發(fā)育早期,干細胞那套基因的表達會(huì )占主導。隨著(zhù)發(fā)育的進(jìn)行,表達模式會(huì )逐漸替換成特定lineage的基因,再到成熟細胞的基因。倘若沒(méi)有這樣的動(dòng)態(tài)調整的三維分區,這種基因的空間與時(shí)序性表達機制,估計就很難實(shí)現了。
當然,這里并不是在表達一種設計論的觀(guān)點(diǎn)。這種精致的調控機制,是在漫長(cháng)的進(jìn)化過(guò)程中,逐漸選擇、適應的結果。
TAD除了形成相對穩定的遺傳信息表達功能結構之外,還有其他重要的生物學(xué)意義。比如它同樣也是細胞周期S期時(shí),DNA復制的結構單元。在不久的將來(lái),科學(xué)家還將發(fā)現更多的三維基因組功能。
讀到這里,我想各位讀者應該不難理解,假設基因組的三維結構出了差錯,后果可是相當嚴重。這里本司機舉兩個(gè)例子來(lái)說(shuō)明。
首先,維系正常的基因組三維結構,對保持正常的發(fā)育進(jìn)程有重要的意義。早有文獻通過(guò)經(jīng)典的遺傳學(xué)方法,將F syndrome(表現為手指、腳趾、腭和胸骨發(fā)育異常)這種遺傳疾病定位到了染色體2q36處。這個(gè)區域含有對發(fā)育具有重要意義的IHH、WNT6A、WNT10A、PAX3和STK36等基因。如下圖所示,最近的研究證明,在有些F syndrome的病例中,WNT6A基因所在的TAD邊界染色體區域發(fā)生了翻轉,使得相鄰TAD的增強子跑到WNT6A所在的TAD之中,導致WNT6A異常表達。在小鼠模型中,用CRISPR敲除PAX3基因所在TAD的邊界,同樣會(huì )導致相鄰TAD的增強子跑過(guò)來(lái)調控PAX3,使其表達量異常升高,造成小鼠指骨發(fā)育異常。與此對照,用CRISPR敲除相鄰TAD內部的序列,不碰及PAX3所在TAD的邊緣,PAX3基因的表達水平就不會(huì )異常升高,也不會(huì )有發(fā)育異?,F象
第二個(gè)例子來(lái)自于癌癥。腫瘤細胞的基因組是非?;靵y的,有許多擴增、缺失和易位。拿原癌基因為例,它的高表達可以來(lái)自于原癌基因本身的拷貝數增加,也可以是其表達調控機制得到了增強。這篇綜述(Copy number alterations unmasked as enhancer hijackers.)為我們詳解,非編碼區域拷貝數的異常,是如何導致原癌基因的過(guò)度表達的。比如說(shuō),MYC基因座位的易位,導致它跑到一個(gè)IGH增強子附近(a)。MYB基因附近的染色體區域缺失,把遠處的QKI增強子給帶到它身邊(b)。TAL1所在TAD邊緣的染色體區域缺失,導致相鄰增強子越俎代庖(e)。IGF2基因座位跨TAD的倍增,導致原本不能調控IGF2的、來(lái)自隔壁TAD的增強子,推動(dòng)了IGF2的表達(f)。其他的機制,就請讀者自行讀圖。而這種現象,科學(xué)家將其命名為enhancer hijacking(增強子綁架)。
結語(yǔ)
自孟德?tīng)栆詠?lái),遺傳學(xué)與基因組學(xué)的歷史不過(guò)百余年。但也就在這百余年中,這兩個(gè)領(lǐng)域的發(fā)展如同其他生物學(xué)學(xué)科一般,可謂突飛猛進(jìn)。對80后而言,我們在中學(xué)課堂方才學(xué)到人類(lèi)基因組計劃,但轉眼之間,基因組學(xué)就進(jìn)入了3D的時(shí)代。而在六七十年前,人類(lèi)甚至還搞不清楚DNA是一種遺傳物質(zhì)。
雖然研究基因組三維結構的染色質(zhì)構象捕獲技術(shù)3C早在2002年就誕生了,但直到近年更高復雜度的捕獲技術(shù)的出現,3D基因組領(lǐng)域才變得火熱起來(lái)。毫無(wú)疑問(wèn),3D基因組學(xué)也面臨著(zhù)和經(jīng)典基因組學(xué)同樣的挑戰:如何將結構與功能聯(lián)系起來(lái)。在不久的將來(lái),科學(xué)家們還必須回答另外一個(gè)問(wèn)題,即如何結合3D基因組學(xué)的成果,用于治療人類(lèi)疾病。