廣州市天河區黃埔大道中124號2705室
電話(huà):020-29031124
手機:18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624
轉錄調控是分子生物學(xué)中的一個(gè)基本問(wèn)題,而確定轉錄因子與靶基因間的調控關(guān)系以及轉錄因子在靶基因上的結合位點(diǎn)是理解轉錄調控機制的核心問(wèn)題。
圖1 真核生物轉錄調控原理
轉錄因子結合位點(diǎn)(Transcription factor binding site,TFBS)是與轉錄因子結合的DNA片斷,長(cháng)度通常在5~20 bp范圍內,它們與轉錄因子相互作用調控基因的轉錄過(guò)程。確定 TFBS 是理解轉錄調控機制 , 建立轉錄調控網(wǎng)絡(luò )的關(guān)鍵問(wèn)題。
一個(gè)轉錄因子往往同時(shí)調控若干個(gè)基因,而它在不同基因上的結合位點(diǎn)具有一定的保守性,又不完全相同。較短的DNA片段在規模較大基因組中重復出現的次數很多,另外TFBS又允許一定的可變性,這給識別TFBS的工作帶來(lái)了困難,使得預測TFBS的算法普遍存在假陽(yáng)性率偏高的問(wèn)題。
結合位點(diǎn)序列目前主要有3類(lèi)描述模型:1)串模型:最常用的是共有序列模型2)位置頻率矩陣:是一種用統計學(xué)方法對轉錄因子與DNA的相互作用進(jìn)行建模的方法。3)使用信息論中熵的知識,用圖形方式來(lái)形象、直觀(guān)的表示結合位點(diǎn)。
圖2 轉錄因子結合位點(diǎn)的表示
在UCSC Genenome Browser數據庫里面Regulation調控卡ENCODE TBBS里面有1000多套轉錄因子的數據?;究梢詽M(mǎn)足醫學(xué)科研的需求。
基因轉錄調控是一個(gè)非常復雜的網(wǎng)絡(luò )體系,在in vitro和in vivo的實(shí)驗可能有不同的結果,而生物細胞生理狀態(tài)以及環(huán)境因素的不同也可能導致不同的實(shí)驗結果。只有通過(guò)各種數據的融合和相互校正,才能挖掘出可靠的轉錄調控關(guān)系和TFBS。比如說(shuō),將基因表達數據和序列數據進(jìn)行融合分析,既保證TF與該基因的調控序列有相互結合,又保證該TF對該基因的表達有影響,從而能夠確信二者之間的調控關(guān)系。有效的利用生物信息學(xué)工具分析實(shí)驗結果,從而產(chǎn)生出可以驗證的生物學(xué)假設,會(huì )使TFBS的預測及鑒定更加準確和高效。
傳統上,TFBS識別方法主要可分為兩大類(lèi):一類(lèi)是基于字串的方法。這種方法主要是通過(guò)對多聯(lián)核普酸短序列的計數和頻率的統計來(lái)識別,其中最常用的方法是共有序列模型(ConsensuSModel)。第二類(lèi)是基于概率序列模型的方法,如期望最大化(ExpeetationMaximization,EM)和吉布斯采樣(Gibbssampling)等方法。隨著(zhù)實(shí)驗方法的改進(jìn),尤其是高通量實(shí)驗方法的出現,近兩年出現了一些針對CHIP一CHIP以及CHIP一SEQ實(shí)驗數據的處理方法。微陣列試驗方法成為使用廣泛,技術(shù)相對成熟的一種TFBS識別方法。
TFBS的生物信息學(xué)領(lǐng)域有以下幾個(gè)方面可以進(jìn)行深入研究:
(1)根據已知的TFBS模型,在基因組中預測TFBS的各種算法普遍存在假陽(yáng)性率偏高的問(wèn)題,降低預測中的假陽(yáng)性是今后研究的重要目標。引起假陽(yáng)性的一個(gè)主要原因是,基因組中存在很多與TFBS序列相同但沒(méi)有轉錄因子結合功能的短串。隨著(zhù)人們對轉錄調控過(guò)程的了解的深入,可以考慮增加新的信息,比如將染色體結構信息,即核小體在基因組中的分布情況,或TFBS與轉錄起始位點(diǎn)之間距離的分布特征,以此作為先驗信息,提高TFBS預測的準確率。另外, 轉錄調控通常需要多個(gè)轉錄因子的合作,它們的TFBS之間距離較近,組成相應的“順式調控模塊”(Cis-Regulatory Module,CRM),有CRM的區域比只有單個(gè)TFBS的區域更有可能是真正的轉錄調控區域。因此,預測CRM從而推斷TFBS的分布,也能大大提高TFBS預測的準確率。
(2)目前的TFBS研究多為從DNA中提取信息、構造模型、設計算法,而忽略了轉錄因子本身能提供的信息,可以嘗試將具有相同DNA結合域的轉錄因子家族作為一個(gè)整體進(jìn)行研究。
(3)目前已有一些工作考慮轉錄因子與TFBS結合能的高低對下游基因轉錄的mRNA表達量的定量關(guān)系,而目前對TFBS模型的評介標準主要是“能否準確判別某DNA序列是否為T(mén)FBS”,對于模型能否準確描述轉錄因子與TFBS結合強度的定量關(guān)系缺乏評價(jià),此類(lèi)定量模型也有待開(kāi)發(fā)。近年來(lái),一些研究發(fā)現TFBS的丟失和獲得在轉錄調控網(wǎng)絡(luò )的進(jìn)化中起重要作用,TFBS在調控網(wǎng)絡(luò )進(jìn)化中的作用機制還有待進(jìn)一步揭示。我們相信實(shí)驗技術(shù)的進(jìn)步以及對轉錄調控機制的深入理解必將為T(mén)FBS的生物信息學(xué)研究注入新的生命力, 生物信息學(xué)與實(shí)驗相互結合相互促進(jìn),人們對轉錄調控的認識將更加系統深入。