廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà):020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
miRNA與lncRNA的生物信息學(xué)預測
日期:2019-03-26 標簽:miRNA與lncRNA的生物信息學(xué)預測
圖1 生物信息學(xué)在miRNA研究中的應用
當開(kāi)始研究一基因是否為一個(gè)miRNA調控的靶基因時(shí),可以用不同的生物信息學(xué)計算方法來(lái)分析每個(gè)序列(如mRNA的3'-UTR區序列),這些計算方法采用不同的參數來(lái)預測一個(gè)給定的靶mRNA內具功能性miRNA結合位點(diǎn)的可能性。由于每種計算方法的有效性不同,下面3種計算方法應該被用來(lái)預測miRNA結合位點(diǎn):miRanda、TargetScan和PicTar.這3種計算方法都允許研究者輸入一個(gè)基因符號,這些計算方法將計算此基因內所有預測的miRNA結合位點(diǎn)。此外,這些計算方法可測定一個(gè)給定的miRNA所有的靶mRNA.因為不同的計算方法會(huì )預測出不同的miRNA結合位點(diǎn),所以同時(shí)使用多種計算方法進(jìn)行預測非常必要。值得注意的是,盡管miRNA結合位點(diǎn)在不同物種間的保守性是各種不同計算方法的組成部分,但并不是一個(gè)功能性位點(diǎn)所必需的。由于不同計算方法預測的結果存在很大的差異,如何確定哪些預測的結合位點(diǎn)需要進(jìn)一步的實(shí)驗驗證成為研究者要面臨的一個(gè)難題。作者認為至少這3種計算方法中的2種計算方法均預測到的miRNA結合位點(diǎn),有必要進(jìn)一步用實(shí)驗驗證。
因為很多經(jīng)種子序列匹配預測的miRNA靶經(jīng)體內驗證實(shí)驗證實(shí)并不是真的miRNA靶,為了起始一步減少預測到的抑制一給定的靶mRNA表達的miRNA的數量,進(jìn)一步的程序分析是有必要的。結構特征控制著(zhù)miRNA/mRNA間的相互作用的觀(guān)點(diǎn)已被越來(lái)越多的人所接受。例如,一個(gè)RNA分子的大部分結構是高度復雜性的,只有特定的單鏈區域允許miRNAs接近并與互補位點(diǎn)結合。因此,復雜的RNA二級結構可能阻止miRNA/mRNA的相互作用。最近有研究證實(shí),絕大部分已證實(shí)的靶的一個(gè)共同特征是優(yōu)先與基于熱動(dòng)力學(xué)在RNA分子中容易接近且沒(méi)有復雜二級結構的3’-UTR區中的位點(diǎn)。由于RNA可接近性可能是靶識別的一個(gè)關(guān)鍵特征,所以有必要采用mFold軟件測定預測到的miRNA結合位點(diǎn)5’端和3’端各70個(gè)核苷酸的自由能,當其低于平均隨機自由能時(shí)提示此位點(diǎn)允許miRNA接近并結合[20].這些允許miRNA接近并結合起來(lái)的位點(diǎn),有必要進(jìn)一步用實(shí)驗進(jìn)行驗證。
在不同物種中成熟miRNA均是從具有莖環(huán)狀二級結構的前體加工而來(lái),具有較大的序列同源性??寺〉降?/span>miRNA序列通過(guò)檢索基因組數據庫找到在基因組中的位置,在和周?chē)蚪M序列比較中發(fā)現他們同樣具有相似的前體結構,多位于編碼基因間或內含子反向重復區域。一些miRNA基因在進(jìn)化上具有高度保守性,此為生物信息學(xué)篩選的基礎。該方法根據比較基因組學(xué)原理,并結合生物信息軟件在已測序基因組中進(jìn)行搜索比對,根據同源性的高低再進(jìn)行RNA二級結構預測,將符合條件的候選miRNA與已經(jīng)通過(guò)試驗鑒定的miRNA分子進(jìn)行比較分析,最終確定該物種miRNA的分步及數量。目前國際上較為普遍使用的兩個(gè)計算機分析工具是miRseeker和miRscan,前者已用于果蠅及昆蟲(chóng)基因組候選基因的系統分析,后者則用于線(xiàn)蟲(chóng)和脊椎動(dòng)物候選基因的分析。這兩個(gè)工具已經(jīng)成功鑒定出了大量的miRNA基因并通過(guò)了實(shí)驗證實(shí)。由于miRseeker和miRscan的高靈敏度,它們已用于人類(lèi)miRNA基因的尋找。由于該方法只能用于已完成基因組測序的物種,而那些未完成測序的物種就無(wú)能為力,而且由于miRNA前體長(cháng)度的可變性,故用計算機方法尋找新基因具有一定的遺漏性,所以目前大多數實(shí)驗室將計算機分析與實(shí)驗方法結合使用,使得miRNA的發(fā)現量成幾何級數增長(cháng)。目前日益發(fā)展的微陣列技術(shù)也在篩選miRNA基因方面顯示了極大的潛力。
隨著(zhù)疾病特異性的miRNAs不斷被鑒定,對感興趣的疾病通路中的新靶基因進(jìn)行驗證可能催生新的治療策略。因此,能夠鑒定和驗證miRNA/mRNA靶配對具有極其重要的意義。盡管生物信息學(xué)方法和自由能分析并不完美,但可使作者能夠對推測的miRNA/mRNA靶配對進(jìn)行鑒定。一旦生物信息學(xué)方法預測成功,可以通過(guò)以下4條標準驗證miRNA/mRNA靶配對的真實(shí)性。(1)miRNA/mRNA靶相互作用得到驗證。(2)miRNA/mRNA共表達。(3)給定miRNA對其蛋白表達有可預測的影響。即用此miRNA的類(lèi)似物可減少靶基因表達水平,而用此miRNA特異性抑制劑可增加靶基因的表達水平。(4)miRNA介導靶基因表達的調控導致相應的生物學(xué)功能的改變。
2 LncRNA的生物信息學(xué)預測
對lncRNA進(jìn)行鑒定時(shí),采取的策略是收集不同類(lèi)型的數據(包括polyA RNA sequencing、nonpolyA RNA sequencing、表觀(guān)遺傳信號值、編碼可能性、保守性和RNA結構等),并對其進(jìn)行分析。例如CDS的RNA-seqpolyA的表達值比較高,而ncRNA的RNA-seqnon-polyA表達值比較高。通過(guò)對不同類(lèi)型數據的整合,還可以進(jìn)一步得到不同類(lèi)型基因元素的網(wǎng)絡(luò )調控關(guān)系。
對lncRNA進(jìn)行綜合分析的一般流程如下:(1)將基因組劃分成小的單位(bin),根據Gencode的注釋信息對每個(gè)bin進(jìn)行注釋?zhuān)唬?/span>2)分別計算每個(gè)bin的特征值,這些特征值包括序列保守性、結構穩定性、RNA表達值、組蛋白修飾、轉錄因子結合等;(3)利用機器學(xué)習的模型,將lncRNA與其他基因類(lèi)別區分開(kāi),并且對新的lncRNA進(jìn)行預測。
圖2 利用數據整合對lncRNA進(jìn)行鑒定
圖3 lncRNA綜合分析方法流程示例
有的時(shí)候我們的專(zhuān)業(yè)知識不足以完成分析和預測。尤其在面對高通量數據時(shí),從中挖掘有用的信息尤為關(guān)鍵。這時(shí)可以用到機器學(xué)習(machinelearning)的方法,令機器自動(dòng)分析數據,比如特征提取或是分類(lèi)。機器學(xué)習應用在生物信息學(xué)主要有兩大分支,即監督學(xué)習(supervisedlearning)和非監督學(xué)習(unsupervisedlearning)。在監督學(xué)習問(wèn)題中,每個(gè)數據擁有一個(gè)對應標簽,我們希望通過(guò)數據建立一個(gè)模型,根據數據預測標簽。傳統的監督學(xué)習方法包括線(xiàn)性判別分析(LDA)、決策樹(shù)(decisiontree)、最近鄰法(nearestneighbor)和神經(jīng)網(wǎng)絡(luò )(neuralnetwork)。20世紀90年代后,誕生了一批很有影響力的工作,包括支持向量機(SVM)、Adaboosting和隨機森林(randomforest),相比于傳統的方法,上述方法更好地處理了過(guò)擬合(overfitting)的問(wèn)題,從而在實(shí)際應用中有很好的預測效果。
LncRNA研究是基因組時(shí)代重要的科學(xué)前沿,因為它有可能揭示一個(gè)全新的由RNA介導的遺傳信息表達調控網(wǎng)絡(luò ),從不同于蛋白質(zhì)編碼基因的角度來(lái)注釋和闡明基因組的結構與功能,并為人類(lèi)的疾病研究和治療提供新的思路和方法。同時(shí),新一代測序技術(shù)的發(fā)展也為鑒定lncRNA的計算機方法提供了強大的支持。以下是整理的長(cháng)非編碼RNA(lncRNA,lincRNA)數據庫資源列表(按字母排序)。國內外長(cháng)非編碼RNA的研究剛剛興起,希望這資源對國內的非編碼RNA的研究者有所幫助。
(1) ChIPBase:提供長(cháng)鏈非編碼RNA的表達圖譜和轉錄調控的全面鑒定和注釋。整合了高通量的RNA-seq鑒定的lncRNA及其表達圖譜和ChIP-Seq實(shí)驗技術(shù)鑒定的轉錄因子結合位點(diǎn)。
網(wǎng)站:http://deepbase.sysu.edu.cn/chipbase/
更新:2012年11月
(2)LNCipedia:對人類(lèi)的長(cháng)鏈非編碼RNA的序列和結構全面的注釋。
網(wǎng)站:http://www.lncipedia.org
更新:2012年7月
(3)lncRNAdb:提供有生物學(xué)功能的長(cháng)鏈非編碼RNA的全面注釋。這是長(cháng)鏈非編碼RNA研究領(lǐng)域的大牛John mattick實(shí)驗室構建的網(wǎng)站。
網(wǎng)站:http://www.lncrnadb.org/
更新:2011年7月
(4)LncRNADisease:提供了文獻報道的疾病相關(guān)的長(cháng)鏈非編碼RNA的注釋。
網(wǎng)站:http://cmbi.bjmu.edu.cn/lncrnadisease
更新:2012年7月
(5)NONCODE:提供對長(cháng)鏈非編碼RNA的全面注釋?zhuān)ū磉_和該團隊開(kāi)發(fā)的ncFANs計算機軟件預測的lncRNA功能。這是非編碼RNA研究的知名數據庫,已經(jīng)更新到第三版。
網(wǎng)站:http://www.noncode.org
更新:2012年1月
(6)NRED: 提供人和小鼠的長(cháng)鏈非編碼RNA在芯片數據的表達信息。這也是John mattick實(shí)驗室構建的網(wǎng)站。
網(wǎng)站:http://jsm-research.imb.uq.edu.au/nred/
更新: 2009年