廣州市天河區黃埔大道中124號2705室
電話(huà):020-29031124
手機:18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624
隨著(zhù)新一代測序技術(shù)的不斷發(fā)展,越來(lái)越多物種的基因組和轉錄組獲得了高通量測序,給人們帶來(lái)了海量的核酸序列數據,如何對海量序列中隱含的生物信息進(jìn)行高通量的解讀是研究者要面對的問(wèn)題。序列信息解讀的一個(gè)核心內容是對基因進(jìn)行功能注釋?zhuān)唧w操作上就涉及到一個(gè)概念:基因的本體論(Gene Ontology,GO)注釋。大多數基因在不同生物中的同源基因擁有相同的主要生物學(xué)功能,因此,在某些物種里已知的基因功能信息可以用來(lái)解釋其他物種對應的同源基因。但是這些已知的功能信息包含在先前積累的浩瀚文獻之中,不同的文獻會(huì )用不同的詞匯來(lái)描述同一生物學(xué)功能,這為功能檢索和注釋帶來(lái)諸多不便。
而GO項目就是建立一套特定的詞匯集合來(lái)描述生物學(xué)功能,以此對基因功能注釋統一化。用于描述生物學(xué)功能的詞匯必然要反映生物學(xué)功能的本質(zhì),此即本體論(Ontology)的由來(lái)。
GO項目對基因功能進(jìn)行了一致性描述,開(kāi)發(fā)了可控制的詞匯表,且無(wú)物種特異性。目前已經(jīng)建立了三大獨立的本體論詞匯表:生物過(guò)程(biologicalprocess)、細胞組分(cellular component)和分子功能(molecular function)。這三大本體論詞條下面又可以獨立出不同的亞層次,以“有向非循環(huán)圖(directed acyclicgraphs)”的方式層層向下,將每一個(gè)本體論詞條串聯(lián)起來(lái)形成樹(shù)狀結構。將GO詞條分配給基因序列的行為即GO注釋。目前,GO注釋已經(jīng)成為高通量測序序列的主要注釋方法。
一個(gè)基因編碼的蛋白質(zhì)可以在多種水平上被賦予本體論定義,GO注釋的原理就是通過(guò)計算機程序建立基因產(chǎn)物與用于定義它們的本體論詞條之間的聯(lián)系。自從1998年基因本體論項目(GeneOntology Project)創(chuàng )立以來(lái),已經(jīng)有多款GO 注釋軟件發(fā)表,實(shí)現了基因產(chǎn)物的標準化注釋。
GO注釋是對基因產(chǎn)物功能研究的重要手段,隨著(zhù)海量的基因組或轉錄組數據的涌現,對GO注釋的通量要求也越來(lái)越高。值得一提的是,目前所有的生物信息學(xué)注釋軟件均不能保證完全正確。但是,我們可以通過(guò)其他互補的方法提高注釋的準確度,如將序列平行地同Swissprot、Nr或者CDD(conserved domain database)等數據庫進(jìn)行比對,若均有搜索到相似序列,那么這些序列的比對分值也勢必較高,注釋結果也越準確;或者可以采用PSIBLAST(position-specific iterated BLAST),此程序靈敏度高于BLASTP程序,對于發(fā)現遠源相似蛋白或者某個(gè)蛋白家族的新成員非常有效。