廣州市天河區黃埔大道中124號2705室
電話(huà):020-29031124
手機:18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624
生物信息學(xué)是生物學(xué)與計算機科學(xué)及應用數學(xué)等學(xué)科相互交叉而形成的一門(mén)新興學(xué)科。它通過(guò)對生物學(xué)實(shí)驗數據的獲取、加工、存儲、檢索與分析,進(jìn)而達到提取數據所蘊含的生物學(xué)意義的目的,它由數據庫、計算機網(wǎng)絡(luò )和應用軟件三大部 分構成。在基因組研究時(shí)代,生物信息學(xué)包含三個(gè)重要內容,即基因組信息學(xué)、蛋白質(zhì)的結構模擬以及藥物設計?;蚪M信息學(xué)是生物信息學(xué)的源頭和基礎。生物信息學(xué)的研究目標是揭示基因組信息結構的復雜性及遺傳語(yǔ)言的根本規律。
我們廣州賽誠生物科技有限公司根據多年經(jīng)驗及對前沿技術(shù)的關(guān)注,總結出下列幾點(diǎn)生物信息學(xué)的主要研究方向。
DNA和蛋白序列序列比對
序列比對考慮了DNA序列的生物學(xué)特性,如序列局部發(fā)生的插入,刪除(前兩種簡(jiǎn)稱(chēng)為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等。兩個(gè)序列比對常采用動(dòng)態(tài)規劃算法,這種算法在序列長(cháng)度較小時(shí)適用,然而對于海量基因序列(如人的DNA序列高達10^9bp),這一方法就不太適用,甚至采用算法復雜性為線(xiàn)性的也難以奏效。因此,啟發(fā)式方法的引入勢在必然,著(zhù)名的BLAST和FASTA算法及相應的改進(jìn)方法均是從此前提出發(fā)的。
比較兩個(gè)或兩個(gè)以上蛋白質(zhì)分子空間結構的相似性或不相似性。蛋白質(zhì)的結構與功能是密切相關(guān)的,一般認為,具有相似功能的蛋白質(zhì)結構一般相似。蛋白質(zhì)是由氨基酸組成的長(cháng)鏈,長(cháng)度從50到1000~3000AA(Amino Acids),蛋白質(zhì)具有多種功能,如酶,物質(zhì)的存貯和運輸,信號傳遞,抗體等等。氨基酸的序列內在的決定了蛋白質(zhì)的3維結構。一般認為,蛋白質(zhì)有四級不同的結構。研究蛋白質(zhì)結構和預測的理由是:醫藥上可以理解生物的功能,尋找dockingdrugs的目標,農業(yè)上獲得更好的農作物的基因工程,工業(yè)上有利用酶的合成。直接對蛋白質(zhì)結構進(jìn)行比對的原因是由于蛋白質(zhì)的3維結構比其一級結構在進(jìn)化中更穩定的保留,同時(shí)也包含了較AA序列更多的信息。蛋白質(zhì)3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應(不一定全真),物理上可用最小能量來(lái)解釋。從觀(guān)察和總結已知結構的蛋白質(zhì)結構規律出發(fā)來(lái)預測未知蛋白質(zhì)的結構。同源建模(homology modeling)和指認(Threading)方法屬于這一范疇。同源建模用于尋找具有高度相似性的蛋白質(zhì)結構(超過(guò)30%氨基酸相同),后者則用于比較進(jìn)化族中不同的蛋白質(zhì)結構。然而,蛋白結構預測研究現狀還遠遠不能滿(mǎn)足實(shí)際需要。
為確定兩個(gè)或多個(gè)序列之間的相似性以至于同源性,而將它們按照一定的規律排列。將兩個(gè)或多個(gè)序列排列在一起,標明其相似之處。序列中可以插入間隔(通常用短橫線(xiàn)“-”表示)。對應的相同或相似的符號(在核酸中是A、T或U、C、G,在蛋白質(zhì)中是氨基酸殘基的單字母表示)排列在同一列上。
這一方法常用于研究由共同祖先進(jìn)化而來(lái)的序列,特別是如蛋白質(zhì)序列或DNA序列等生物序列。在比對中,錯配與突變相應,而空位與插入或缺失對應。序列比對還可用于語(yǔ)言進(jìn)化或文本間相似性之類(lèi)的研究。
基因的識別和鑒定
基因識別的基本問(wèn)題是給定基因組序列后,正確識別基因的范圍和在基因組序列中的精確位置。非編碼區由內含子組成(introns),一般在形成蛋白質(zhì)后被丟棄,但從實(shí)驗中,如果去除非編碼區,又不能完成基因的復制。顯然,DNA序列作為一種遺傳語(yǔ)言,既包含在編碼區,又隱含在非編碼序列中。分析非編碼區DNA序列沒(méi)有一般性的指導方法。在人類(lèi)基因組中,并非所有的序列均被編碼,即是某種蛋白質(zhì)的模板,已完成編碼部分僅占人類(lèi)基因總序列的3~5%,顯然,手工的搜索如此大的基因序列是難以想象的.偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾可夫鏈,ORF(Open Reading Frames),啟動(dòng)子(promoter)識別,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。
分子進(jìn)化分析
分子進(jìn)化是生物進(jìn)化過(guò)程中生物大分子的演變,包括前生命物質(zhì)的演變;蛋白質(zhì)分子和核酸分子的演變以及細胞器和遺傳機構(例如遺傳密碼)的演變。分子進(jìn)化的研究可以為生物進(jìn)化過(guò)程提供佐證,為深入研究進(jìn)化機制提供重要依據。
廣義的分子進(jìn)化有兩層含義,一是原始生命出現之前的進(jìn)化,即生命起源的化學(xué)演化;二是原始生命產(chǎn)生之后生物在進(jìn)化發(fā)展過(guò)程中,生物大分子結構和功能的變化以及這些變化與生物進(jìn)化的關(guān)系,這就是通常所說(shuō)的分子進(jìn)化。
翻譯的遺傳密碼發(fā)掘
通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關(guān)系是生物進(jìn)化歷史上一次偶然的事件而造成的,并被固定在現代生物的共同祖先里,一直延續至今。不同于這種"凍結"理論,有人曾分別提出過(guò)選擇優(yōu)化,化學(xué)和歷史等三種學(xué)說(shuō)來(lái)解釋遺傳密碼。隨著(zhù)各種生物基因組測序任務(wù)的完成,為研究遺傳密碼的起源和檢驗上述理論的真偽提供了新的素材。
藥物設計
人類(lèi)基因工程的目的之一是要了解人體內約10萬(wàn)種蛋白質(zhì)的結構,功能,相互作用以及與各種人類(lèi)疾病之間的關(guān)系,尋求各種治療和預防方法,包括藥物治療?;谏锎蠓肿咏Y構及小分子結構的藥物設計是生物信息學(xué)中的極為重要的研究領(lǐng)域。為了抑制某些酶或蛋白質(zhì)的活性,在已知其蛋白質(zhì)3級結構的基礎上,可以利用分子對齊算法,在計算機上設計抑制劑分子,作為候選藥物。這一領(lǐng)域目的是發(fā)現新的基因藥物,有著(zhù)巨大的經(jīng)濟效益。
生物圖像分析
生物圖像處理技術(shù)又稱(chēng)生物成像技術(shù),是利用成像原理和自動(dòng)模式識別的方法,以電子計算機為工具,把不能被肉眼觀(guān)察到的以及不易被計算機讀入的、反映對像所特有的數據和結構等,轉換成便于使用的直觀(guān)圖像,包括對圖像的加工處理和對圖像的分析。生物圖像處理技術(shù)是60年代發(fā)展起來(lái)的新技術(shù),最早可追溯到攝影術(shù)和,19世紀后期X射線(xiàn)診斷儀又將成像技術(shù)推進(jìn)一大步。近20年除不斷發(fā)展外,在成像技術(shù)方面有超聲成像、正電子成像和成像等,分別通過(guò)各種光學(xué)機械掃描、電子掃描和電荷耦合器件掃描獲取圖像。生物圖像處理技術(shù)的發(fā)展與醫學(xué)診斷的需求密切相關(guān)。
其他
基因表達譜分析,代謝網(wǎng)絡(luò )分析,基因芯片設計和蛋白質(zhì)組學(xué)數據分析等。由生物信息學(xué)衍生的學(xué)科包括結構基因組學(xué),功能基因組學(xué),比較基因組學(xué),蛋白質(zhì)學(xué),藥物基因組學(xué),中藥基因組學(xué),腫瘤基因組學(xué),分子流行病學(xué)和環(huán)境基因組學(xué),成為系統生物學(xué)的重要研究方法。