廣州市天河區黃埔大道中124號2705室
電話(huà):020-85625352
手機:18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624

項目名稱(chēng):基因全序列拼接分析
所屬分類(lèi):DNA分析
聯(lián)系電話(huà):020-85625352
QQ:2913120624
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
全基因組序列拼接是生物信息學(xué)研究領(lǐng)域的核心問(wèn)題。新一代測序技術(shù)正在引領(lǐng)生命科學(xué)研究進(jìn)入一個(gè)嶄新階段。人類(lèi)基因組計劃完成之后,獲得個(gè)體基因組的全部序列對于生物學(xué)研究、探索與認識生命的本質(zhì)具有十分重要的科學(xué)意義。
針對新一代測序數據reads長(cháng)度較短、數據海量的特點(diǎn),全基因組測序方面的數據分析軟件的研發(fā),已成為生物信息學(xué)領(lǐng)域最迫切、最重要的研究課題。雖然目前已開(kāi)發(fā)有一些全基因組拼接軟件,但是基本都局限在大型計算平臺上完成數據分析過(guò)程,難以滿(mǎn)足一般的研究需求,而且數據處理速度仍然遠遠落后于數據產(chǎn)生速度,已經(jīng)成為整個(gè)基因組圖譜繪制工作的瓶頸,并且其拼接結果在準確性方面還有待提高。
基因組序列拼接的核心思想是利用序列之間的交疊關(guān)系,通過(guò)類(lèi)似于“搭積木”的方式重建目標基因組序列。其基本方法是將序列之間的交疊關(guān)系轉換成計算機可以識別的結構,通過(guò)不斷迭代擴展的方式延長(cháng)目標序列,然后利用配對數據,確定各個(gè)目標序列的相對方向和位置關(guān)系,最終還原目標基因組序列。 基于新一代測序數據的基因組序列拼接,通常分為如下三個(gè)階段:(1)數據的預處理階段。該階段通過(guò)特定的方法,移除測序數據中的錯誤堿基;(2)基因組連續片段(contigs)生成階段。該階段將reads拼接成contigs;(3)超長(cháng)序列片段(scaffoldings)組裝階段。該階段使用配對數據,確定contigs之間的方向和位置關(guān)系,生成scaffoldings。