廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà):020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項目名稱(chēng):circRNA測序與分析報告
所屬分類(lèi):生物信息學(xué)分析-報告解讀
聯(lián)系電話(huà):020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
circRNA測序與分析報告
1. CircRNA背景及分析流程簡(jiǎn)介
1.1. 背景簡(jiǎn)介
??環(huán)形RNA是一類(lèi)在真核生物中廣泛存在的具有特殊環(huán)狀結構的非編碼RNA分子。已有文獻表明,在生物體內,環(huán)形RNA有著(zhù)miRNA海綿、RBP海綿以及翻譯短肽等多項功能,在許多生物學(xué)過(guò)程中發(fā)揮著(zhù)重要作用。 目前研究表明,大部分環(huán)形RNA來(lái)源于蛋白編碼基因的外顯子區域。在pre-mRNA剪接的過(guò)程中,除典型的內含子剪接事件外,還可能會(huì )發(fā)生5’端到3’端的反向剪接事件,從而形成環(huán)形RNA。因此,剪接產(chǎn)物中環(huán)形RNA所占比例是環(huán)形RNA分析的重要指標之一,具有高成環(huán)比例的環(huán)形RNA分子,可能具有更加重要的生物學(xué)功能。 同時(shí),同一基因內部也可能產(chǎn)生多種不同的環(huán)形RNA,基因內對環(huán)形RNA產(chǎn)生位點(diǎn)的使用偏好,也在一定程度上反映了轉錄過(guò)程對環(huán)形RNA產(chǎn)生的調控。因此,環(huán)形RNA轉錄本水平的準確定量,是目前環(huán)形RNA分析的重要基礎。
??為了解決該問(wèn)題,趙方慶團隊開(kāi)發(fā)了一個(gè)新的環(huán)形RNA分析算法。根據已有工具鑒定出的環(huán)形RNA成環(huán)位點(diǎn)信息,研究人員重構了具有反向剪接特征的環(huán)形RNA參考序列,簡(jiǎn)化了復雜的反向剪接位點(diǎn)比對問(wèn)題,并結合測序讀段比對到參考基因組和環(huán)形序列的結果,篩選出了高置信度的來(lái)自環(huán)形RNA的讀段,解決了目前環(huán)形RNA識別和定量方法中準確度低和假陽(yáng)性率高的問(wèn)題。作者在模擬數據和真實(shí)轉錄組數據中,對多種常用環(huán)形RNA識別軟件的表現進(jìn)行了綜合評估,發(fā)現該研究中開(kāi)發(fā)的方法在環(huán)形RNA表達量和成環(huán)比例的計算中,均取得了最佳的結果。
1.2. 分析流程
??將下機測序數據進(jìn)行質(zhì)控,去除接頭及各類(lèi)低質(zhì)量序列。隨后借助于CIRIquant,使用Hisat2與參考基因組比對,Stringtie進(jìn)行基因水平定量;同時(shí)使用bwa-men與參考基因組比對,進(jìn)行circRNA的鑒定,構建circRNA參考序列;將構建的circRNA序列作為參考基因組使用Hisat2再次進(jìn)行比對,篩選出高置信度的來(lái)自環(huán)形RNA的reads;統計circRNA的表達情況,并注釋circRNA信息。通過(guò)對circRNA差異分析,篩選出具有顯著(zhù)差異的circRNA所對相應的基因進(jìn)行后續富集分析。 circRNA信息分析簡(jiǎn)易流程如下所示。

2. 分析結果
2.1. 測序數據質(zhì)量控制
??對原始測序數據及去除接頭后的可用數據進(jìn)行質(zhì)量評估。測序數據一般為雙端測序,因此,每個(gè)測序樣本會(huì )有兩個(gè)測序結果。
評估的具體內容:
文件路徑 | 文件說(shuō)明 |
---|---|
result/01.QC/qc_rawdata/*.html | RawData-fastqc 文件鏈接 |
result/01.QC/qc_cleandata/*.html | CleanData-fastqc 文件鏈接 |
result/01.QC/qc_Supplement.html | Fastqc 格式補充說(shuō)明 |
2.2. CIRIquant分析
2.2.1. CIRIquant分析結果文件
1 . 比對結果文件:
結果路徑 | 結果說(shuō)明 |
---|---|
result/02.CIRIquant/1.mapping/*.flagstat.txt | 各個(gè)樣本的比對情況統計 |
result/02.CIRIquant/1.mapping/*.bw | 與hg38基因組比對的bw結果 |
以上結果位于文件夾:result/02.CIRIquant/1.mapping/
2 . CIRIquant鑒定結果文件:
結果路徑 | 結果說(shuō)明 |
---|---|
result/02.CIRIquant/2.circRNA_detection/*.gtf | CIRIquant鑒定circRNA的gtf文件 |
result/02.CIRIquant/2.circRNA_detection/*.bed | CIRIquant鑒定circRNA的bed文件 |
以上結果位于文件夾:result/02.CIRIquant/2.circRNA_detection/
3 . CIRIquant鑒定結果的統計結果文件:
結果路徑 | 結果說(shuō)明 |
---|---|
result/03.circRNA_info/1.circRNA_annotation/*csv | 鑒定的circRNA的注釋信息表 |
result/03.circRNA_info/2.circRNA_length/* | 鑒定的circRNA的長(cháng)度分布圖 |
result/03.circRNA_info/3.circRNA_karyotype/* | 鑒定的circRNA的染色體分布圖 |
result/03.circRNA_info/4.circRNA_type/* | 鑒定的circRNA的類(lèi)型統計圖 |
以上結果位于文件夾:result/03.circRNA_info
以上統計圖的可視化文件:result/03.circRNA_info/view.html
表頭說(shuō)明: (result/03.circRNA_info/1.circRNA_annotation/*csv
鑒定的circRNA的注釋信息表)
表頭 | 說(shuō)明 |
---|---|
seqnames | 染色體名稱(chēng) |
start | circRNA的起始位置 |
end | circRNA的終止位置 |
width | circRNA長(cháng)度 |
strand | circRNA位于參考序列的正鏈(+)或負鏈(-)上 |
source | 注釋來(lái)源,CIRIquant |
type | 注釋信息的類(lèi)型,circRNA |
score | circRNA的CPM值 |
circ_id | circRNA名稱(chēng) |
circ_type | circRNA類(lèi)型,如exon / intron / intergenic / antisense |
bsj | 反向拼接位點(diǎn) (back-spliced junction) 的reads數量 |
fsj | 可變剪切位點(diǎn) (forward-spliced junction) 的reads數量 |
junc_ratio | 環(huán)狀NA與線(xiàn)性RNA的比值,計算方法為 2 * bsj / ( 2 * bsj + fsj) |
gene_id | host gene的ensemble id。'NA' 表示沒(méi)有host gene,說(shuō)明該circRNA的類(lèi)型為 'intergenic' |
gene_name | host gene的HGNC symbol。'NA'同上 |
gene_type | host gene的類(lèi)型。'NA'同上 |
2.2.2. 參考基因組比對
??測序片段(fragments)是隨機打斷的,為了確定這些一段由哪些基因轉錄來(lái),需要將質(zhì)控后的clean reads比對到參考基因組上。使用HISAT2軟件將Clean Reads與參考基因組進(jìn)行快速精確的比對,獲取Reads在參考基因組上的定位信息[4]。HISAT2軟件官方手冊。
??如果參考基因組組裝的較為完善,而且所測物種與參考基因組一致,且相關(guān)實(shí)驗不存在污染,那么實(shí)驗所產(chǎn)生的測序reads成功比對到基因組的比例會(huì )高于70% (Total Mapped Reads or Fragments)。本項目所用參考基因組為 hg38。
2.2.3. circRNA 預測及鑒定
?? 使用CIRIquant鑒定 circRNA ,并預測 circRNA 的表達。目前發(fā)現的circRNAs主要來(lái)源于基因外顯子exon,但還有其他類(lèi)型,比如來(lái)源于內含子intron、基因間intergenic、反義鏈antisense。為了更進(jìn)一步了解鑒定得到的circRNA詳細信息,隨后進(jìn)行circRNA類(lèi)型,circRNA 的長(cháng)度分布,circRNA 的染色體分布分別進(jìn)行分析,統計分析圖如下。
result/03.circRNA_info/2.circRNA_length/Demo-input.png ![]() | result/03.circRNA_info/2.circRNA_length/Demo-target.png ![]() |
result/03.circRNA_info/3.circRNA_karyotype/Demo-input.png ![]() | result/03.circRNA_info/3.circRNA_karyotype/Demo-target.png ![]() |
result/03.circRNA_info/4.circRNA_type/Demo-input_barplot.png ![]() | result/03.circRNA_info/4.circRNA_type/Demo-target_barplot.png ![]() |
result/03.circRNA_info/4.circRNA_type/Demo-input_pie.png ![]() | result/03.circRNA_info/4.circRNA_type/Demo-target_pie.png ![]() |
2.3. circRNA 差異分析
??對于無(wú)重復樣本,使用CIRIquant的CIRI_DE工具鑒定差異表達的circRNA。輸出的 DE_score 綜合了倍數變化和p值,從而提供了一種有效的方法來(lái)對差異表達的circRNA排名。此處我們篩選 |DE_score| > 1
作為顯著(zhù)差異表達結果。
2.3.1. 差異分析結果文件
文件路徑 | 說(shuō)明 |
---|---|
result/04.DE/targetVSinput_deg_ALL.xls | circRNA差異分析結果(所有結果) |
result/04.DE/targetVSinput_deg_all-diff.xls | circRNA差異分析結果(篩選 |DE_score| > 1 后) |
result/04.DE/targetVSinput_deg_all-diff.bed | circRNA差異分析結果的bed文件(篩選 |DE_score| > 1 后) |
result/04.DE/targetVSinput_deg_up.xls | 僅上調circRNA差異分析結果(篩選 DE_score > 1 后) |
result/04.DE/targetVSinput_deg_down.xls | 僅下調circRNA差異分析結果(篩選 DE_score < -1 后) |
result/04.DE/diff-gene-types_count.txt | 所有差異circRNA的host gene的類(lèi)型統計 |
以上結果位于文件夾:result/04.DE/
表頭說(shuō)明: (result/04.DE/targetVSinput_deg*.xls
差異分析結果文件)
表頭 | 說(shuō)明 |
---|---|
circRNA_ID | circRNA名稱(chēng) |
Case_BSJ | Case組 反向拼接位點(diǎn) (back-spliced junction) 的reads數量 |
Case_FSJ | Case組 可變剪切位點(diǎn) (forward-spliced junction) 的reads數量 |
Case_Ratio | Case組 環(huán)狀NA與線(xiàn)性RNA的比值,計算方法為 2 * bsj / ( 2 * bsj + fsj) |
Ctrl_BSJ | Ctrl組 反向拼接位點(diǎn) (back-spliced junction) 的reads數量 |
Ctrl_FSJ | Ctrl組 可變剪切位點(diǎn) (forward-spliced junction) 的reads數量 |
Ctrl_Ratio | Ctrl組 環(huán)狀NA與線(xiàn)性RNA的比值,計算方法為 2 * bsj / ( 2 * bsj + fsj) |
DE_score | 差異表達分數(differential expression score) |
DS_score | 差異剪切分數(differential splicing score) |
change | 標注信息,'UP'表示顯著(zhù)上調,'DOWN'表示顯著(zhù)下調,'NOT'為表達沒(méi)有顯著(zhù)變化。 |
circ_type | 同上。circRNA類(lèi)型,如exon / intron / intergenic / antisense |
gene_id | 同上。host gene的ensemble id。'NA' 表示沒(méi)有host gene,說(shuō)明該circRNA的類(lèi)型為 'intergenic' |
gene_name | 同上。host gene的HGNC symbol。'NA'同上 |
gene_type | 同上。host gene的類(lèi)型。'NA'同上 |
2.3.2. 差異circRNA的基因組可視化
??可將比對結果bw文件、CIRIquant鑒定得到的circRNA的bed文件、以及差異circRNA分析結果同時(shí)放入IGV查看,如:
2.4. 差異circRNA宿主基因富集分析
??我們將差異circRNA的宿主基因,挑選出僅為 protein coding 的基因,用這些基因進(jìn)行后續富集分析。
??我們根據基因表達量分析得到差異基因之后,必須進(jìn)一步落到基因的功能上來(lái)。對于差異分析而言,往往涉及到成千上萬(wàn)個(gè)基因,這會(huì )使分析變得很復雜。解決思路是將一個(gè)基因列表分成多個(gè)部分,從而減少分析的復雜度。為了解決怎么分成不同類(lèi),通常會(huì )對基因功能進(jìn)行富集分析, 期望發(fā)現在生物學(xué)過(guò)程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過(guò)程的基本分子機制。功能富集分析可以將成百上千個(gè)基因、蛋白或者其他分子分到不同的通路中,以減少分析的復雜度。另外,在兩種不同實(shí)驗條件下,激活的通路顯然比簡(jiǎn)單的基因或蛋白列表更有說(shuō)服力?;蚬δ芨患治鍪紫纫獦嫿ɑ蚣?gene set,如 GO 和 KEGG 數據庫等),也就是基因組注釋信息進(jìn)行分類(lèi)。然后再把我們的目標基因集(差異基因集或者其他基因集)映射到背景基因集上,注意區分注釋與富集。
??我們采用 clusterProfiler 軟件對差異基因集進(jìn)行 GO 功能富集分析, KEGG 通路富集分析等。富集分析基于超幾何分布原理,其中差異基因集為差異顯著(zhù)分析所得差異基因并注釋到 GO 或 KEGG 數據庫的基因集,背景基因集為所有進(jìn)行差異顯著(zhù)分析的基因并注釋到 GO 或 KEGG 數據庫的基因集。富集分析結果是對每個(gè)差異比較組合的所有差異基因集、上調差異基因集、下調差異基因集進(jìn)行富集。本報告中展示的表格是選取某一個(gè)比較組合的富集分析結果,圖片是部分富集分析結果。
圖 5 基因富集分析原理圖
2.4.1. 富集分析結果文件
結果路徑 | 結果說(shuō)明 |
---|---|
GO富集分析結果 | |
result/05.Enrichment/*/gene.ego_all-p.adjust1.00.csv | GO富集結果列表(所有結果) |
result/05.Enrichment/*/gene.ego_all-p.adjust0.05.csv | GO富集結果列表(按p.adj<0.05篩選后) |
result/05.Enrichment/*/gene.ego_ALL.csv | GO富集結果列表(MF、BP、CC所有結果) |
result/05.Enrichment/*/gene.GO-*-barplot.p* | GO富集分析柱狀圖 |
result/05.Enrichment/*/gene.GO-*-dotplot.p* | GO富集分析散點(diǎn)圖 |
result/05.Enrichment/*/gene.GO-*-DAG.p* | GO富集分析DAG圖 |
KEGG富集分析結果 | |
result/05.Enrichment/*/gene.KEGG.csv | KEGG富集結果列表(所有) |
result/05.Enrichment/*/gene.KEGG_significant.csv | KEGG富集結果列表(按p.adj<0.05篩選后) |
result/05.Enrichment/*/gene.KEGG-*-barplot.p* | KEGG富集分析柱狀圖 |
result/05.Enrichment/*/gene.KEGG-*-dotplot.p* | KEGG富集分析散點(diǎn)圖 |
以上結果位于文件夾:result/05.Enrichment/
網(wǎng)頁(yè)預覽圖:
表頭說(shuō)明: (result/05.Enrichment/*/gene.ego_*.csv
GO富集結果列表)
ID | 對應GO數據庫中的ID |
---|---|
ONTOLOGY | 分子功能(Molecular Function),生物過(guò)程(biological process)和細胞組成(cellular component) |
Description | GO的描述 |
GeneRatio | 對應GO 差異基因數 / 能夠對應到GO數據庫中同類(lèi)型的差異基因數 |
BgRatio | 對應GO包含對應物種的基因數 / GO數據庫中包含對應物種的基因數 |
pvalue | 富集分析得到的p-value |
p.adjust | 校正后的p-value |
qvalue | 富集分析得到的qvalue |
geneID | 富集基因列表 |
Count | 富集基因數目 |
表頭說(shuō)明: (result/05.Enrichment/*/gene.KEGG*.csv
KEGG富集結果列表)
ID | 對應PATHWAY數據庫中的ID |
---|---|
Description | PATHWAY的描述 |
GeneRatio | 對應PATHWAY 差異基因數 / 能夠對應到PATHWAY數據庫中的差異基因數 |
BgRatio | 對應PATHWAY包含對應物種的基因數 / PATHWAY數據庫中包含對應物種的基因數 |
pvalue | 富集分析得到的p-value |
p.adjust | 校正后的p-value |
qvalue | 富集分析得到的qvalue |
geneID | 富集基因列表 |
Count | 富集基因數目 |
2.4.2. GO功能富集分析
?? GO(Gene Ontology) 是描述基因功能的綜合性數據庫,可分為生物過(guò)程( biological process )和細胞組成( cellular component )分子功能( Molecular Function )三個(gè)部分。 GO 功能富集以 padj 小于 0.05 作為為顯著(zhù)性富集的閾值,富集結果見(jiàn)結果文件。
??從 GO 富集分析結果中,選取最顯著(zhù)的 30 個(gè) Term 繪制柱狀圖進(jìn)行展示,若不足 30 個(gè),則繪制所有 Term ,按生物過(guò)程、細胞組分和分子功能三大類(lèi)別及差異基因上下調分類(lèi)畫(huà)的柱狀圖。
??有向無(wú)環(huán)圖 (Directed Acyclic Graph,DAG) 為差異基因 GO 富集分析結果的圖形化展示方式。圖中,分支代表包含關(guān)系,從上至下所定義的功能范圍越來(lái)越小,選取每個(gè)差異比較組合的 GO 富集結果最顯著(zhù)性前 5 位的 GO Term 作為有向無(wú)環(huán)圖的主節點(diǎn),并通過(guò)包含關(guān)系,將相關(guān)聯(lián)的 GO Term 一起展示,顏色的深淺代表富集程度。我們的項目中分別繪制生物過(guò)程、分子功能和細胞組分的 DAG 圖。
圖 6 GO富集分析柱狀圖
圖中縱坐標為GO Term,橫坐標為GO Term富集的顯著(zhù)性水平,數值越高越顯著(zhù)
圖 7 GO富集分析散點(diǎn)圖
圖中橫坐標為注釋到GO Term上的差異基因數與差異基因總數的比值,縱坐標為GO Term
圖 8 GO富集分析DAG圖
每個(gè)節點(diǎn)代表一個(gè)GO術(shù)語(yǔ),方框代表的是富集程度為T(mén)OP5的GO,顏色的深淺代表富集程度,顏色越深就表示富集程度越高,每個(gè)節點(diǎn)上展示了該TERM的名稱(chēng)及富集分析的padj
2.4.3. KEGG通路富集分析
?? KEGG(Kyoto Encyclopedia of Genes and Genomes) 是整合了基因組、化學(xué)和系統功能信息的綜合性數據庫。 KEGG 通路富集以 padj 小于 0.05 作為顯著(zhù)性富集的閾值,富集結果見(jiàn)結果文件。
??從 KEGG 富集結果中,選取最顯著(zhù)的 20 個(gè) KEGG 通路繪制柱狀圖進(jìn)行展示,若不足 20 個(gè),則繪制所有通路,如下圖所示。圖中橫坐標為通路富集的顯著(zhù)性水平,數值越高越顯著(zhù),縱坐標為 KEGG 通路。
??從 KEGG 富集結果中,選取最顯著(zhù)的 20個(gè)KEGG 通路繪制散點(diǎn)圖進(jìn)行展示,若不足 20 個(gè),則繪制所有通路,如下圖所示。圖中橫坐標為注釋到 KEGG 通路上的差異基因數與差異基因總數的比值,縱坐標為 KEGG 通路,點(diǎn)的大小代表注釋到 KEGG 通路上的基因數,顏色從紅到紫代表富集的顯著(zhù)性大小。
圖 9 KEGG富集分析柱狀圖
圖中橫坐標為通路富集的顯著(zhù)性水平,數值越高越顯著(zhù),縱坐標為KEGG通路。
圖 10 KEGG富集散點(diǎn)圖
圖中橫坐標為注釋到KEGG通路上的差異基因數與差異基因總數的比值,縱坐標為KEGG通路