廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà):020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項目名稱(chēng):(mRNA)轉錄組測序及分析報告
所屬分類(lèi):生物信息學(xué)分析-報告解讀
聯(lián)系電話(huà):020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
轉錄組測序及分析報告
項目信息
合同編號:DEMO-2021-01-29-xx
客戶(hù)姓名:Client-name
客戶(hù)單位:Unit-address
1. 分析流程
1.1. 建庫測序流程
??從RNA樣品提取到最終數據獲得,樣品檢測、建庫、測序等每一環(huán)節都會(huì )直接影響數據的數量和質(zhì)量,從而影響后續數據分析的結果。為從源頭保證測序數據準確可靠,在數據的所有生產(chǎn)環(huán)節都嚴格把關(guān),從根源上確保高質(zhì)量數據的產(chǎn)出。建庫測序的流程:
Total RNA 樣本檢測
RNA 富集
雙鏈cDNA合成
末端修復、加A和接頭
片段選擇和 PCR 擴增
文庫質(zhì)檢
Illumina測序
1.2. 信息分析流程
??RNA-seq的核心是基因表達差異的顯著(zhù)性分析,使用統計學(xué)方法,比較兩個(gè)條件或多個(gè)條件下的基因表達差異,從中找出與條件相關(guān)的特異性基因,然后進(jìn)一步分析這些特異性基因的生物學(xué)意義,分析過(guò)程包括質(zhì)控、比對、定量、差異顯著(zhù)性分析、功能富集等環(huán)節。信息分析流程如下圖所示:
2. 信息分析
2.2. 測序數據質(zhì)量控制
對原始測序數據及去除接頭后的可用數據進(jìn)行質(zhì)量評估。測序數據一般為雙端測序,因此,每個(gè)測序樣本會(huì )有兩個(gè)測序結果。
評估的具體內容見(jiàn):
RawData-fastqc 文件鏈接: /result/qc/qc_rawdata/*.html
CleanData-fastqc 文件鏈接: /result/qc/qc_cleandata/*.html
Fastqc 格式補充說(shuō)明: /result/qc/qc_Supplement.html
2.3. 參考基因組比對
??測序片段(fragments)是mRNA隨機打斷的,為了確定這些一段由哪些基因轉錄來(lái),需要將質(zhì)控后的clean reads比對到參考基因組上。使用HISAT2軟件將Clean Reads與參考基因組進(jìn)行快速精確的比對,獲取Reads在參考基因組上的定位信息[4]。HISAT2軟件官方手冊。
??如果參考基因組組裝的較為完善,而且所測物種與參考基因組一致,且相關(guān)實(shí)驗不存在污染,那么實(shí)驗所產(chǎn)生的測序reads成功比對到基因組的比例會(huì )高于70% (Total Mapped Reads or Fragments)。本項目所用參考基因組為 hg38 ,下載鏈接:Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz 。
結果文件:
各個(gè)樣本的比對情況統計文件:/result/map_stat/*.flagstat.txt
2.4. 定量分析
2.4.1. 樣本間相關(guān)性
??生物學(xué)重復通常是任何生物學(xué)實(shí)驗所必須的,目前主流期刊也基本要求生物學(xué)重復。生物學(xué)重復主要有兩個(gè)用途:一個(gè)是證明所涉及的生物學(xué)實(shí)驗操作不是偶然,而是可重復的。另一個(gè)是為了確保后續的差異基因分析得到更可靠的結果。樣品間基因表達水平相關(guān)性是檢驗實(shí)驗可靠性和樣本選擇是否合理的重要指標。相關(guān)系數越接近1,表明樣品之間表達模式的相似度越高。Encode計劃建議皮爾遜相關(guān)系數的平方(R2)大于0.92(理想的取樣和實(shí)驗條件下)。具體的項目操作中,我們要求生物學(xué)重復樣品間R2至少要大于0.8,否則需要對樣品做出合適的解釋?zhuān)蛘咧匦逻M(jìn)行實(shí)驗。根據各樣本所有基因的表達值計算組內及組間樣本的相關(guān)性系數,繪制成熱圖,可直觀(guān)顯示組間樣本差異及組內樣本重復情況。樣本間相關(guān)性系數越高,其表達模式越為接近,樣本相關(guān)性熱圖如下圖所示。
圖 1 樣本間相關(guān)性熱圖
圖中橫縱坐標為各樣本相關(guān)系數的平方
結果文件:
樣本間相關(guān)性熱圖結果:Quant/cor_pheatmap*
2.4.2. 主成分分析
??主成分分析(PCA)也常用來(lái)評估組間差異及組內樣本重復情況,PCA采用線(xiàn)性代數的計算方法,對數以萬(wàn)計的基因變量進(jìn)行降維及主成分提取。我們對所有樣本的基因表達值進(jìn)行PCA分析,如下圖所示。理想條件下,PCA圖中,組間樣本應該分散,組內樣本應該聚在一起。
圖 2 主成分分析結果圖
圖中橫坐標為第一主成分,縱坐標為第二主成分
結果文件:
主成分分析結果:Quant/pca*
2.5. 差異分析
??基因表達定量完成后,需要對其表達數據進(jìn)行統計學(xué)分析,篩選樣本在不同狀態(tài)下表達水平顯著(zhù)差異的基因。差異分析主要分為三個(gè)步驟。
首先對原始的readcount進(jìn)行標準化(normalization),主要是對測序深度的校正。
然后統計學(xué)模型進(jìn)行假設檢驗概率(pvalue)的計算
最后進(jìn)行多重假設檢驗校正,得到FDR值(錯誤發(fā)現率,padj是其常見(jiàn)形式)[1-2]。
??針對不同的實(shí)驗情況,我們選用合適的軟件進(jìn)行基因表達差異顯著(zhù)性分析,具體如下表所示。
表1 表達差異分析所用軟件及差異基因篩選標準
類(lèi)型 | 軟件 | 標準化方法 | pvalue計算模型 | FDR計算方法 | 差異基因篩選標準 |
---|---|---|---|---|---|
有生物學(xué)重復 | DESeq2(Anders et al, 2014) | DESeq | 負二項分布 | BH | |log2(FoldChange)| > 0 & padj < 0.05 |
無(wú)生物學(xué)重復 | edgeR(Robinson et al, 2010) | TMM | 負二項分布 | BH | |log2(FoldChange)| > 1 & padj < 0.05 |
??若按照以上標準篩選得到的差異基因過(guò)少(低于100),很有可能導致后面的功能富集分析沒(méi)有顯著(zhù)性結果,所以,我們會(huì )根據項目的具體情況,適當地降低篩選差異基因的閾值標準。若項目實(shí)驗只關(guān)注某幾個(gè)基因的表達情況(如基因敲除),不在意富集結果,從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。
??一般來(lái)說(shuō),如果一個(gè)基因在兩組樣品中的表達量差異達到兩倍以上,我們認為這樣的基因是具有表達差異的。為了判斷兩個(gè)樣品之間的表達量差異究竟是由于各種誤差導致的還是本質(zhì)差異,我們需要對所有基因在這兩個(gè)樣本中的表達量數據進(jìn)行假設檢驗。而轉錄組分析是針對成千上萬(wàn)個(gè)基因進(jìn)行的,這樣會(huì )導致假陽(yáng)性的累積,基因數目越多,假設檢驗的假陽(yáng)性累積程度會(huì )越高,所以引入padj對假設檢驗的P-value進(jìn)行校正,從而控制假陽(yáng)性的比例[3]。
??差異基因的篩選標準是非常重要的,我們給出的標準|log2(FoldChange)| > 1 & padj< 0.05是常用的經(jīng)驗值,在實(shí)際項目中可以根據情況靈活選擇。例如,差異倍數可以選擇1.5倍,也可以選擇3倍,padj常用的閾值包括0.01、0.05、0.1等。若按照以上標準篩選得到的差異基因過(guò)少,很有可能導致后?的功能富集分析沒(méi)有顯著(zhù)性結果。若項目實(shí)驗只關(guān)注某幾個(gè)基因的表達情況(如基因敲除),不在意富集結果,從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。反之,如果得到的差異基因數目過(guò)多,不利于后續目標基因的篩選,這個(gè)時(shí)候可使用更嚴格的閾值標準進(jìn)行篩選,則可以使用更嚴格的閾值標準進(jìn)行篩選。
2.5.1. 差異基因的篩選
??通過(guò)Deseq2進(jìn)行差異分析,我們通常采用 |log2FC|>1 & padj < 0.05 進(jìn)行差異基因的篩選,隨后對差異基因進(jìn)行注釋?zhuān)玫桨⑨屝畔⒌牟町惢蛄斜怼?/p>
結果文件:
差異基因列表及相關(guān)注釋信息(總的結果):result/Enrichment/Allgene_anno_ALL.xls
差異基因列表及相關(guān)注釋信息(篩選結果):result/Enrichment/Allgene_anno.xls
Differential/Allgene_anno*.xls表頭
表頭 | 說(shuō)明 |
---|---|
ENSEMBL | 差異基因的ENSEMBL名 |
pvalue | 差異基因的置信度計算結果 |
padj | 差異基因的多重校驗FDR |
log2FC | Treat組 vs Control組 差異倍數 的log2標準化結果 |
FC | Treat組 vs Control組 差異倍數 |
log2FC_abs | Treat組 vs Control組 差異倍數 的log2標準化結果的絕對值(此列便于篩選log2FC閾值) |
FC_HvsL | 高表達組 vs 低表達組 差異倍數 (此列便于篩選FC閾值) |
change | 使用本次分析的閾值,對差異基因的上下調標記 |
SYMBOL | 差異基因的SYMBOL名 |
ENTREZID | 差異基因的ENTREZID號 |
GENENAME | 差異基因的基本描述信息 |
baseMean | 差異基因的表達量標準化后的平均值 |
Samples* | 樣本的原始表達矩陣表達量結果 |
Samples*_normal | 樣本的表達矩陣標準化后的結果 |
2.5.2. 差異基因的熱圖聚類(lèi)
??將所有比較組的差異基因取并集之后作為差異基因集。兩組以上的實(shí)驗,可對差異基因集進(jìn)行聚類(lèi)分析,將表達模式相近的基因聚在一起。我們采用主流的層次聚類(lèi)對基因的表達值進(jìn)行聚類(lèi)分析,對行(row)進(jìn)行均一化處理(Z-score)。熱圖中表達模式相近的基因或樣本會(huì )被聚集在一起,每個(gè)方格中的顏色反映的不是基因表達值,而是表達數據的行進(jìn)行均一化處理后得到的數值(一般在-1到1之間),所以熱圖中的顏色只能橫向比較(同一基因在不同樣本中的表達情況),不能縱向比較(同一樣本不同基因的表達情況)。結果文件中既有組間的聚類(lèi),也有樣品間的聚類(lèi)。結題報告展示了樣品間的聚類(lèi),具體如下圖所示。
圖 3 差異表達基因聚類(lèi)熱圖
圖中橫坐標為樣品名,縱坐標為差異基因歸一化后的數值,顏色越紅,表達量越高,越藍,表達量越低。
結果文件:
差異基因的熱圖結果:Differential/heatmap/
2.5.3. 差異基因的火山圖分布
??火山圖可直觀(guān)展示每個(gè)比較組合的差異基因分布情況,如下圖所示。圖中橫坐標表示基因在處理和對照兩組中的表達倍數變化(log2FoldChange),縱坐標表示基因在處理和對照兩組中表達差異的顯著(zhù)性水平(-log10padj或-log10pvalue)。為上調基因用紅色點(diǎn)表示,下調基因用藍色點(diǎn)表示。
圖 4 差異基因火山圖
圖中橫坐標為log2FoldChange值,縱坐標為-log10padj或-log10pvalue,藍色的虛線(xiàn)表示差異基因篩選標準的閾值線(xiàn)
結果文件:
差異基因的火山圖結果:Differential/volcano/volcano.png
2.6. 富集分析
??我們根據基因表達量分析得到差異基因之后,必須進(jìn)一步落到基因的功能上來(lái)。對于轉錄組分析而言,往往涉及到成千上萬(wàn)個(gè)基因,這會(huì )使分析變得很復雜。解決思路是將一個(gè)基因列表分成多個(gè)部分,從而減少分析的復雜度。為了解決怎么分成不同類(lèi),通常會(huì )對基因功能進(jìn)行富集分析, 期望發(fā)現在生物學(xué)過(guò)程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過(guò)程的基本分子機制。功能富集分析可以將成百上千個(gè)基因、蛋白或者其他分子分到不同的通路中,以減少分析的復雜度。另外,在兩種不同實(shí)驗條件下,激活的通路顯然比簡(jiǎn)單的基因或蛋白列表更有說(shuō)服力?;蚬δ芨患治鍪紫纫獦嫿ɑ蚣?span style="font-family:Times New Roman">gene set,如GO和KEGG數據庫等),也就是基因組注釋信息進(jìn)行分類(lèi)。然后再把我們的目標基因集(差異基因集或者其他基因集)映射到背景基因集上,注意區分注釋與富集。
??我們采用clusterProfiler軟件對差異基因集進(jìn)行GO功能富集分析,KEGG通路富集分析等。富集分析基于超幾何分布原理,其中差異基因集為差異顯著(zhù)分析所得差異基因并注釋到GO或KEGG數據庫的基因集,背景基因集為所有進(jìn)行差異顯著(zhù)分析的基因并注釋到GO或KEGG數據庫的基因集。富集分析結果是對每個(gè)差異比較組合的所有差異基因集、上調差異基因集、下調差異基因集進(jìn)行富集。本報告中展示的表格是選取某一個(gè)比較組合的富集分析結果,圖片是所有組合的富集分析結果。
圖 5 基因富集分析原理圖
2.6.1. 富集分析結果文件
結果路徑 | 結果說(shuō)明 |
---|---|
GO富集分析結果 | |
Results/*enrich_*/gene.ego_all-p.adjust1.00.csv | GO富集結果列表(所有結果) |
Results/*enrich_*/gene.ego_all-p.adjust0.05.csv | GO富集結果列表(按p.adj<0.05篩選后) |
Results/*enrich_*/gene.ego_ALL.csv | GO富集結果列表(MF、BP、CC所有結果) |
Results/*enrich_*/gene.GO-*-barplot.p* | GO富集分析柱狀圖 |
Results/*enrich_*/gene.GO-*-dotplot.p* | GO富集分析散點(diǎn)圖 |
Results/*enrich_*/gene.GO-*-DAG.p* | GO富集分析DAG圖 |
KEGG富集分析結果 | |
Results/*enrich_*/gene.KEGG.csv | KEGG富集結果列表(所有) |
Results/*enrich_*/gene.KEGG_significant.csv | KEGG富集結果列表(按p.adj<0.05篩選后) |
Results/*enrich_*/gene.KEGG-*-barplot.p* | KEGG富集分析柱狀圖 |
Results/*enrich_*/gene.KEGG-*-dotplot.p* | KEGG富集分析散點(diǎn)圖 |
結果文件夾:
all
分析結果文件夾:result/Enrichment/all/up
分析結果文件夾:result/Enrichment/up/down
分析結果文件夾:result/Enrichment/down/all
網(wǎng)頁(yè)預覽圖:result/Enrichment/all-pdf.htmlup
網(wǎng)頁(yè)預覽圖:result/Enrichment/up-pdf.htmldown
網(wǎng)頁(yè)預覽圖:result/Enrichment/down-pdf.html
說(shuō)明:
all
/up
/down
分別對應總差異基因,上調差異基因,下調差異基因進(jìn)行對應的富集分析。
表頭說(shuō)明: (Results/*enrich_*/gene.ego_*.csv
GO富集結果列表)
ID | 對應GO數據庫中的ID |
---|---|
ONTOLOGY | 分子功能(Molecular Function),生物過(guò)程(biological process)和細胞組成(cellular component) |
Description | GO的描述 |
GeneRatio | 對應GO 差異基因數 / 能夠對應到GO數據庫中同類(lèi)型的差異基因數 |
BgRatio | 對應GO包含對應物種的基因數 / GO數據庫中包含對應物種的基因數 |
pvalue | 富集分析得到的p-value |
p.adjust | 校正后的p-value |
qvalue | 富集分析得到的qvalue |
Count | 富集基因數目 |
ENTREZID | 富集基因列表(ENTREZID) |
SYMBOL | 富集基因列表(SYMBOL) |
表頭說(shuō)明: (Results/*enrich_*/gene.KEGG*.csv
KEGG富集結果列表)
ID | 對應PATHWAY數據庫中的ID |
---|---|
Description | PATHWAY的描述 |
GeneRatio | 對應PATHWAY 差異基因數 / 能夠對應到PATHWAY數據庫中的差異基因數 |
BgRatio | 對應PATHWAY包含對應物種的基因數 / PATHWAY數據庫中包含對應物種的基因數 |
pvalue | 富集分析得到的p-value |
p.adjust | 校正后的p-value |
qvalue | 富集分析得到的qvalue |
Count | 富集基因數目 |
ENTREZID | 富集基因列表(ENTREZID) |
SYMBOL | 富集基因列表(SYMBOL) |
2.6.1. GO功能富集分析
??GO(Gene Ontology)是描述基因功能的綜合性數據庫,可分為生物過(guò)程(biological process)和細胞組成(cellular component)分子功能(Molecular Function)三個(gè)部分。GO功能富集以padj小于0.05作為為顯著(zhù)性富集的閾值,富集結果見(jiàn)結果文件。
??從GO富集分析結果中,選取最顯著(zhù)的30個(gè)Term繪制柱狀圖進(jìn)行展示,若不足30個(gè),則繪制所有Term,按生物過(guò)程、細胞組分和分子功能三大類(lèi)別及差異基因上下調分類(lèi)畫(huà)的柱狀圖。
??有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG)為差異基因GO富集分析結果的圖形化展示方式。圖中,分支代表包含關(guān)系,從上至下所定義的功能范圍越來(lái)越小,選取每個(gè)差異比較組合的GO富集結果最顯著(zhù)性前5位的GO Term作為有向無(wú)環(huán)圖的主節點(diǎn),并通過(guò)包含關(guān)系,將相關(guān)聯(lián)的GO Term一起展示,顏色的深淺代表富集程度。我們的項目中分別繪制生物過(guò)程、分子功能和細胞組分的DAG圖。
圖 6 GO富集分析柱狀圖
圖中縱坐標為GO Term,橫坐標為GO Term富集的顯著(zhù)性水平,數值越高越顯著(zhù)
圖 7 GO富集分析散點(diǎn)圖
圖中橫坐標為注釋到GO Term上的差異基因數與差異基因總數的比值,縱坐標為GO Term
圖 8 GO富集分析DAG圖
每個(gè)節點(diǎn)代表一個(gè)GO術(shù)語(yǔ),方框代表的是富集程度為T(mén)OP5的GO,顏色的深淺代表富集程度,顏色越深就表示富集程度越高,每個(gè)節點(diǎn)上展示了該TERM的名稱(chēng)及富集分析的padj
2.6.2. KEGG通路富集分析
??KEGG(Kyoto Encyclopedia of Genes and Genomes)是整合了基因組、化學(xué)和系統功能信息的綜合性數據庫。KEGG通路富集以padj小于0.05作為顯著(zhù)性富集的閾值,富集結果見(jiàn)結果文件。
??從KEGG富集結果中,選取最顯著(zhù)的20個(gè)KEGG通路繪制柱狀圖進(jìn)行展示,若不足20個(gè),則繪制所有通路,如下圖所示。圖中橫坐標為通路富集的顯著(zhù)性水平,數值越高越顯著(zhù),縱坐標為KEGG通路。
??從KEGG富集結果中,選取最顯著(zhù)的20個(gè)KEGG通路繪制散點(diǎn)圖進(jìn)行展示,若不足20個(gè),則繪制所有通路,如下圖所示。圖中橫坐標為注釋到KEGG通路上的差異基因數與差異基因總數的比值,縱坐標為KEGG通路,點(diǎn)的大小代表注釋到KEGG通路上的基因數,顏色從紅到紫代表富集的顯著(zhù)性大小。
圖 9 KEGG富集分析柱狀圖
圖中橫坐標為通路富集的顯著(zhù)性水平,數值越高越顯著(zhù),縱坐標為KEGG通路。
圖 10 KEGG富集散點(diǎn)圖
圖中橫坐標為注釋到KEGG通路上的差異基因數與差異基因總數的比值,縱坐標為KEGG通路