服務(wù)目錄

技術(shù)服務(wù)

技術(shù)專(zhuān)題

聯(lián)系我們

廣州賽誠生物科技有限公司
廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà)：020-85625352
手機：18102256923、18102253682
Email：servers@gzscbio.com
Fax：020-85625352
QQ：386244141

您當前所在的位置：首頁(yè)>>服務(wù)目錄(停用) >>分子機制實(shí)驗平臺 >>生物信息學(xué)分析-報告解讀

(mRNA)轉錄組測序及分析報告

項目名稱(chēng)：(mRNA)轉錄組測序及分析報告

所屬分類(lèi)：生物信息學(xué)分析-報告解讀

聯(lián)系電話(huà)：020-85625352

QQ：386244141

Email：servers@gzscbio.com

技術(shù)服務(wù)描述

轉錄組測序及分析報告

項目信息

合同編號：DEMO-2021-01-29-xx

客戶(hù)姓名：Client-name

客戶(hù)單位：Unit-address

1. 分析流程

1.1. 建庫測序流程

??從RNA樣品提取到最終數據獲得，樣品檢測、建庫、測序等每一環(huán)節都會(huì )直接影響數據的數量和質(zhì)量，從而影響后續數據分析的結果。為從源頭保證測序數據準確可靠，在數據的所有生產(chǎn)環(huán)節都嚴格把關(guān)，從根源上確保高質(zhì)量數據的產(chǎn)出。建庫測序的流程：

Total RNA 樣本檢測
RNA 富集
雙鏈cDNA合成
末端修復、加A和接頭
片段選擇和 PCR 擴增
文庫質(zhì)檢
Illumina測序

1.2. 信息分析流程

??RNA-seq的核心是基因表達差異的顯著(zhù)性分析，使用統計學(xué)方法，比較兩個(gè)條件或多個(gè)條件下的基因表達差異，從中找出與條件相關(guān)的特異性基因，然后進(jìn)一步分析這些特異性基因的生物學(xué)意義，分析過(guò)程包括質(zhì)控、比對、定量、差異顯著(zhù)性分析、功能富集等環(huán)節。信息分析流程如下圖所示：

2. 信息分析

2.2. 測序數據質(zhì)量控制

對原始測序數據及去除接頭后的可用數據進(jìn)行質(zhì)量評估。測序數據一般為雙端測序，因此，每個(gè)測序樣本會(huì )有兩個(gè)測序結果。

評估的具體內容見(jiàn)：

RawData-fastqc 文件鏈接： /result/qc/qc_rawdata/*.html
CleanData-fastqc 文件鏈接： /result/qc/qc_cleandata/*.html
Fastqc 格式補充說(shuō)明： /result/qc/qc_Supplement.html

2.3. 參考基因組比對

??測序片段（fragments）是mRNA隨機打斷的，為了確定這些一段由哪些基因轉錄來(lái)，需要將質(zhì)控后的clean reads比對到參考基因組上。使用HISAT2軟件將Clean Reads與參考基因組進(jìn)行快速精確的比對，獲取Reads在參考基因組上的定位信息^[4]。HISAT2軟件官方手冊。

??如果參考基因組組裝的較為完善，而且所測物種與參考基因組一致，且相關(guān)實(shí)驗不存在污染，那么實(shí)驗所產(chǎn)生的測序reads成功比對到基因組的比例會(huì )高于70% (Total Mapped Reads or Fragments)。本項目所用參考基因組為 hg38 ，下載鏈接：Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz 。

結果文件：

各個(gè)樣本的比對情況統計文件：/result/map_stat/*.flagstat.txt

2.4. 定量分析

2.4.1. 樣本間相關(guān)性

??生物學(xué)重復通常是任何生物學(xué)實(shí)驗所必須的，目前主流期刊也基本要求生物學(xué)重復。生物學(xué)重復主要有兩個(gè)用途：一個(gè)是證明所涉及的生物學(xué)實(shí)驗操作不是偶然，而是可重復的。另一個(gè)是為了確保后續的差異基因分析得到更可靠的結果。樣品間基因表達水平相關(guān)性是檢驗實(shí)驗可靠性和樣本選擇是否合理的重要指標。相關(guān)系數越接近1，表明樣品之間表達模式的相似度越高。Encode計劃建議皮爾遜相關(guān)系數的平方(R²)大于0.92(理想的取樣和實(shí)驗條件下)。具體的項目操作中，我們要求生物學(xué)重復樣品間R²至少要大于0.8，否則需要對樣品做出合適的解釋?zhuān)蛘咧匦逻M(jìn)行實(shí)驗。根據各樣本所有基因的表達值計算組內及組間樣本的相關(guān)性系數，繪制成熱圖，可直觀(guān)顯示組間樣本差異及組內樣本重復情況。樣本間相關(guān)性系數越高，其表達模式越為接近，樣本相關(guān)性熱圖如下圖所示。

圖 1 樣本間相關(guān)性熱圖

圖中橫縱坐標為各樣本相關(guān)系數的平方

結果文件：

樣本間相關(guān)性熱圖結果：Quant/cor_pheatmap*

2.4.2. 主成分分析

??主成分分析（PCA）也常用來(lái)評估組間差異及組內樣本重復情況，PCA采用線(xiàn)性代數的計算方法，對數以萬(wàn)計的基因變量進(jìn)行降維及主成分提取。我們對所有樣本的基因表達值進(jìn)行PCA分析，如下圖所示。理想條件下，PCA圖中，組間樣本應該分散，組內樣本應該聚在一起。

圖 2 主成分分析結果圖

圖中橫坐標為第一主成分，縱坐標為第二主成分

結果文件：

主成分分析結果：Quant/pca*

2.5. 差異分析

??基因表達定量完成后，需要對其表達數據進(jìn)行統計學(xué)分析，篩選樣本在不同狀態(tài)下表達水平顯著(zhù)差異的基因。差異分析主要分為三個(gè)步驟。

首先對原始的readcount進(jìn)行標準化（normalization），主要是對測序深度的校正。
然后統計學(xué)模型進(jìn)行假設檢驗概率（pvalue）的計算
最后進(jìn)行多重假設檢驗校正，得到FDR值（錯誤發(fā)現率，padj是其常見(jiàn)形式)^[1-2]。

??針對不同的實(shí)驗情況，我們選用合適的軟件進(jìn)行基因表達差異顯著(zhù)性分析，具體如下表所示。

表1 表達差異分析所用軟件及差異基因篩選標準

類(lèi)型	軟件	標準化方法	pvalue計算模型	FDR計算方法	差異基因篩選標準
有生物學(xué)重復	DESeq2(Anders et al, 2014)	DESeq	負二項分布	BH	\|log2(FoldChange)\| > 0 & padj < 0.05
無(wú)生物學(xué)重復	edgeR(Robinson et al, 2010)	TMM	負二項分布	BH	\|log2(FoldChange)\| > 1 & padj < 0.05

??若按照以上標準篩選得到的差異基因過(guò)少（低于100），很有可能導致后面的功能富集分析沒(méi)有顯著(zhù)性結果，所以，我們會(huì )根據項目的具體情況，適當地降低篩選差異基因的閾值標準。若項目實(shí)驗只關(guān)注某幾個(gè)基因的表達情況（如基因敲除），不在意富集結果，從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。

??一般來(lái)說(shuō)，如果一個(gè)基因在兩組樣品中的表達量差異達到兩倍以上，我們認為這樣的基因是具有表達差異的。為了判斷兩個(gè)樣品之間的表達量差異究竟是由于各種誤差導致的還是本質(zhì)差異，我們需要對所有基因在這兩個(gè)樣本中的表達量數據進(jìn)行假設檢驗。而轉錄組分析是針對成千上萬(wàn)個(gè)基因進(jìn)行的，這樣會(huì )導致假陽(yáng)性的累積，基因數目越多，假設檢驗的假陽(yáng)性累積程度會(huì )越高，所以引入padj對假設檢驗的P-value進(jìn)行校正，從而控制假陽(yáng)性的比例^[3]。

??差異基因的篩選標準是非常重要的，我們給出的標準|log2(FoldChange)| > 1 & padj< 0.05是常用的經(jīng)驗值，在實(shí)際項目中可以根據情況靈活選擇。例如，差異倍數可以選擇1.5倍，也可以選擇3倍，padj常用的閾值包括0.01、0.05、0.1等。若按照以上標準篩選得到的差異基因過(guò)少，很有可能導致后?的功能富集分析沒(méi)有顯著(zhù)性結果。若項目實(shí)驗只關(guān)注某幾個(gè)基因的表達情況（如基因敲除），不在意富集結果，從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。反之，如果得到的差異基因數目過(guò)多，不利于后續目標基因的篩選，這個(gè)時(shí)候可使用更嚴格的閾值標準進(jìn)行篩選，則可以使用更嚴格的閾值標準進(jìn)行篩選。

2.5.1. 差異基因的篩選

??通過(guò)Deseq2進(jìn)行差異分析，我們通常采用 |log2FC|>1 & padj < 0.05 進(jìn)行差異基因的篩選，隨后對差異基因進(jìn)行注釋?zhuān)玫桨⑨屝畔⒌牟町惢蛄斜怼?/p>

結果文件：

差異基因列表及相關(guān)注釋信息（總的結果）：result/Enrichment/Allgene_anno_ALL.xls
差異基因列表及相關(guān)注釋信息（篩選結果）：result/Enrichment/Allgene_anno.xls

Differential/Allgene_anno*.xls表頭

表頭	說(shuō)明
`ENSEMBL`	差異基因的ENSEMBL名
`pvalue`	差異基因的置信度計算結果
`padj`	差異基因的多重校驗FDR
`log2FC`	Treat組 vs Control組差異倍數的log2標準化結果
`FC`	Treat組 vs Control組差異倍數
`log2FC_abs`	Treat組 vs Control組差異倍數的log2標準化結果的絕對值（此列便于篩選log2FC閾值）
`FC_HvsL`	高表達組 vs 低表達組差異倍數（此列便于篩選FC閾值）
`change`	使用本次分析的閾值，對差異基因的上下調標記
`SYMBOL`	差異基因的SYMBOL名
`ENTREZID`	差異基因的ENTREZID號
`GENENAME`	差異基因的基本描述信息
`baseMean`	差異基因的表達量標準化后的平均值
`Samples*`	樣本的原始表達矩陣表達量結果
`Samples*_normal`	樣本的表達矩陣標準化后的結果

2.5.2. 差異基因的熱圖聚類(lèi)

??將所有比較組的差異基因取并集之后作為差異基因集。兩組以上的實(shí)驗，可對差異基因集進(jìn)行聚類(lèi)分析，將表達模式相近的基因聚在一起。我們采用主流的層次聚類(lèi)對基因的表達值進(jìn)行聚類(lèi)分析，對行（row）進(jìn)行均一化處理（Z-score）。熱圖中表達模式相近的基因或樣本會(huì )被聚集在一起，每個(gè)方格中的顏色反映的不是基因表達值，而是表達數據的行進(jìn)行均一化處理后得到的數值（一般在-1到1之間），所以熱圖中的顏色只能橫向比較（同一基因在不同樣本中的表達情況），不能縱向比較（同一樣本不同基因的表達情況）。結果文件中既有組間的聚類(lèi)，也有樣品間的聚類(lèi)。結題報告展示了樣品間的聚類(lèi)，具體如下圖所示。

圖 3 差異表達基因聚類(lèi)熱圖

圖中橫坐標為樣品名，縱坐標為差異基因歸一化后的數值，顏色越紅，表達量越高，越藍，表達量越低。

結果文件：

差異基因的熱圖結果：Differential/heatmap/

2.5.3. 差異基因的火山圖分布

??火山圖可直觀(guān)展示每個(gè)比較組合的差異基因分布情況，如下圖所示。圖中橫坐標表示基因在處理和對照兩組中的表達倍數變化(log2FoldChange)，縱坐標表示基因在處理和對照兩組中表達差異的顯著(zhù)性水平(-log10padj或-log10pvalue)。為上調基因用紅色點(diǎn)表示，下調基因用藍色點(diǎn)表示。

圖 4 差異基因火山圖

圖中橫坐標為log2FoldChange值，縱坐標為-log10padj或-log10pvalue，藍色的虛線(xiàn)表示差異基因篩選標準的閾值線(xiàn)

結果文件：

差異基因的火山圖結果：Differential/volcano/volcano.png

2.6. 富集分析

??我們根據基因表達量分析得到差異基因之后，必須進(jìn)一步落到基因的功能上來(lái)。對于轉錄組分析而言，往往涉及到成千上萬(wàn)個(gè)基因，這會(huì )使分析變得很復雜。解決思路是將一個(gè)基因列表分成多個(gè)部分，從而減少分析的復雜度。為了解決怎么分成不同類(lèi)，通常會(huì )對基因功能進(jìn)行富集分析, 期望發(fā)現在生物學(xué)過(guò)程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過(guò)程的基本分子機制。功能富集分析可以將成百上千個(gè)基因、蛋白或者其他分子分到不同的通路中，以減少分析的復雜度。另外，在兩種不同實(shí)驗條件下，激活的通路顯然比簡(jiǎn)單的基因或蛋白列表更有說(shuō)服力?；蚬δ芨患治鍪紫纫獦嫿ɑ蚣?span style="font-family:Times New Roman">gene set，如GO和KEGG數據庫等），也就是基因組注釋信息進(jìn)行分類(lèi)。然后再把我們的目標基因集（差異基因集或者其他基因集）映射到背景基因集上，注意區分注釋與富集。

??我們采用clusterProfiler軟件對差異基因集進(jìn)行GO功能富集分析，KEGG通路富集分析等。富集分析基于超幾何分布原理，其中差異基因集為差異顯著(zhù)分析所得差異基因并注釋到GO或KEGG數據庫的基因集，背景基因集為所有進(jìn)行差異顯著(zhù)分析的基因并注釋到GO或KEGG數據庫的基因集。富集分析結果是對每個(gè)差異比較組合的所有差異基因集、上調差異基因集、下調差異基因集進(jìn)行富集。本報告中展示的表格是選取某一個(gè)比較組合的富集分析結果，圖片是所有組合的富集分析結果。

圖 5 基因富集分析原理圖

2.6.1. 富集分析結果文件

結果路徑	結果說(shuō)明
GO富集分析結果
`Results/enrich_/gene.ego_all-p.adjust1.00.csv`	GO富集結果列表（所有結果）
`Results/enrich_/gene.ego_all-p.adjust0.05.csv`	GO富集結果列表（按p.adj<0.05篩選后）
`Results/enrich_/gene.ego_ALL.csv`	GO富集結果列表（MF、BP、CC所有結果）
`Results/enrich_/gene.GO--barplot.p`	GO富集分析柱狀圖
`Results/enrich_/gene.GO--dotplot.p`	GO富集分析散點(diǎn)圖
`Results/enrich_/gene.GO--DAG.p`	GO富集分析DAG圖
KEGG富集分析結果
`Results/enrich_/gene.KEGG.csv`	KEGG富集結果列表（所有）
`Results/enrich_/gene.KEGG_significant.csv`	KEGG富集結果列表（按p.adj<0.05篩選后）
`Results/enrich_/gene.KEGG--barplot.p`	KEGG富集分析柱狀圖
`Results/enrich_/gene.KEGG--dotplot.p`	KEGG富集分析散點(diǎn)圖

結果文件夾：

all 分析結果文件夾：result/Enrichment/all/
up 分析結果文件夾：result/Enrichment/up/
down 分析結果文件夾：result/Enrichment/down/
all 網(wǎng)頁(yè)預覽圖：result/Enrichment/all-pdf.html
up 網(wǎng)頁(yè)預覽圖：result/Enrichment/up-pdf.html
down 網(wǎng)頁(yè)預覽圖：result/Enrichment/down-pdf.html

說(shuō)明：

all/up/down分別對應總差異基因，上調差異基因，下調差異基因進(jìn)行對應的富集分析。

表頭說(shuō)明：（Results/*enrich_*/gene.ego_*.csv GO富集結果列表）

ID	對應GO數據庫中的ID
ONTOLOGY	分子功能（Molecular Function），生物過(guò)程（biological process）和細胞組成（cellular component）
Description	GO的描述
GeneRatio	對應GO 差異基因數 / 能夠對應到GO數據庫中同類(lèi)型的差異基因數
BgRatio	對應GO包含對應物種的基因數 / GO數據庫中包含對應物種的基因數
pvalue	富集分析得到的p-value
p.adjust	校正后的p-value
qvalue	富集分析得到的qvalue
Count	富集基因數目
ENTREZID	富集基因列表（ENTREZID）
SYMBOL	富集基因列表（SYMBOL）

表頭說(shuō)明：（Results/*enrich_*/gene.KEGG*.csv KEGG富集結果列表）

ID	對應PATHWAY數據庫中的ID
Description	PATHWAY的描述
GeneRatio	對應PATHWAY 差異基因數 / 能夠對應到PATHWAY數據庫中的差異基因數
BgRatio	對應PATHWAY包含對應物種的基因數 / PATHWAY數據庫中包含對應物種的基因數
pvalue	富集分析得到的p-value
p.adjust	校正后的p-value
qvalue	富集分析得到的qvalue
Count	富集基因數目
ENTREZID	富集基因列表（ENTREZID）
SYMBOL	富集基因列表（SYMBOL）

2.6.1. GO功能富集分析

??GO(Gene Ontology)是描述基因功能的綜合性數據庫，可分為生物過(guò)程（biological process）和細胞組成（cellular component）分子功能（Molecular Function）三個(gè)部分。GO功能富集以padj小于0.05作為為顯著(zhù)性富集的閾值，富集結果見(jiàn)結果文件。

??從GO富集分析結果中，選取最顯著(zhù)的30個(gè)Term繪制柱狀圖進(jìn)行展示，若不足30個(gè)，則繪制所有Term，按生物過(guò)程、細胞組分和分子功能三大類(lèi)別及差異基因上下調分類(lèi)畫(huà)的柱狀圖。

??有向無(wú)環(huán)圖(Directed Acyclic Graph，DAG)為差異基因GO富集分析結果的圖形化展示方式。圖中，分支代表包含關(guān)系，從上至下所定義的功能范圍越來(lái)越小，選取每個(gè)差異比較組合的GO富集結果最顯著(zhù)性前5位的GO Term作為有向無(wú)環(huán)圖的主節點(diǎn)，并通過(guò)包含關(guān)系，將相關(guān)聯(lián)的GO Term一起展示，顏色的深淺代表富集程度。我們的項目中分別繪制生物過(guò)程、分子功能和細胞組分的DAG圖。

圖 6 GO富集分析柱狀圖

圖中縱坐標為GO Term，橫坐標為GO Term富集的顯著(zhù)性水平，數值越高越顯著(zhù)

圖 7 GO富集分析散點(diǎn)圖

圖中橫坐標為注釋到GO Term上的差異基因數與差異基因總數的比值，縱坐標為GO Term

圖 8 GO富集分析DAG圖

每個(gè)節點(diǎn)代表一個(gè)GO術(shù)語(yǔ)，方框代表的是富集程度為T(mén)OP5的GO，顏色的深淺代表富集程度，顏色越深就表示富集程度越高，每個(gè)節點(diǎn)上展示了該TERM的名稱(chēng)及富集分析的padj

2.6.2. KEGG通路富集分析

??KEGG(Kyoto Encyclopedia of Genes and Genomes)是整合了基因組、化學(xué)和系統功能信息的綜合性數據庫。KEGG通路富集以padj小于0.05作為顯著(zhù)性富集的閾值，富集結果見(jiàn)結果文件。

??從KEGG富集結果中，選取最顯著(zhù)的20個(gè)KEGG通路繪制柱狀圖進(jìn)行展示，若不足20個(gè)，則繪制所有通路，如下圖所示。圖中橫坐標為通路富集的顯著(zhù)性水平，數值越高越顯著(zhù)，縱坐標為KEGG通路。

??從KEGG富集結果中，選取最顯著(zhù)的20個(gè)KEGG通路繪制散點(diǎn)圖進(jìn)行展示，若不足20個(gè)，則繪制所有通路，如下圖所示。圖中橫坐標為注釋到KEGG通路上的差異基因數與差異基因總數的比值，縱坐標為KEGG通路，點(diǎn)的大小代表注釋到KEGG通路上的基因數，顏色從紅到紫代表富集的顯著(zhù)性大小。

圖 9 KEGG富集分析柱狀圖

圖中橫坐標為通路富集的顯著(zhù)性水平，數值越高越顯著(zhù)，縱坐標為KEGG通路。

圖 10 KEGG富集散點(diǎn)圖

圖中橫坐標為注釋到KEGG通路上的差異基因數與差異基因總數的比值，縱坐標為KEGG通路