廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà):020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項目名稱(chēng):染色質(zhì)免疫共沉淀測序ChIP-Seq結題報告(解讀)
所屬分類(lèi):生物信息學(xué)分析-報告解讀
聯(lián)系電話(huà):020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
此文為Chip-seq報告的解讀文件:
以下紅字灰色背景為每一小節的結果解讀信息
結果解讀位于每一小節末尾
1. 工作流程
染色體免疫共沉淀(ChIP)是一種用于研究蛋白質(zhì)與 DNA 的體內相互作用的經(jīng)典實(shí)驗技術(shù)。采用特異性抗體將目的蛋白進(jìn)行免疫沉淀,由此可以把目的蛋白所結合的基因組 DNA 片段也富集下來(lái)。通過(guò)與高通量測序技術(shù)的結合,對 ChIP 后的DNA 產(chǎn)物進(jìn)行測序分析, 從全基因組范圍內尋找目的蛋白的 DNA 結合位點(diǎn),以高效率的測序手段得到高通量的數據結果。
1.1. ChIP 免疫沉淀實(shí)驗流程
目前主要有兩種不同的ChIP 實(shí)驗方法,大致流程如下(以細胞樣品的處理過(guò)程為例):
Cross-liking Chromatin Immunoprecipitation (X-ChIP)
準備足量的新鮮細胞,每個(gè)IP約4x106個(gè)細胞,用新鮮的1%的甲醛處理細胞,進(jìn)行細胞交聯(lián)。
125mM的甘氨酸終止交聯(lián),收集細胞。
超聲或酶解打斷染色質(zhì),將基因組 DNA 打斷至 100-500bp。
將抗體(一般為1~5ug)與染色質(zhì)片段4℃孵育過(guò)夜。
加入proteinA/G beads進(jìn)行4℃孵育4-6小時(shí)。
Proteinase K 解交連。
酚氯仿或DNA提取試劑盒提取DNA
QPCR 檢測或建庫測序
1.2. ChIP Sequencing 文庫構建流程
用qubit 對ChIP片段進(jìn)行定量檢測
補齊片段末端,并在3’末端加A尾
添加Adapter
0.8X AMPure beads去掉多余的Adapter
文庫PCR擴增
1XAMPure beads 去掉多余的primer
qPCR測定文庫濃度
Agilent 2100測定文庫片段大小
1.3. 生物信息分析流程
將測序結果與參考基因組比對,比對上唯一位置的序列用于后續標準信息分析及個(gè)性化分析。信息分析流程如下:
此節內容為Chip-seq基本流程介紹,包括
實(shí)驗流程
建庫流程
分析流程
2. 數據結果及生物信息分析
2.1. ChIP Sequencing 文庫質(zhì)檢結果
文庫片段質(zhì)檢,ChIP文庫的染色質(zhì)片段在100-500bp之間,建庫加入約140bp的接頭后,片段應該分布在250-700bp之間為最好。
Fragment Analyzer (FA)毛細管電泳檢測:
檢測結果匯總:(以下結果中文庫大小為 FA 判定結果)
此節內容為Chip-seq文庫構建質(zhì)檢結果展示:
圖中展示了各個(gè)樣本文庫大小及濃度等信息
2.2. 測序數據質(zhì)量控制
對原始測序數據及去除接頭后的可用數據進(jìn)行質(zhì)量評估。
具體的qc報告見(jiàn):
Results/2.2.QC/qc_Demo-H3K27ac.html
Results/2.2.QC/qc_supplement.html
本節展示了ChIP-seq數據的質(zhì)量:
比對情況
測序深度
組內重復性
peaks數量、長(cháng)度分布
peaks中reads的數量百分比
...
2.3. Reads 在全基因組的可視化分布
使用 IGV 軟件對 Reads 進(jìn)行可視化查看,可以查看全基因組任何感興趣位置的 reads 富集情況,示例如下:
IGV 的安裝使用參考: http://software.broadinstitute.org/software/igv/
可視化操作步驟依次是:
在軟件的 Genome 選項,基因參考序列 hg38 ;
在軟件的 File 選項,上傳 要查看染色體 bigwig 文件 以及 narrowPeak文件;
以上文件上傳后可查看該染色體任意位置的基因信息及 reads 富集情況。
結果文件 :
表頭說(shuō)明:
Results/2.3.peak_cover/*.narrowPeak
表頭說(shuō)明:
表頭(以下表示第幾列) | 說(shuō)明 |
---|---|
Column 1 | seqnames, peak所在染色體 |
Column 2 | start, peak起始位置 |
Column 3 | end, peak終止位置 |
Column 4 | peakname, peak的名字 |
Column 5 | score, callPeak的置信度分數,結果按照該列進(jìn)行排名,計算方法為int(-10*log10Pvalue) |
Column 6 | strand, 正負鏈信息 |
Column 7 | FC, target vs input 的倍數 |
Column 8 | score, pvalue,計算方法為-10*log10Pvalue |
Column 9 | score, qvalue,計算方法為-10*log10qvalue |
Column 10 | 兩個(gè)峰最高點(diǎn)之間的距離,示例如圖 |
Results/2.3.peak_cover/*.narrowPeak
表頭說(shuō)明圖示:
此節內容,對結果進(jìn)行說(shuō)明并給出了在IGV中可視化的兩個(gè)最重要的基本文件:
.bigwig: 測序reads在基因組上的可視化分布結果文件
.narrowPeak: callPeak結果文件
2.4. 全基因組 Reads 富集峰 Peak 鑒定
采用常用 reads 富集峰鑒定軟件 MACS 在全基因范圍進(jìn)行 peak 掃描,得到 Peak 在基因組上的位置信息、peak 富集信息等。
圖1 全基因組 Reads 富集峰
結果文件:
Results/Demo-H3K27ac.PeakAnno.xls
Results/2.4.peak_scan/Demo-H3K27ac.covplot.pdf
表頭說(shuō)明:Results/*.PeakAnno.xls
表頭說(shuō)明:
表頭 | 說(shuō)明 |
---|---|
seqnames | peak所在染色體 |
start | peak起始位置 |
end | peak終止位置 |
width | peak長(cháng)度 |
strand | 正負鏈信息 |
V4 | 同Peak文件第4列,peakname,peak的名字 |
V5 | 同Peak文件第5列,callPeak的置信度分數,計算方法為int(-10*log10Pvalue) |
V6 | 同Peak文件第6列,與上述strand列一致,表示正負鏈信息 |
annotation | peak注釋信息(對于注釋到基因上等注釋信息的描述) |
geneChr | 注釋基因的染色體信息 |
geneStart | 注釋基因的起始位置 |
geneEnd | 注釋基因的終止位置 |
geneLength | 注釋基因的長(cháng)度 |
geneStrand | 注釋基因的正負鏈 |
geneId | 注釋基因的EntrezID |
transcriptId | 注釋基因的轉錄本名字 |
distanceToTSS | 被注釋Peak距離TSS的距離 |
ENSEMBL | 注釋基因的ENSEMBL名 |
SYMBOL | 注釋基因的SYMBOL名 |
GENENAME | 注釋基因的基本描述信息 |
此節內容包括:
所有Peak的臨近基因注釋結果文件
callPeak結果在全基因組上的分布情況(高度代表置信度)
2.5. Reads 在 TSS 近端富集強度分析
TSS 轉錄起始位點(diǎn)近端(0-3kb)與特定的基因轉錄調控功能有關(guān),統計 reads 在TSS 近端的分布情況。
圖 2 reads 在 TSS 近端富集強度的分布(熱圖分布)
圖 3 reads 在 TSS 近端富集強度的分布(峰圖分布)
結果文件:
Results/2.5.tss_near/Demo-H3K27ac.tagheatmap.pdf
Results/2.5.tss_near/Demo-H3K27ac.plotavgprof.pdf
此節內容包括:
以TSS為中心向正負拓展3k距離的的Peak富集情況
2.6. Reads 在 TSS 近端及遠端富集強度分析
TSS 轉錄起始位點(diǎn)近端(0-3kb)及遠端(10kb以上)的 reads 分布與特定的基因轉錄調控功能有關(guān),統計 reads 在TSS 近端及遠端的分布情況。
圖4 reads 在 TSS 近端及遠端富集強度的分布
結果文件:
此節內容包括:
以TSS為中心向正負拓展3k-10k以上距離的的Peak富集情況
2.7. Peak 在基因組上的分布
將 Peak 根據位置信息進(jìn)行基因組注釋基因結構元件,分別統計 Peak 在結構元件(intergenic region、upstream 5K、5`UTR、exon、intron,3’UTR、downstream5k)的數目,并根據其在各個(gè)元件上的富集程度,繪制分布特征。
Peak 在基因結構元件上的分布特征:
圖5 Peak 在基因結構元件上的分布
圖6 Peak 在基因結構元件上的分布比例
Peak 在各基因結構元件上的交叉分布特征:
圖7 Peak 在基因結構元件上的交叉分布(upsetplot)
圖8 Peak 在基因結構元件上的交叉分布(vennpie)
結果文件:
Results/2.7.peak_dis/Demo-H3K27ac.peakAnnobar.pdf
Results/2.7.peak_dis/Demo-H3K27ac.peakAnnopie.pdf
Results/2.7.peak_dis/Demo-H3K27ac.peakAnnoupset.pdf
Results/2.7.peak_dis/Demo-H3K27ac.peakAnnovinnpie.pdf
此節內容包括:
所有Peak在基因結構元件上的分布特征(即,各個(gè)Peak注釋到了基因的什么結構元件的比例統計)
所有Peak在各基因結構元件上的交叉分布特征(即,各個(gè)Peak注釋到的同一個(gè)基因,同時(shí)分布在多個(gè)基因元件的數量統計)
2.8. Peak注釋基因的富集分析
??我們將前面分析得到的Peak注釋基因,進(jìn)行后續富集分析。
??我們根據基因表達量分析得到差異基因之后,必須進(jìn)一步落到基因的功能上來(lái)。對于差異分析而言,往往涉及到成千上萬(wàn)個(gè)基因,這會(huì )使分析變得很復雜。解決思路是將一個(gè)基因列表分成多個(gè)部分,從而減少分析的復雜度。為了解決怎么分成不同類(lèi),通常會(huì )對基因功能進(jìn)行富集分析, 期望發(fā)現在生物學(xué)過(guò)程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過(guò)程的基本分子機制。功能富集分析可以將成百上千個(gè)基因、蛋白或者其他分子分到不同的通路中,以減少分析的復雜度。另外,在兩種不同實(shí)驗條件下,激活的通路顯然比簡(jiǎn)單的基因或蛋白列表更有說(shuō)服力?;蚬δ芨患治鍪紫纫獦嫿ɑ蚣?gene set,如 GO 和 KEGG 數據庫等),也就是基因組注釋信息進(jìn)行分類(lèi)。然后再把我們的目標基因集(差異基因集或者其他基因集)映射到背景基因集上,注意區分注釋與富集。
??我們采用 clusterProfiler 軟件對差異基因集進(jìn)行 GO 功能富集分析, KEGG 通路富集分析等。富集分析基于超幾何分布原理,其中差異基因集為差異顯著(zhù)分析所得差異基因并注釋到 GO 或 KEGG 數據庫的基因集,背景基因集為所有進(jìn)行差異顯著(zhù)分析的基因并注釋到 GO 或 KEGG 數據庫的基因集。富集分析結果是對每個(gè)差異比較組合的所有差異基因集、上調差異基因集、下調差異基因集進(jìn)行富集。本報告中展示的表格是選取某一個(gè)比較組合的富集分析結果,圖片是部分富集分析結果。
圖 9 基因富集分析原理圖
2.8.1. 富集分析結果文件
結果路徑 | 結果說(shuō)明 |
---|---|
GO富集分析結果 | |
Results/*enrich_*/gene.ego_all-p.adjust1.00.csv | GO富集結果列表(所有結果) |
Results/*enrich_*/gene.ego_all-p.adjust0.05.csv | GO富集結果列表(按p.adj<0.05篩選后) |
Results/*enrich_*/gene.ego_ALL.csv | GO富集結果列表(MF、BP、CC所有結果) |
Results/*enrich_*/gene.GO-*-barplot.p* | GO富集分析柱狀圖 |
Results/*enrich_*/gene.GO-*-dotplot.p* | GO富集分析散點(diǎn)圖 |
Results/*enrich_*/gene.GO-*-DAG.p* | GO富集分析DAG圖 |
KEGG富集分析結果 | |
Results/*enrich_*/gene.KEGG.csv | KEGG富集結果列表(所有) |
Results/*enrich_*/gene.KEGG_significant.csv | KEGG富集結果列表(按p.adj<0.05篩選后) |
Results/*enrich_*/gene.KEGG-*-barplot.p* | KEGG富集分析柱狀圖 |
Results/*enrich_*/gene.KEGG-*-dotplot.p* | KEGG富集分析散點(diǎn)圖 |
ReactomePA富集分析結果 | |
Results/*enrich_*/gene.ReactomePA.csv | ReactomePA富集結果列表(所有) |
Results/*enrich_*/gene.ReactomePA_significant.csv | ReactomePA富集結果列表(按p.adj<0.05篩選后) |
Results/*enrich_*/gene.ReactomePA-*-barplot.p* | ReactomePA富集分析柱狀圖 |
Results/*enrich_*/gene.ReactomePA-*-dotplot.p* | ReactomePA富集分析散點(diǎn)圖 |
結果文件夾:
Pathway1 分析結果文件夾:Results/2.8.enrich_pathway1/
Pathway2 分析結果文件夾:Results/2.9.enrich_pathway2/
Pathway1 網(wǎng)頁(yè)預覽圖:Results/2.8.enrich_pathway1/*-pdf.html
Pathway2 網(wǎng)頁(yè)預覽圖:Results/2.9.enrich_pathway2/*-pdf.html
說(shuō)明:
Pathway1中對peaks進(jìn)行基因注釋?zhuān)瑑H采用臨近基因注釋。
Pathway2中對peaks進(jìn)行基因注釋?zhuān)枰紤]多個(gè)因素,包括注釋基因的外顯子/內含子,promoter區,也包括peaks兩側可能包含順式調控元件的區域。
表頭說(shuō)明: (Results/*enrich_*/gene.ego_*.csv
GO富集結果列表)
表頭 | 說(shuō)明 |
---|---|
ID | 對應GO數據庫中的ID |
ONTOLOGY | 分子功能(Molecular Function),生物過(guò)程(biological process)和細胞組成(cellular component) |
Description | GO的描述 |
GeneRatio | 對應GO 差異基因數 / 能夠對應到GO數據庫中同類(lèi)型的差異基因數 |
BgRatio | 對應GO包含對應物種的基因數 / GO數據庫中包含對應物種的基因數 |
pvalue | 富集分析得到的p-value |
p.adjust | 校正后的p-value |
qvalue | 富集分析得到的qvalue |
Count | 富集基因數目 |
ENTREZID | 富集基因列表(ENTREZID) |
SYMBOL | 富集基因列表(SYMBOL) |
表頭說(shuō)明: (Results/*enrich_*/gene.KEGG*.csv
KEGG富集、Results/*enrich_*/gene.ReactomePA*.csv
ReactomePA富集 結果列表)
表頭 | 說(shuō)明 |
---|---|
ID | 對應PATHWAY數據庫中的ID |
Description | PATHWAY的描述 |
GeneRatio | 對應PATHWAY 差異基因數 / 能夠對應到PATHWAY數據庫中的差異基因數 |
BgRatio | 對應PATHWAY包含對應物種的基因數 / PATHWAY數據庫中包含對應物種的基因數 |
pvalue | 富集分析得到的p-value |
p.adjust | 校正后的p-value |
qvalue | 富集分析得到的qvalue |
Count | 富集基因數目 |
ENTREZID | 富集基因列表(ENTREZID) |
SYMBOL | 富集基因列表(SYMBOL) |
2.8.2. GO功能富集分析
?? GO(Gene Ontology) 是描述基因功能的綜合性數據庫,可分為生物過(guò)程( biological process )和細胞組成( cellular component )分子功能( Molecular Function )三個(gè)部分。 GO 功能富集以 padj 小于 0.05 作為為顯著(zhù)性富集的閾值,富集結果見(jiàn)結果文件。
??從 GO 富集分析結果中,選取最顯著(zhù)的 20 個(gè) Term 繪制柱狀圖進(jìn)行展示,若不足 20 個(gè),則繪制所有 Term ,按生物過(guò)程、細胞組分和分子功能三大類(lèi)別及差異基因上下調分類(lèi)畫(huà)的柱狀圖。
??有向無(wú)環(huán)圖 (Directed Acyclic Graph,DAG) 為差異基因 GO 富集分析結果的圖形化展示方式。圖中,分支代表包含關(guān)系,從上至下所定義的功能范圍越來(lái)越小,選取每個(gè)差異比較組合的 GO 富集結果最顯著(zhù)性前 5 位的 GO Term 作為有向無(wú)環(huán)圖的主節點(diǎn),并通過(guò)包含關(guān)系,將相關(guān)聯(lián)的 GO Term 一起展示,顏色的深淺代表富集程度。我們的項目中分別繪制生物過(guò)程、分子功能和細胞組分的 DAG 圖。
圖 10 GO富集分析柱狀圖
圖中縱坐標為GO Term,橫坐標為GO Term富集的顯著(zhù)性水平,數值越高越顯著(zhù)
圖 11 GO富集分析散點(diǎn)圖
圖中橫坐標為注釋到GO Term上的差異基因數與差異基因總數的比值,縱坐標為GO Term
圖 12 GO富集分析DAG圖
每個(gè)節點(diǎn)代表一個(gè)GO術(shù)語(yǔ),方框代表的是富集程度為T(mén)OP5的GO,顏色的深淺代表富集程度,顏色越深就表示富集程度越高,每個(gè)節點(diǎn)上展示了該TERM的名稱(chēng)及富集分析的padj
2.8.3. KEGG通路富集分析
?? KEGG(Kyoto Encyclopedia of Genes and Genomes) 是整合了基因組、化學(xué)和系統功能信息的綜合性數據庫。 KEGG 通路富集以 padj 小于 0.05 作為顯著(zhù)性富集的閾值,富集結果見(jiàn)結果文件。
??從 KEGG 富集結果中,選取最顯著(zhù)的 20 個(gè) KEGG 通路繪制柱狀圖進(jìn)行展示,若不足 20 個(gè),則繪制所有通路,如下圖所示。圖中橫坐標為通路富集的顯著(zhù)性水平,數值越高越顯著(zhù),縱坐標為 KEGG 通路。
??從 KEGG 富集結果中,選取最顯著(zhù)的 20個(gè)KEGG 通路繪制散點(diǎn)圖進(jìn)行展示,若不足 20 個(gè),則繪制所有通路,如下圖所示。圖中橫坐標為注釋到 KEGG 通路上的差異基因數與差異基因總數的比值,縱坐標為 KEGG 通路,點(diǎn)的大小代表注釋到 KEGG 通路上的基因數,顏色從紅到紫代表富集的顯著(zhù)性大小。
圖 13 KEGG富集分析柱狀圖
圖中橫坐標為通路富集的顯著(zhù)性水平,數值越高越顯著(zhù),縱坐標為KEGG通路。
圖 14 KEGG富集散點(diǎn)圖
圖中橫坐標為注釋到KEGG通路上的差異基因數與差異基因總數的比值,縱坐標為KEGG通路
2.8.4. ReactomePA富集分析
?? Reactome數據庫匯集了人類(lèi)等模式物種各項反應及生物學(xué)通路。Reactome通路富集以padj小于0.05作為顯著(zhù)性富集的閾值,富集結果見(jiàn)結果文件。
??以下柱狀圖與散點(diǎn)圖與上一節類(lèi)似,選取最顯著(zhù)的 20個(gè) 富集進(jìn)行展示,若不足 20 個(gè),則繪制所有通路,如下圖所示。
圖 15 ReactomePA富集分析柱狀圖
圖中橫坐標為通路富集的顯著(zhù)性水平,數值越高越顯著(zhù),縱坐標為ReactomePA通路。
圖 16 ReactomePA富集散點(diǎn)圖
圖中橫坐標為注釋到ReactomePA通路上的差異基因數與差異基因總數的比值,縱坐標為ReactomePA通路
此節內容包括:
對注釋到的基因集的GO富集分析
對注釋到的基因集的KEGG富集分析
對注釋到的基因集的ReactomePA富集分析
2.9. Peak 區域 Motif 分析
用 Homer 軟件對 Peak 區域鑒定 motif 序列;并將得到的 motif 序列與 JASPAR 數據庫(JASPAR CORE 2016 database)進(jìn)行比對,鑒定已知的 motif。
Homer 結果示例:
結果文件:
此節內容為所有Peak區域鑒定 motif 結果,包括:
基于JASPAR數據庫已知查找結果
基于denovo預測結果