高效、務(wù)實(shí)、嚴謹、敬業(yè)
服務(wù)目錄
技術(shù)服務(wù)
技術(shù)專(zhuān)題
聯(lián)系我們

聯(lián)系我們

廣州賽誠生物科技有限公司
廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà):020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141

項目名稱(chēng):motif結果能給到我們些什么信息?

所屬分類(lèi):生物信息學(xué)分析

聯(lián)系電話(huà):020-85625352

QQ:386244141

Email:servers@gzscbio.com

技術(shù)服務(wù)描述

motif結果能給到我們些什么信息?


1. 背景簡(jiǎn)介

1.1. 什么是motif?

??Motif是一段典型的序列或者一個(gè)結構。一般來(lái)說(shuō),我們稱(chēng)為基序。一般情況下是指構成任何一種特征序列的基本結構。通俗來(lái)講,即是有特征的短序列,一般認為它是擁有生物學(xué)功能的保守序列,可能包含特異性的結合位點(diǎn),或者是涉及某一個(gè)特定生物學(xué)過(guò)程的有共性的序列區段。比如蛋白質(zhì)的序列特異性結合位點(diǎn),如核酸酶和轉錄因子。

1.2. 研究motif的意義

??序列基序在基因調控分析中越來(lái)越重要。Motif并不局限于基因組DNA序列還是RNA序列,甚至蛋白質(zhì)序列也可以提取出相應的motif。通過(guò)序列信息的解析,我們可以解析生物學(xué)過(guò)程中的密碼。當某一個(gè)大類(lèi)的序列中,大量重復出現相同的序列結構的時(shí)候,就可能存在探索它意義的價(jià)值?;趍otif序列的提取,我們可以預測潛在的結合位點(diǎn)等等,有助于我們進(jìn)一步理解各生物學(xué)過(guò)程中涉及的生物學(xué)意義。比如轉錄因子的結合位點(diǎn),其motif往往意味著(zhù)某蛋白結構域與DNA堿基序列的相互作用。

1.3. motif的展示形式

??在我們的日常應用中,我們經(jīng)常會(huì )看到motif這個(gè)詞的出現,往往會(huì )伴隨著(zhù)這樣一張logo展示圖。這樣的logo經(jīng)常用于描述序列特征,如DNA中的蛋白質(zhì)結合位點(diǎn)等。motif logo由每個(gè)位置的一堆字母組成。字母的相對大小表示它們在序列中的頻率。每個(gè)字母的高度與該位置的相應堿基的出現頻率成正比,常以bits為單位。每個(gè)位置的字母按照保守性從大到小排列,可以方便的從頂端的字母識別保守序列。

圖 1

圖1 logo展示圖

??用一段序列來(lái)描述所有序列的堿基組成,稱(chēng)之為一致性序列。當一個(gè)位置涉及到多個(gè)堿基出現的時(shí)候,這里就涉及到簡(jiǎn)并堿基的使用。

??示例如圖2,在日常使用中,也經(jīng)常用“RRACH”來(lái)表示它。這個(gè)“RRACH”就是一種一致性序列的表示方式。

簡(jiǎn)并堿基正常堿基
RA/G
YC/T
MA/C
KG/T
SG/C
WA/T
HA/T/C
BG/T/C
VG/A/C
DG/A/T
NA/T/C/G

圖 2

圖2 logo示例

2. motif如何被預測?

??HOMER 是一套用于Motif查找和二代數據分析的工具。它不僅能檢測已知的motif,還能預測可能存在的未知motif。 這個(gè)預測新穎motif算法,設計用于在基因組學(xué)應用里的調控元件分析(這里的元件指DNA,而非蛋白質(zhì))。 它采取兩套序列,并試圖識別在其中一套序列上相對于另一套的特定富集的調控元件(比如說(shuō)我們的peaks序列相對于整個(gè)基因組序列)。它使用ZOOPS評分(0或1發(fā)生在每條序列上)與超幾何富集計算(或二項式)來(lái)確定motif富集。HOMER也盡力考慮數據集里的排序偏差。它的設計用于ChIP-Seq和啟動(dòng)子分析,但可以應用于幾乎任何核酸序列的motif發(fā)現。

??我們使用 Homer 子程序 findMotifsGenome.pl 進(jìn)行motif分析, findMotifsGenome.pl 命令用于在基因組區域中尋找富集Motifs。以下為結果的詳細解讀。


3. 結果列表說(shuō)明

Demo: motif_ZYN-H3K27ac - Homer Known Motif Enrichment Results

結果說(shuō)明:

結果說(shuō)明
homerMotifs.all.motifs由所有homerMotifs.motifs*組成的連接文件
homerMotifs.motifs10de novo 查找motif的輸出文件(motif長(cháng)度為10)
homerMotifs.motifs12de novo 查找motif的輸出文件(motif長(cháng)度為12)
homerMotifs.motifs8de novo 查找motif的輸出文件(motif長(cháng)度為8)
homerResults.html查找已知motifs的格式化輸出。
homerResults/子文件夾:包含homerResults.html網(wǎng)頁(yè)文件,
包括motif<#>.motif文件,用于尋找每個(gè)motif的具體實(shí)例。
knownResults.htmlde novo查找motif的格式化輸出。
knownResults/子文件夾:包含knownResults.html網(wǎng)頁(yè)文件,
包括known<#>.motif文件。
knownResults.txt包含關(guān)于已知motifs豐富的統計信息的文本文件(在EXCEL中打開(kāi))。
motifFindingParameters.txt用于執行findMotifsGenome.pl的命令,包含分析使用的參數
seq.autonorm.tsv用于lower-order oligo標準化的autonormalization統計。

3.1. 網(wǎng)頁(yè)可視化文件的表頭說(shuō)明

3.1.1. knownResults.html (Homer Known Motif Enrichment Results)

圖示:

圖 4

表頭說(shuō)明:

表頭說(shuō)明
Rank序號
Motifmotif序列可視化
P-value置信度計算結果
log P-pvalue計算log10P值結果
q-value (Benjamini)Benjamini模型計算的q值
# Target Sequences with Motif靶標序列
% of Targets Sequences with Motif靶標序列占總序列百分比
# Background Sequences with Motif背景序列
% of Background Sequences with Motif背景序列占總序列百分比
Motif Filemotif文件結果
SVGmotif的svg可視化文件

3.1.2. homerResults.html (Homer de novo Motif Results)

圖示:

圖 3

表頭說(shuō)明:

表頭說(shuō)明
Rank序號
Motifmotif序列可視化
P-value置信度計算結果
log P-pvaluelog P-pvalue 值
% of Targets靶標序列占總denovo序列百分比
% of Background背景序列占總denovo序列百分比
STD(Bg STD)靶標和背景的序列集出現偏離序列中心200bp的標準偏差
Best Match/Details最為匹配的結果
Motif Filemotif文件結果

3.2. 如理解輸出的Motif文件homerMotifs.*.motifs* ?

圖 1


第一行以一個(gè)“>”開(kāi)頭,后面跟著(zhù)各種信息,其他行是每個(gè)位置的各個(gè)核苷酸具體概率(A/C/G/T)。標題行實(shí)際上是用制表符分隔的,并包含以下信息:

1. “>”+序列(實(shí)際上不用于任何東西,可以是空的)示例:>NNATGASTCATH

2. motif名稱(chēng)(如果幾個(gè)motif在同一個(gè)文件中,應該是唯一的)。例子:Fra1(bZIP)/BT549-Fra1-ChIP-Seq(GSE46166)/Homer

3. log odds檢測閾值,用于確定結合的vs未結合位點(diǎn)。示例:7.011739

4. 富集的log-p值

5. 0(表示向后兼容性的占位符,在舊版本中用于描述“gapped” motif,結果證明它并不是很有用)

6. 發(fā)生的信息,用逗號分隔,例如: T:4.0(57.14%),B:3353.3(3.23%),P:1e-4

??- T: 帶motif的靶標序列數,占靶序列總數的%

??- B: 帶motif的背景序列數目,占總背景的%

??- P: 最終富集P值

7. 用逗號分隔的Motif統計信息(這一個(gè)信息是與鏈有關(guān)的,因為我的BED文件里鏈的哪一列沒(méi)有指定是+/-,我輸入的是.,所以這里沒(méi)有第7個(gè)信息),官網(wǎng)的例子:Tpos:100.7,Tstd:32.6,Bpos:100.1,Bstd:64.6,StrandBias:0.0,Multiplicity:1.13

??- Tpos: motif在目標序列中的平均位置(0 =序列開(kāi)始)

??- Tstd: 目標序列中位置的標準偏差

??- Bpos: motif在背景序列中的平均位置(0 =序列開(kāi)始)

??- Bstd: 背景序列中位置的標準差

??- StrandBias: 在+鏈出現與在-鏈出現的log比例。

??- Multiplicity: 在具有一個(gè)或多個(gè)結合位點(diǎn)的序列中,每個(gè)序列平均出現的次數。


一级做受毛片免费大片_国产精品亚洲综合一区在线观看_亚洲免费黄片基地_欧美 亚洲 图色 另类