
廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà):020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項目名稱(chēng):Chip差異Peak分析結果及報告
所屬分類(lèi):生物信息學(xué)分析-報告解讀
聯(lián)系電話(huà):020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
Chip差異Peak分析結果及報告
1. 概述
1.1. 背景及分析流程簡(jiǎn)介
??為了理解細胞中更為復雜的生物過(guò)程,許多研究已在通過(guò)比較ChIP-seq的差異獲得的不同數據。越來(lái)越多的ChIP-seq實(shí)驗正在研究多種實(shí)驗條件(例如各種治療條件,幾個(gè)不同的時(shí)間點(diǎn)和不同的治療劑量水平)下的轉錄因子結合,組蛋白修飾的差異。差異富集在生物學(xué)和醫學(xué)研究中已變得具有實(shí)際重要性。 為了建立對比條件消除誤差,我們對數據進(jìn)行了以下流程處理:我們首先將A與B兩組的結果進(jìn)行共有Peak區域基因計算,對于有共有區域(overlap)的Peak,計算最高峰位點(diǎn)并向其兩側各延伸250bp作為合并峰計算區域,對每個(gè)區域進(jìn)行的每組樣本進(jìn)行reads表達定量,進(jìn)行差異Peak的計算,篩選出差異Peak,進(jìn)行臨近3K注釋到基因上,進(jìn)行基因集富集分析。
??本組實(shí)驗結果,我們處理的是有兩組重復的DiffPeak數據對比,我們的差異Peak篩選標準為:|log2FC| > 1 && FDR < 0.05。
分析流程:

1.2. 結果匯總
| 路徑 | 說(shuō)明 |
|---|---|
差異Peak分析結果, 目錄: Results/ | |
Results/*DiffPeakInfo.xls | 差異Peak計算的所有結果 |
Results/*DiffPeakInfo.bed | 差異Peak計算的所有結果的bed文件 |
Results/*DiffPeakInfo_FC2-q0.05.xls | 差異Peak計算結果按閾值篩選后結果 |
Results/*DiffPeakInfo_FC2-q0.05.bed | 差異Peak計算結果按閾值篩選后結果的bed文件 |
Results/*DiffPeakInfo_FC2-q0.05_GAIN.bed | 差異Peak計算結果按閾值篩選后結果的bed文件(差異上調) |
Results/*DiffPeakInfo_FC2-q0.05_LOSS.bed | 差異Peak計算結果按閾值篩選后結果的bed文件(差異下調) |
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls | 差異Peak計算結果按閾值篩選后結果的臨近注釋文件 |
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls | 同上,差異Peak計算結果按閾值篩選后結果的臨近注釋文件 (按annotation(Promoter), Fold, FDR列排序) |
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno_gene.bed | 注釋到的基因(轉錄本)信息標記bed文件 |
差異Peak分析繪圖結果, 目錄: Results/Plot | |
Results/Plot/1cor_peakScore_*.png | peak相關(guān)性熱圖分析 |
Results/Plot/1pca_peakScore_*.png | peak相關(guān)性PCA分析 |
Results/Plot/2cor_readCount_*.png | 共有區域的readCount相關(guān)性熱圖分析 |
Results/Plot/2pca_readCount_*.png | 共有區域的readCount相關(guān)性PCA分析 |
Results/Plot/*_1cor.png | 差異Peak相關(guān)性熱圖分析 |
Results/Plot/*_2pca.png | 差異Peak的PCA分析 |
Results/Plot/*_3ma.png | 差異Peak的MA圖 |
Results/Plot/*_4vol.png | 差異Peak的火山圖 |
Results/Plot/*_5box.png | 差異Peak的箱型圖 |
Results/Plot/*_6heatmap.png | 差異Peak的熱圖 |
顯著(zhù)差異Peak的臨近基因集富集分析, 目錄: Results/Enrich/ | |
Results/3.Enrich/*/ | 各組差異Peak的臨近注釋基因集的富集分析結果目錄 |
Results/3.Enrich/*.html | 輔助查看富集結果的網(wǎng)頁(yè)文件 |
Results/3.Enrich/*/*-p.adjust1.00.csv | 富集分析結果列表(原始) |
Results/3.Enrich/*/*-p.adjust0.05.csv | 富集分析結果列表(按padj<0.05篩選后) |
Results/3.Enrich/*/*.pdf | 富集分析的繪圖高清文件 |
* 以上重要結果為加粗顯示。
2. 分析流程
2.1. 重疊區域的計算
2.1.1. PeakScore相關(guān)性分析
??為了進(jìn)行后續的差異Peak的富集程度比較,我們需要合并Peak比較區域,在overlap的共有區域計算前,我們需要先了解各組內的peak重復性情況。 對Treat組和Control組進(jìn)行PeakScore相關(guān)性熱圖分析,PCA分析。
Results/Plot/1cor_peakScore_Demo_A-B.png ![]() | Results/Plot/1cor_peakScore_Demo_C-D.png ![]() |
Results/Plot/1pca_peakScore_Demo_A-B.png ![]() | Results/Plot/1pca_peakScore_Demo_C-D.png ![]() |
2.1.2. readsCount相關(guān)性分析
??我們選取至少含有overlap區域>=2個(gè)樣本的callPeak區域結果,計算最高峰位點(diǎn)并向其兩側各延伸250bp作為合并峰計算區域,對每個(gè)區域每組樣本進(jìn)行reads表達定量。 隨后,我們對各組進(jìn)行readsCount的相關(guān)性熱圖分析,PCA分析。
Results/Plot/2cor_readCount_Demo_A-B.png ![]() | Results/Plot/2cor_readCount_Demo_C-D.png ![]() |
Results/Plot/2pca_readCount_Demo_A-B.png ![]() | Results/Plot/2pca_readCount_Demo_C-D.png ![]() |
2.2. 差異Peak的計算
2.2.1. 差異Peak的相關(guān)性計算及顯著(zhù)性差異Peak的篩選
??通過(guò)計算兩組之間的合并區域的表達差異,我們能獲得兩組比較計算的差異Peak所有結果。 通過(guò)相關(guān)性熱圖及PCA,可以看出組內的差異peak計算的相關(guān)性好壞,一般而言好的結果能明顯區分開(kāi)。 通過(guò)閾值|log2FC| > 1 & FDR < 0.05進(jìn)行篩選獲得顯著(zhù)差異Peak篩選結果,進(jìn)行相關(guān)性熱圖,PCA,火山圖,熱圖繪制如下。
??通過(guò)差異Peak分析,我們得到了基因組范圍內的差異Peak信息,為進(jìn)一步得到差異Peak附近的臨近基因信息,我們使用Chipseeker進(jìn)行進(jìn)一步注釋?zhuān)玫絇eak所對應的臨近注釋基因,并給出Peak在Promoter的上下游3k,或之外的Intron、Exon等區域的位置及距離等信息的注釋文件: Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls。
Results/Plot/Demo_A-vs-B_1cor.png ![]() | Results/Plot/Demo_C-vs-D_1cor.png ![]() |
Results/Plot/Demo_A-vs-B_2pca.png ![]() | Results/Plot/Demo_C-vs-D_2pca.png ![]() |
Results/Plot/Demo_A-vs-B_4vol.png ![]() | Results/Plot/Demo_C-vs-D_4vol.png ![]() |
Results/Plot/Demo_A-vs-B_6heatmap.png ![]() | Results/Plot/Demo_C-vs-D_6heatmap.png ![]() |
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls表頭說(shuō)明:
| 表頭 | 說(shuō)明 |
|---|---|
peakname | 差異Peak的name |
seqnames | 差異Peak所在染色體 |
start | 差異Peak在參考序列上的起始位置 |
end | 差異Peak在參考序列上的終止位置 |
width | 差異Peak的長(cháng)度信息 |
strand | 正負鏈信息 |
Conc | Group1和Group2平均值進(jìn)行log2標準化后的計數 |
Conc_Group1 | Group1進(jìn)行log2標準化后的計數 |
Conc_Group2 | Group2進(jìn)行log2標準化后的計數 |
Fold | Group1與Group2的差異倍數(進(jìn)行log2標準化) |
p.value | 差異Peak的置信度計算 |
FDR | 差異Peak的多重校驗FDR |
change | 上下調標記,上調標記為GAIN,下調標記為L(cháng)OSS |
annotation | peak注釋信息(對于注釋到基因上等注釋信息的描述) |
geneChr | 注釋基因的染色體信息 |
geneStart | 注釋基因的起始位置 |
geneEnd | 注釋基因的終止位置 |
geneLength | 注釋基因的長(cháng)度 |
geneStrand | 注釋基因的正負鏈 |
geneId | 注釋基因的EntrezID |
transcriptId | 注釋基因的轉錄本名字 |
distanceToTSS | 被注釋Peak距離TSS的距離 |
ENSEMBL | 注釋基因的ENSEMBL名 |
SYMBOL | 注釋基因的SYMBOL名 |
GENENAME | 注釋基因的基本描述信息 |
2.2.2. 差異Peak注釋基因的富集分析
??將上述臨近注釋得到的基因集,進(jìn)一步進(jìn)行GO和KEGG富集分析,得到差異Peak篩選結果的臨近注釋基因富集結果。結果文件說(shuō)明及解讀,同CHIP標準分析流程報告。
??結果目錄: Results/Enrich/
3. 結果的IGV可視化
??為了得到較為直觀(guān)的測序分析結果,我們一般需要借助可視化工具,IGV在這個(gè)過(guò)程中扮演十分出色的角色,他不僅展示了不同樣本測序覆蓋情況,還常常用于聯(lián)合分析,如mRNA的測序變化與chip測序的變化。 在此項目中,我們用于差異Peak的篩選與評估,我們可將分析結果文件導入,步驟如下:
導入CHIP分析結果,即前面我們的Chip標準分析結果中
.bigwig與.narrowPeak文件。導入CHIP的差異Peak分析結果,即本分析中所得到的bed結果。
調節數據顯示范圍:
bigwig 高度范圍顯示調節:按住
ctrl / command選中多個(gè).bigwig文件,右擊點(diǎn)擊Set Data Range...。 為方便對比,在對比不同區域Peak時(shí),可手動(dòng)調節顯示范圍。bed / gene 重疊區域展開(kāi)設置: 右擊bed文件,點(diǎn)擊
Expanded設置展開(kāi)。搜索感興趣的
Peakname / SYMBOL: 在第一排第三個(gè)框內輸入Peakname / SYMBOL名,點(diǎn)擊GO即可搜索。如果搜索不到,可嘗試點(diǎn)擊Reload重新加載。
篩選的 Peakname / SYMBOL 的一些方法:
搜索感興趣的Peak,可參考:
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls,該文件按annotation(Promoter), Fold, FDR列排序, 即Promoter上游3K區域差異倍數較大的結果將被優(yōu)先排序。 排名較前的結果具有一定的顯著(zhù)差異Peak篩選價(jià)值。搜索感興趣的Gene,可根據生物學(xué)功能研究,挑選出較有意義的功能富集結果的基因集,反向去看差異Peak變化情況。 上述分析的功能富集結果具有一定的參考意義。
Demo展示:
??一個(gè)示例如下,在該IGV中通過(guò)可視化,可讀出的信息有:在 A vs B 的差異Peak對比中, Peakname 為 54218, 54219, 54220, 54221 的這些Peak比較區域, A相對B具有顯著(zhù)下調趨勢,它們都被臨近注釋到CCL2基因上,注釋類(lèi)型為3K內的Promoter。
示例圖:

















