服務(wù)目錄

技術(shù)服務(wù)

技術(shù)專(zhuān)題

聯(lián)系我們

廣州賽誠生物科技有限公司
廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà)：020-85625352
手機：18102256923、18102253682
Email：servers@gzscbio.com
Fax：020-85625352
QQ：386244141

您當前所在的位置：首頁(yè)>>服務(wù)目錄(停用) >>分子機制實(shí)驗平臺 >>生物信息學(xué)分析-報告解讀

Chip差異Peak分析結果及報告

項目名稱(chēng)：Chip差異Peak分析結果及報告

所屬分類(lèi)：生物信息學(xué)分析-報告解讀

聯(lián)系電話(huà)：020-85625352

QQ：386244141

Email：servers@gzscbio.com

技術(shù)服務(wù)描述

Chip差異Peak分析結果及報告

1. 概述

1.1. 背景及分析流程簡(jiǎn)介

??為了理解細胞中更為復雜的生物過(guò)程，許多研究已在通過(guò)比較ChIP-seq的差異獲得的不同數據。越來(lái)越多的ChIP-seq實(shí)驗正在研究多種實(shí)驗條件（例如各種治療條件，幾個(gè)不同的時(shí)間點(diǎn)和不同的治療劑量水平）下的轉錄因子結合，組蛋白修飾的差異。差異富集在生物學(xué)和醫學(xué)研究中已變得具有實(shí)際重要性。為了建立對比條件消除誤差，我們對數據進(jìn)行了以下流程處理：我們首先將A與B兩組的結果進(jìn)行共有Peak區域基因計算，對于有共有區域(overlap)的Peak，計算最高峰位點(diǎn)并向其兩側各延伸250bp作為合并峰計算區域，對每個(gè)區域進(jìn)行的每組樣本進(jìn)行reads表達定量，進(jìn)行差異Peak的計算，篩選出差異Peak，進(jìn)行臨近3K注釋到基因上，進(jìn)行基因集富集分析。

??本組實(shí)驗結果，我們處理的是有兩組重復的DiffPeak數據對比，我們的差異Peak篩選標準為：|log2FC| > 1 && FDR < 0.05。

分析流程:

1.2. 結果匯總

路徑	說(shuō)明
差異Peak分析結果, 目錄: `Results/`
`Results/*DiffPeakInfo.xls`	差異Peak計算的所有結果
`Results/*DiffPeakInfo.bed`	差異Peak計算的所有結果的bed文件
`Results/*DiffPeakInfo_FC2-q0.05.xls`	差異Peak計算結果按閾值篩選后結果
`Results/*DiffPeakInfo_FC2-q0.05.bed`	差異Peak計算結果按閾值篩選后結果的bed文件
`Results/*DiffPeakInfo_FC2-q0.05_GAIN.bed`	差異Peak計算結果按閾值篩選后結果的bed文件（差異上調）
`Results/*DiffPeakInfo_FC2-q0.05_LOSS.bed`	差異Peak計算結果按閾值篩選后結果的bed文件（差異下調）
`Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls`	差異Peak計算結果按閾值篩選后結果的臨近注釋文件
`Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls`	同上，差異Peak計算結果按閾值篩選后結果的臨近注釋文件（按annotation(Promoter), Fold, FDR列排序）
`Results/*DiffPeakInfo_FC2-q0.05_PeakAnno_gene.bed`	注釋到的基因(轉錄本)信息標記bed文件
差異Peak分析繪圖結果, 目錄: `Results/Plot`
`Results/Plot/1cor_peakScore_*.png`	peak相關(guān)性熱圖分析
`Results/Plot/1pca_peakScore_*.png`	peak相關(guān)性PCA分析
`Results/Plot/2cor_readCount_*.png`	共有區域的readCount相關(guān)性熱圖分析
`Results/Plot/2pca_readCount_*.png`	共有區域的readCount相關(guān)性PCA分析
`Results/Plot/*_1cor.png`	差異Peak相關(guān)性熱圖分析
`Results/Plot/*_2pca.png`	差異Peak的PCA分析
`Results/Plot/*_3ma.png`	差異Peak的MA圖
`Results/Plot/*_4vol.png`	差異Peak的火山圖
`Results/Plot/*_5box.png`	差異Peak的箱型圖
`Results/Plot/*_6heatmap.png`	差異Peak的熱圖
顯著(zhù)差異Peak的臨近基因集富集分析, 目錄: `Results/Enrich/`
`Results/3.Enrich/*/`	各組差異Peak的臨近注釋基因集的富集分析結果目錄
`Results/3.Enrich/*.html`	輔助查看富集結果的網(wǎng)頁(yè)文件
`Results/3.Enrich//-p.adjust1.00.csv`	富集分析結果列表（原始）
`Results/3.Enrich//-p.adjust0.05.csv`	富集分析結果列表（按padj<0.05篩選后）
`Results/3.Enrich//.pdf`	富集分析的繪圖高清文件

* 以上重要結果為加粗顯示。

2. 分析流程

2.1. 重疊區域的計算

2.1.1. PeakScore相關(guān)性分析

??為了進(jìn)行后續的差異Peak的富集程度比較，我們需要合并Peak比較區域，在overlap的共有區域計算前，我們需要先了解各組內的peak重復性情況。對Treat組和Control組進(jìn)行PeakScore相關(guān)性熱圖分析，PCA分析。

Results/Plot/1cor_peakScore_Demo_A-B.png	Results/Plot/1cor_peakScore_Demo_C-D.png
Results/Plot/1pca_peakScore_Demo_A-B.png	Results/Plot/1pca_peakScore_Demo_C-D.png

2.1.2. readsCount相關(guān)性分析

??我們選取至少含有overlap區域>=2個(gè)樣本的callPeak區域結果，計算最高峰位點(diǎn)并向其兩側各延伸250bp作為合并峰計算區域，對每個(gè)區域每組樣本進(jìn)行reads表達定量。隨后，我們對各組進(jìn)行readsCount的相關(guān)性熱圖分析，PCA分析。

Results/Plot/2cor_readCount_Demo_A-B.png	Results/Plot/2cor_readCount_Demo_C-D.png
Results/Plot/2pca_readCount_Demo_A-B.png	Results/Plot/2pca_readCount_Demo_C-D.png

2.2. 差異Peak的計算

2.2.1. 差異Peak的相關(guān)性計算及顯著(zhù)性差異Peak的篩選

??通過(guò)計算兩組之間的合并區域的表達差異，我們能獲得兩組比較計算的差異Peak所有結果。通過(guò)相關(guān)性熱圖及PCA，可以看出組內的差異peak計算的相關(guān)性好壞，一般而言好的結果能明顯區分開(kāi)。通過(guò)閾值|log2FC| > 1 & FDR < 0.05進(jìn)行篩選獲得顯著(zhù)差異Peak篩選結果，進(jìn)行相關(guān)性熱圖，PCA，火山圖，熱圖繪制如下。

??通過(guò)差異Peak分析，我們得到了基因組范圍內的差異Peak信息，為進(jìn)一步得到差異Peak附近的臨近基因信息，我們使用Chipseeker進(jìn)行進(jìn)一步注釋?zhuān)玫絇eak所對應的臨近注釋基因，并給出Peak在Promoter的上下游3k，或之外的Intron、Exon等區域的位置及距離等信息的注釋文件: Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls。

Results/Plot/Demo_A-vs-B_1cor.png	Results/Plot/Demo_C-vs-D_1cor.png
Results/Plot/Demo_A-vs-B_2pca.png	Results/Plot/Demo_C-vs-D_2pca.png
Results/Plot/Demo_A-vs-B_4vol.png	Results/Plot/Demo_C-vs-D_4vol.png
Results/Plot/Demo_A-vs-B_6heatmap.png	Results/Plot/Demo_C-vs-D_6heatmap.png

Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls表頭說(shuō)明：

表頭	說(shuō)明
`peakname`	差異Peak的name
`seqnames`	差異Peak所在染色體
`start`	差異Peak在參考序列上的起始位置
`end`	差異Peak在參考序列上的終止位置
`width`	差異Peak的長(cháng)度信息
`strand`	正負鏈信息
`Conc`	Group1和Group2平均值進(jìn)行log2標準化后的計數
`Conc_Group1`	Group1進(jìn)行log2標準化后的計數
`Conc_Group2`	Group2進(jìn)行log2標準化后的計數
`Fold`	Group1與Group2的差異倍數（進(jìn)行log2標準化）
`p.value`	差異Peak的置信度計算
`FDR`	差異Peak的多重校驗FDR
`change`	上下調標記，上調標記為GAIN，下調標記為L(cháng)OSS
`annotation`	peak注釋信息（對于注釋到基因上等注釋信息的描述）
`geneChr`	注釋基因的染色體信息
`geneStart`	注釋基因的起始位置
`geneEnd`	注釋基因的終止位置
`geneLength`	注釋基因的長(cháng)度
`geneStrand`	注釋基因的正負鏈
`geneId`	注釋基因的EntrezID
`transcriptId`	注釋基因的轉錄本名字
`distanceToTSS`	被注釋Peak距離TSS的距離
`ENSEMBL`	注釋基因的ENSEMBL名
`SYMBOL`	注釋基因的SYMBOL名
`GENENAME`	注釋基因的基本描述信息

2.2.2. 差異Peak注釋基因的富集分析

??將上述臨近注釋得到的基因集，進(jìn)一步進(jìn)行GO和KEGG富集分析，得到差異Peak篩選結果的臨近注釋基因富集結果。結果文件說(shuō)明及解讀，同CHIP標準分析流程報告。

??結果目錄： Results/Enrich/

3. 結果的IGV可視化

??為了得到較為直觀(guān)的測序分析結果，我們一般需要借助可視化工具，IGV在這個(gè)過(guò)程中扮演十分出色的角色，他不僅展示了不同樣本測序覆蓋情況，還常常用于聯(lián)合分析，如mRNA的測序變化與chip測序的變化。在此項目中，我們用于差異Peak的篩選與評估，我們可將分析結果文件導入，步驟如下：

導入CHIP分析結果，即前面我們的Chip標準分析結果中.bigwig與.narrowPeak文件。
導入CHIP的差異Peak分析結果，即本分析中所得到的bed結果。
調節數據顯示范圍：

bigwig 高度范圍顯示調節：按住 ctrl / command 選中多個(gè).bigwig文件，右擊點(diǎn)擊 Set Data Range...。為方便對比，在對比不同區域Peak時(shí)，可手動(dòng)調節顯示范圍。
bed / gene 重疊區域展開(kāi)設置：右擊bed文件，點(diǎn)擊 Expanded 設置展開(kāi)。

搜索感興趣的 Peakname / SYMBOL：在第一排第三個(gè)框內輸入Peakname / SYMBOL名，點(diǎn)擊GO即可搜索。如果搜索不到，可嘗試點(diǎn)擊Reload重新加載。

篩選的 Peakname / SYMBOL 的一些方法：

搜索感興趣的Peak，可參考：Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls，該文件按annotation(Promoter), Fold, FDR列排序，即Promoter上游3K區域差異倍數較大的結果將被優(yōu)先排序。排名較前的結果具有一定的顯著(zhù)差異Peak篩選價(jià)值。
搜索感興趣的Gene，可根據生物學(xué)功能研究，挑選出較有意義的功能富集結果的基因集，反向去看差異Peak變化情況。上述分析的功能富集結果具有一定的參考意義。

Demo展示：

??一個(gè)示例如下，在該IGV中通過(guò)可視化，可讀出的信息有：在 A vs B 的差異Peak對比中， Peakname 為 54218, 54219, 54220, 54221 的這些Peak比較區域， A相對B具有顯著(zhù)下調趨勢，它們都被臨近注釋到CCL2基因上，注釋類(lèi)型為3K內的Promoter。

示例圖：