REMP：预测全基因组重复元件DNA甲基化的R包

前言

REMP是一个通过学习周围遗传和表观遗传信息来预测不同基因座中性重复元件（RE）的DNA甲基化机器学习的工具。这些工具提供了使用基于阵列或基于测序的平台难以测量的RE的基因组或单碱基分辨率DNA甲基化预测，通过使用REMP能够进行表观遗传学关联研究（EWAS）和差异甲基化区域（DMR）分析,目前只支持Alu和LINE-1（L1）这两种元件。

软件安装：

source("https://bioconductor.org/biocLite.R")

biocLite("REMP")

在bioconductor中的链接：http://bioconductor.org/packages/release/bioc/html/REMP.html

使用手册地址：http://bioconductor.org/packages/release/bioc/manuals/REMP/man/REMP.pdf

1 生成需要预测的数据集

首先要得到目标元件的区域信息，可以通过initREMP函数进行提取。

data(Alu.demo)

remparcel<- initREMP(arrayType = '450k', REtype = 'Alu', RE =Alu.demo, ncore = 1)

saveParcel(remparcel) #保存数据为后面的预测所使用

getRECpG(remparcel)#获取RE中CpG位点的信息，其他类似的还有getRefGene（获取参考基因信息）和getRE（获取重复元件的信息）。

目前arrayType只支持450K和EPIC，REtype只提供Alu和LINE-1（L1）。

参数RE是指定的重复元件区域的信息，Alu.demo是程序包中默认的Alu的信息，LINE-1的信息可以通过fetchRMSK函数来挖掘：

ah <-AnnotationHub::AnnotationHub()

L1 <-fetchRMSK(ah, 'L1', verbose = TRUE)

L1parcel<- initREMP(arrayType = '450k', REtype = 'L1', RE = L1, ncore = 1)

1 识别不同基因座中的RE甲基化值

GM12878_450k <- getGM12878('450k')#获取GM12878甲基化450k数据

remp.res <- remp(GM12878_450k, REtype = 'Alu')

remp是核心的预测函数，输入的对象可以是用户上传的数据：data.table, data.frame, or matrix，行名是探针（行名必须是Illumina探针ID，如：cg00000029），列名是样本。method默认为”rf”随机森林，其他可供选择的还有” svmLinear”,” svmRadial”和” naive”。

groom参数默认为TRUE，可以进行数据的补缺失值，方法为K近邻法。

1 访问预测结果

rempM(object)：返回预测的M值。

rempB(object)：返回预测的beta值。

rempQC(object) ：返回预测的质量分数。

imp(object) ：返回预测指标的相对重要性。

stats(object) ：返回RE和基因覆盖的统计结果

annotation(object) ：返回预测的RE的注释信息。

也可以同果details函数查看预测结果的总体细节。

因为这个预测结果继承了Bioconductor中 RangedSummarizedExperiment这个类，因此可以直接调用相关的函数获取更加详细的信息。

如：rowRanges(remp.res) #提取预测结果位点的具体位置

1 上传数据测试

在实际的数据处理中，往往会有多个样本合并的而产生的甲基化矩阵的数据，例如在TCGA数据库中的数据。在此，小编使用了一套食管癌的合并后的甲基化数据进行测试。

library("data.table")

methy=fread("F:/数据重处理/。/原始文件/methy_total.txt",sep="\t",header=T,na.strings="NA") ##使用data.table包中fread可以快速的读入较大的数据

注：上传的数据必须含有Illumina探针ID（如：cg00000029），进行预测的数据中不能含有NA，并要进行质量控制、背景校正和标准化。

选取部分数据进行测试

从上图中可以看到各个样本的预测结果。

参考文献：

Zheng, Y., et al., Prediction of genome-wide DNA methylation in repetitive elements.Nucleic Acids Res, 2017. 45(15): p.8697-8711.

1 生成需要预测的数据集

1 识别不同基因座中的RE甲基化值

1 访问预测结果

1 上传数据测试

更多相关文章

随机推荐