前言

REMP是一个通过学习周围遗传和表观遗传信息来预测不同基因座中性重复元件(RE)的DNA甲基化机器学习的工具。这些工具提供了使用基于阵列或基于测序的平台难以测量的RE的基因组或单碱基分辨率DNA甲基化预测,通过使用REMP能够进行表观遗传学关联研究(EWAS)和差异甲基化区域(DMR)分析,目前只支持Alu和LINE-1(L1)这两种元件。


软件安装:

source("https://bioconductor.org/biocLite.R")

biocLite("REMP")

在bioconductor中的链接:http://bioconductor.org/packages/release/bioc/html/REMP.html

使用手册地址:http://bioconductor.org/packages/release/bioc/manuals/REMP/man/REMP.pdf


1 生成需要预测的数据集


首先要得到目标元件的区域信息,可以通过initREMP函数进行提取。

data(Alu.demo)

remparcel<- initREMP(arrayType = '450k', REtype = 'Alu', RE =Alu.demo, ncore = 1)

saveParcel(remparcel)   #保存数据为后面的预测所使用

getRECpG(remparcel)#获取RE中CpG位点的信息,其他类似的还有getRefGene(获取参考基因信息)和getRE(获取重复元件的信息)。

目前arrayType只支持450K和EPIC,REtype只提供Alu和LINE-1(L1)。

参数RE是指定的重复元件区域的信息,Alu.demo是程序包中默认的Alu的信息,LINE-1的信息可以通过fetchRMSK函数来挖掘:

ah <-AnnotationHub::AnnotationHub()

L1 <-fetchRMSK(ah, 'L1', verbose = TRUE)

L1parcel<- initREMP(arrayType = '450k', REtype = 'L1', RE = L1, ncore = 1)


1 识别不同基因座中的RE甲基化值


GM12878_450k <- getGM12878('450k')#获取GM12878甲基化450k数据

remp.res <- remp(GM12878_450k, REtype = 'Alu')

remp是核心的预测函数,输入的对象可以是用户上传的数据:data.table, data.frame, or matrix,行名是探针(行名必须是Illumina探针ID,如:cg00000029),列名是样本。method默认为”rf”随机森林,其他可供选择的还有” svmLinear”,” svmRadial”和” naive”。

groom参数默认为TRUE,可以进行数据的补缺失值,方法为K近邻法。


1 访问预测结果


rempM(object):返回预测的M值。

rempB(object):返回预测的beta值。

rempQC(object) :返回预测的质量分数。

imp(object) :返回预测指标的相对重要性。

stats(object) :返回RE和基因覆盖的统计结果

annotation(object) :返回预测的RE的注释信息。


也可以同果details函数查看预测结果的总体细节。


因为这个预测结果继承了Bioconductor中 RangedSummarizedExperiment这个类,因此可以直接调用相关的函数获取更加详细的信息。

如:rowRanges(remp.res)  #提取预测结果位点的具体位置


1 上传数据测试


在实际的数据处理中,往往会有多个样本合并的而产生的甲基化矩阵的数据,例如在TCGA数据库中的数据。在此,小编使用了一套食管癌的合并后的甲基化数据进行测试。

library("data.table")

methy=fread("F:/数据重处理/。/原始文件/methy_total.txt",sep="\t",header=T,na.strings="NA")       ##使用data.table包中fread可以快速的读入较大的数据

注:上传的数据必须含有Illumina探针ID(如:cg00000029),进行预测的数据中不能含有NA,并要进行质量控制、背景校正和标准化。


选取部分数据进行测试

从上图中可以看到各个样本的预测结果。


参考文献:


Zheng, Y., et al., Prediction of genome-wide DNA methylation in repetitive elements.Nucleic Acids Res, 2017. 45(15): p.8697-8711.


©著作权归作者所有:来自51CTO博客作者mob604756f4ef89的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. Affinity Photo 的“角色”为你提供得心应手的工具
  2. UCSC浏览器的可视化
  3. 携程数据库高可用架构实践
  4. 自动驾驶硬件研发的挑战与展望
  5. 图推荐算法在E&E问题上的应用
  6. 领英暂停中国区用户注册,会是下一个Zoom吗?
  7. 从理解到改进:非自回归翻译中的词汇选择 | 腾讯 AI 论文解读
  8. 机器学习,像极了一场足球比赛
  9. vmware.exe命令行参数详解

随机推荐

  1. android 属性介绍
  2. SeekBar圆球显示问题
  3. Android横竖屏要解决的问题
  4. Android NDK环境搭建及sample展示
  5. android 入门xml布局文件
  6. Android设备功能之录音教程篇
  7. adt-bundle和android studio下载地址(不定
  8. android之使用mvn构建创造项目步骤
  9. 常用Android开发组件之图像类组件
  10. Android Studio创建计算器Demo