组蛋白修饰预测基因表达

摘要

组蛋白经常用共价修饰进行装饰。这些组蛋白修饰被认为参与各种染色质依赖性过程，包括转录。为了阐明组蛋白修饰和转录之间的关系，文中得出了定量模型来预测组蛋白修饰水平的基因表达水平。发现组蛋白修饰水平和基因表达非常相关。此外，文中显示只有少量的组蛋白修饰是准确预测基因表达所必需的。不同组的组蛋白修饰对于预测由高CpG含量启动子（HCP）或低CpG含量启动子（LCP）驱动的基因表达是必要的。H3K4me3和H3K79me1的定量模型是LCP中表达水平的预测指标，而HCPs需要H3K27ac和H4K20me1。最后，文中显示组蛋白修饰和基因表达之间的联系似乎是泛化的，能够使用另一种细胞训练的模型来预测一种细胞类型的基因表达水平。

数据：

基因组生物信息学网站（http://genome.ucsc.edu/）的人类基因组序列的RefSeq基因注释信息。

CD4 + T细胞ChIP-Seq数据，其中包括19个赖氨酸或精氨酸组蛋白甲基化的分布，一个H2A.Z组蛋白变体和19个组蛋白乙酰化。通过添加或减少73个碱基对（分别映射到+或 - 链的标签）来转化这些坐标，因此将标签定位在核小体上。然后将标签映射到围绕RefSeq基因的TSS的4,001个碱基对区域。将该区域中的标签相加作为组蛋白修饰水平的估计。每个基因有39个组蛋白修饰值（每个修饰一个）。

1、组蛋白修饰水平预测CD4 +T细胞中的基因表达：

使用线性回归预测表达式。整个数据集分为两个随机集D1（4,934个启动子）和D2（9,868个启动子）。每个修饰i和启动子j由围绕TSS的4,001个碱基对区域中的标签计数Nij的和表示，以log转换, 一些Nij是零，在每个修饰的水平上添加一个伪因子αi，以保证对数被定义(N‘ij=log(Nij+αi))。选择可以最大化N’ij与表达值相关性的αi（使用D1随机集估计）。然后，剩余的9,868个启动子建立了一个线性回归模型（全模型），其中整套修饰和对照IgG数据用作输入。

建模框架。模型是将组蛋白修饰水平与测得的表达值线性相关的方程。 N‘i对应于长度L（启动子数）的向量，其中组分是组蛋白修饰i的转化水平（N’i =log(Ni +αi)，其中Ni代表每个启动子中的标签数），a是y 截距，并且bi是N'i相关的斜率。y表示长度L的向量，其分量是表达式值。

通过拟和及测量的表达值之间的Pearson相关系数r来评估模型的性能。全模型的预测相关性，全模型与表达（r =0.77，p检验<2.2e-16的p值）非常相关，清楚地表明启动子上的组蛋白修饰量与表达水平良好相关。

为了研究是否所有的修饰对拟合基因表达模型的都有重要影响，文章使用一到三个修饰的组合构建了模型。

文中确定了的一种修饰（rmax =0.72，H3K27ac），两种修饰（rmax =0.74，H3K27ac+ H4K20me1）和三修饰模型（rmax =0.75，H3K27ac+ H3K4me1 + H4K20me1）与表达有很好的相关性。

这些结果表明，并非所有修饰同样重要，可能是由于冗余度高。此外，单一修饰（H3K27ac）的水平可用于较好地模拟基因表达。然而，预测精度随着修饰的增加而增加。这种增加不仅仅是依赖较高的模型复杂度（考虑到更多的修改，模型越复杂），为了证实这一点，我们使用了贝叶斯信息准则（BIC），只要BIC的值减少，增加模型的复杂度就是有益的。 BIC值持续下降，表明不是预测准确性增加的模型复杂度。然而，使用四个以上修饰后，BIC值仅略有下降。

研究结果表明启动子上只有三个修饰的水平足以忠实地模拟相关基因的表达。

为了识别含有关于基因表达的大部分信息修饰，文章专注于三修饰模型。确定了所有三种修饰模型，其Pearson相关系数r达到全模型获得的95％以上（rfull =0.77）。有142个模型满足了这个标准。•研究结果表明，四组组蛋白修饰H4K20me1，H3K27ac，H3K79me1和H2BK5ac。在模型组（超几何测试7.58e-50,8.95e-46,7.83e-30，2.88e-27的p值）中显着地过度表达，分别占研究模型的大约一半（57.7％，54.9.5％，42.9％，40.8％）。

剩余的组蛋白修饰出现在最多7％的模型中，来自随机抽样的预期频率（超几何检验的p值为0.47）。仅在少数最佳模型中发现了Goat和兔IgG（2.11％和3.52％，超几何测试的p值分别为0.99和0.95），这表明它们对预测精度没有显着贡献。这与在这些变量上训练的单修饰模型的预测精度较低（rgoat：IgG =0.15; rrabbit：IgG =0.09）的事实表明，使用线性模型的高预测精度组蛋白修饰作为预测因子不仅仅是开放性染色质可接近性的结果。过表达分析结果对阈值的变化是鲁棒的。因此，H4K20me1，H3K27ac，H3K79me1和H2BK5ac似乎是与基因表达水平相关的最重要的修饰。

此外，在3修饰模型中，H3K27ac和H2BK5ac在一组最佳评分模型中仅出现两次，表明他们提供的信息是多余的，而且他们的水平高度相关（r =0.97）。H4K20me1和H3K79me1仅在142种模型中的三种中共同出现，表明它们至少部分是多余的。同时发现，在几乎所有142种模型（92.9％）中，H3K27ac或H2BK5ac与H4K20me1或H3K79me1一起出现。

2、高低cpg含量的启动子区域组蛋白修饰的差异性

鉴于建模和测量表达值之间的良好一致性，进一步分析模型，以推断不同组蛋白修饰与不同组的启动子之间的关系。更具体地说，将启动子分为LCP和HCP。这是由于HCP中的核小体几乎总是用H3K4me3装饰的事实，而LCP中的核小体仅在表达时才携带该修饰。H3K4me3被认为是转录启动的标志。文中推断，如果这些启动子被不同的组蛋白修饰标记，组蛋白修饰的预测能力也应该在这两组启动子之间不同。

文章根据其CpG含量分为两类启动子，其中2,779个LCP和7,089个HCP，并且在10倍交叉验证设置中分别确定两组的全模型的回归参数。作为第一个结果，作者观察到LCPs的预测精度（r =0.72）与HCPs相当（r =0.75）。

作者继续为两套启动子分别开发了具有一修饰、两修饰和三修饰的所有组合的模型。对于HCP，发现模型的整体排秩与所有启动子确定的模型排秩非常相似。这并不奇怪，因为HCPs占所有分析的启动子的72％，这表明所有启动子的结果都是由HCP所主导的。对于LCP，与所有启动子相比，模型的排秩发生变化，尽管对于单修饰模型，H3K27ac仍然是最佳相关修饰（r =0.65）。

引人注目的是，考虑到两种修饰的组合，发现H3K4me3和H3K79me1组合的模型表现最好（r =0.69，与H3K27ac和H3K79me1r = 0.67相比）。接下来，确定了在最佳性能的三修饰模型中的过表达修饰。H4K20me1和H3K27ac（以及可能的H2BK5ac）在HCPs的最佳评分模型中显着地过表达（超几何测试的9.9e-43,2.58e-31和0.003的p值）。

H3K4me3和H3K79me1在LCPs（分别为超几何测试9.71e-36和2.1e-34的p值）中显着过表达，表明不同的修饰对于这两组中基因表达的预测是重要的。•为了进一步了解与HCP和LCP的基因表达高度相关的组蛋白修饰的可能功能，检查了在转录起始位点（TSS）周围的区域中这五个修饰的平均标准化标签密度，简称定位分析。

发现H3K4me3，H3K27ac和H2BK5ac在启动子上具有最高的水平， TSS下游约100个碱基对达到最高峰。H3K79me1沿着基因体富集，H4K20me1显示两种不同的模式：在与H3K4me3和H3K27ac相似的位置附近的启动子峰，以及跨基因体区域的进一步富集。

这些组蛋白修饰的定位表明H3K27ac，H2BK5ac，H3K4me3和H4K20me1在转录起始和/或启动子清除过程中起作用，而H3K79me1和H4K20me1参与转录延伸。

3、组蛋白修饰水平预测不同细胞类型的基因表达

文中显示仅包含四个组蛋白修饰信息的模型可以准确预测给定细胞类型内的基因表达水平。接下来，测试一种细胞类型的数据训练的模型是否可以用于预测另一种细胞类型的基因表达。获得组织蛋白修饰的基因组位置数据（chip-seq）以及CD36+和CD133+细胞中的微阵列基因表达值（25）。通过首先在两个各自的表达值之间拟合回归线，然后在CD36+或CD133 +细胞中转化表达值，从而将两个细胞系的表达值相对于CD4 + T细胞中的表达值归一化。确定最佳假阳性，并如上所述转化组蛋白修饰数据。

分析仅限于在所有三种细胞类型中共有的九种组蛋白修饰（H3K4me1/ 3，H3K27me1/ 3，H2A.Z，H4K20me1，H3K9me1/ 3和H3K36me3）。对CD4 +数据进行了线性模型训练。运用经过训练的模型参数，预测了在CD36+和CD133+细胞中测定的组蛋白修饰数据的基因表达水平。

使用在CD4 +T细胞中测量的九个组蛋白修饰的数据来训练线性模型的参数。然后将这些参数用于预测CD36+细胞（C-E）中测定的组蛋白修饰标签计数的CD36+中基因的表达值。对所有基因（C），其表达变化至少为2倍的基因（D）或其CD4 +和CD36+细胞之间的表达变化至少为10倍（E）的基因进行分析。

同样，用CD4 +T细胞数据训练的参数用于预测在CD133+细胞（F-H）中测定的组蛋白修饰标签计数的CD133+中基因的表达值。对所有基因（F），或在CD4 +和CD133+细胞之间其表达改变至少2倍（G）的基因或其表达变化至少10倍（H）的基因进行分析。

总之，作者发现组蛋白修饰的水平与基因表达有很好的相关性，并且这种关系可以在不同的细胞类型之间进行泛化。此外，分析显示，重要修饰的数量可以从39个减少到4个，表明这四个修饰可能在转录过程中起重要作用，既加强彼此，也可以组合方式。文中还发现，在将启动子分离成LCP和HCP后，发现不同的组蛋白修饰是必要的的，这表明这些启动子受到不同的调控。

参考文献：

Karlic, R., et al., Histone modification levels are predictivefor gene expression. Proc Natl Acad Sci U S A, 2010. 107(7): p. 2926-31.

往期「精彩内容」，点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍 | 源码安装R包 | CancerLocator | lme4 | 450K分析

乳腺癌异质性 | BS-Seq | 隐马模型 | Circos安装 | Circos画图

KEGG标记基因 | GDSC | Meta分析 | R线性回归和相关矩阵

精彩会议及课程，点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列（一）

2017龙星课程系列（二）
2017龙星课程系列（三）

2017龙星课程系列（四）

2017龙星课程系列（五）

更多相关文章

随机推荐