论文精读-DeepBind预测DNA/RNA蛋白结合位点-2015


Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning

  • 杂志: Nature Biotechnology
  • IF:
  • 分区:

Introduction

  1. DNA,比如控制转录或可变剪切,而其功能和其特异性的序列相关。
  2. position weight matrices(PWMs)可以用来描述这种序列特异性,并且易于解释。
  3. 一些新的、更加复杂的技术能够更加准确的来描绘序列特异性,本研究提出了一种基于Deep Learning的技术,称为DeepBind,能够发现新的patterns。

使用高通量数据来进行序列特异性的建模有下面几个问题:

  • 来自不同技术的数据有着不同的形式。
  • 高通量数据一般比较多,有10000-100000条序列。
  • 不同类别的数据有着不同的偏移和限制。

而DeepBind依次解决了上述问题:

  • 其可以应用于微阵列数据或序列数据
  • 使用GPU来加快训练
  • 在这个数据间泛化良好,甚至没有进行校正
  • 可以允许一定的噪声
  • 可以自动化的进行训练,减少了手动调参的工作
  • 最后,可以类似PWMs一样进行可视化,从而提供一定的可解释性


Methods

数据

序列长度14-101nt不等,每条序列有一个binding score,可以是real-value或binary class labels。

模型


  1. 首先经过一层CNN,然后进行global max pooling,这样每个序列得到一个相同长度的表示向量。

  2. 将此向量送入MLP进行预测,然后和binding score计算loss,反向传播进行训练。loss为:


为了能够进行自动化地训练,这里:

  1. 对于每个需要训练的模型,随机采样30组参数;
  2. 3-CV训练并计算测试集误差,选择最好的那组参数。

完整的参数列表在supplementary notes中

整个模型的训练使用了12 terabases的序列数据,源代码,其中包括了927个DeepBind模型,对应538个确定的转录因子和194个RBPs。

评价

DNA模型使用revised DREAM5 TF-DNA Motif Recognition Challenge的PBM数据进行验证。

Results

Discussion

Conclusion


Questions


文章作者: Luyiyun
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Luyiyun !
评论
评论
  目录