论文精读-DeepBind预测DNA/RNA蛋白结合位点-2015

Deep Learning Omics

Paper Method

发布日期: 2020-07-27

更新日期: 2020-12-03

文章字数: 524

阅读时长: 1 分

阅读次数:

Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning

杂志: Nature Biotechnology
IF:
分区:

Introduction

DNA，比如控制转录或可变剪切，而其功能和其特异性的序列相关。
position weight matrices（PWMs）可以用来描述这种序列特异性，并且易于解释。
一些新的、更加复杂的技术能够更加准确的来描绘序列特异性，本研究提出了一种基于Deep Learning的技术，称为DeepBind，能够发现新的patterns。

使用高通量数据来进行序列特异性的建模有下面几个问题：

来自不同技术的数据有着不同的形式。
高通量数据一般比较多，有10000-100000条序列。
不同类别的数据有着不同的偏移和限制。

而DeepBind依次解决了上述问题：

其可以应用于微阵列数据或序列数据
使用GPU来加快训练
在这个数据间泛化良好，甚至没有进行校正
可以允许一定的噪声
可以自动化的进行训练，减少了手动调参的工作
最后，可以类似PWMs一样进行可视化，从而提供一定的可解释性

Methods

数据

序列长度14-101nt不等，每条序列有一个binding score，可以是real-value或binary class labels。

模型

首先经过一层CNN，然后进行global max pooling，这样每个序列得到一个相同长度的表示向量。
将此向量送入MLP进行预测，然后和binding score计算loss，反向传播进行训练。loss为：

为了能够进行自动化地训练，这里：

对于每个需要训练的模型，随机采样30组参数；
3-CV训练并计算测试集误差，选择最好的那组参数。

完整的参数列表在supplementary notes中

整个模型的训练使用了12 terabases的序列数据，源代码，其中包括了927个DeepBind模型，对应538个确定的转录因子和194个RBPs。

评价

DNA模型使用revised DREAM5 TF-DNA Motif Recognition Challenge的PBM数据进行验证。

Results

Discussion

Conclusion

Questions

Luyiyun

https://luyiyun.online/2020/07/27/paper/omics/deepbind2015/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Luyiyun !

Deep Learning Omics

评论

评论

上一篇

论文精读-MADE-2015

论文精读-MADE-2015

基于mask的深度自回归算法用于进行概率密度估计。

2020-07-28 Paper-Method

Deep Learning Unsupervised Learning Autoregressive

下一篇

论文精读-CMPNN-2020

论文精读-CMPNN-2020

本研究通过增强edge和node间的特征交互，提出了一种改进模型，进行分子化学性质的预测。

2020-07-26 Paper-Method

Deep Learning Graph Neural Networks Molecular Graphs