Computational Protein Design with Deep Learning Neural Networks

人工智能36

本文使用深度神经网络完成计算蛋白质设计去预测20种氨基酸概率。

Introduction

针对特定结构和功能的蛋白质进行工程和设计,不仅加深了对蛋白质序列结构关系的理解,而且在化学、生物学和医学等领域都有广泛的应用。在过去的三十年里,蛋白质设计取得了显著的成功,其中一些设计是由计算方法指导的。最近一些成功的计算蛋白设计的例子包括新折叠,酶设计,疫苗,抗体,新的蛋白质组装,配体结合蛋白和膜蛋白。

Results

Networks architecture, input, and training

数据集:数据集来源于PDB且具有如下特征:

(1)用x射线晶体学确定结构;

(2)分辨率优于$$2 \r A $$;

(3)链长大于50;

(4)结构没有任何DNA/RNA分子。

移除同源蛋白质后分为三个数据集非别是30%、50%、90%(SI30,SI50,SI90)

输入:对于每个数据集,提取每个残基及其基于Cα-Cα距离的N(N=10、15、20、25、30)最近邻残基为聚类。

过程:目标残基及其领域的残基的特征作为一个input输入到残基概率网络得到目标残基的概率(图A),同时也将input输入到权重网络中得到一个权重输出(图B)。残差概率网路和权重网络本文模型架构的子网络,将这两个输出concat后输入到后续网络最终输出概率。

训练:线性层 ReLU作为所有层的激活函数。训练采用 交叉熵(categorical cross entropy )作为损失函数,采用 随机梯度下降法进行优化,学习率为 0.01,批处理大小为 40,000,epoch是 1000

Overall and amino acid specific accuracy

表 神经网络在不同邻域残基的不同数据集上的交叉验证的总体精度

Indentity cutoff

N=10

N=15

N=20

N=25

N=30

30%

0.329

$$(0.001)^*$$

0.340

$$\mathbf{(0.005)} $$

0.333

$$(0.009)$$

0.331

$$(0.006)$$

0.321

$$(0.015)$$

50%

0.353

$$(0.003) $$

0.364

$$\mathbf{(0.005)} $$

0.358

$$(0.005) $$

0.359

$$(0.006) $$

0.342

$$(0.007) $$

90%

0.367

$$(0.001) $$

0.383

$$\mathbf{(0.004)} $$

0.382

$$(0.006) $$

0.379

$$(0.007) $$

0.352

$$(0.013) $$

*括号中为标准差

正如预期的那样,由于更多的数据样本和样本之间的相似性,具有更高蛋白质确定率的数据集显示出更好的准确性。但从SI30到SI90数据集的数据样本数量几乎翻了一番,精度的提高并不显著。N=15时准确性最好,小于15时较少的相邻残基可能不足以代表目标残基的环境,而大于15时包含太多的领域残基会在输入中产生噪声。

针对总体精度最好的SI90N15分析每种氨基酸的召回率和精确度。其中Gly(甘氨酸)和Pro(脯氨酸)的召回率和准确率都较好。因为Pro具有特殊的刚性构象,而Gly在主链二面体方面具有高度的灵活性。召回、精度较低的氨基酸在训练集中的丰度通常较低,例如Met、Gln和His。

计算了每个天然氨基酸被预测为20个氨基酸的概率,并将其绘制在二维天然氨基酸和预测的热图中(如上图)。x轴和y轴上的氨基酸是根据它们的性质和彼此之间的相似性来排序的。正如预期的那样,对角线网格显示出更高的概率。有趣的是,沿着对角线有几个组,包括

网络的输出是20个氨基酸的概率在一个目标位置,除了上面提到的准确性,也可以计算top-K精度:如果源氨基酸在top-K预测(K氨基酸概率最高),预测被认为是正确的。在SI90N15数据集上训练的网络的前2、3、5和10个准确率分别达到54.3%、64.0%、76.3%和91.7%。

表 Rosetta固定主干设计在三个蛋白质有/没有残基类型约束的平均序列准确率

Protein

No-restrain*

Top 1

Top 3*

Top 5*

Top 10*

2B8I

$$0.276 \pm 0.033 $$

0.337

$$0.306 \pm 0.017$$

(0.558)

$$\mathbf{0.354 \pm 0.021} $$

(0.688)

$$0.293 \pm 0.037 $$

(0.883)

1HOE

$$0.408 \pm 0.026 $$

0.338

$$\mathbf {0.473 \pm 0.018} $$

(0.635)

$$0.441 \pm 0.018 $$

(0.689)

$$0.416 \pm 0.028 $$

(0.851)

2IGD

$$0.409 \pm 0.034$$

0.475

$$0.473 \pm 0.023 $$

(0.705)

$$0.401 \pm 0.028 $$

(0.754)

$$0.408 \pm 0.032 $$

(0.967)

应用Top-3、5和10预测限制设计三个蛋白质包括all-α蛋白(2B8I60),all-β蛋白质(1HOE61)和混合αβ蛋白(2IGD),这些蛋白质都不包含在训练集中。蛋白质的晶体结构被用作在SI90N15数据集上训练的神经网络的输入。每个位置的固定主干设计程序中的Top-3、5和10个氨基酸作为约束条件。作为对照,列出了这些蛋白质上神经网络的最高准确性,并且进行了固定主干设计(每个位置允许所有20种天然氨基酸)。由于fixbb使用了一种随机设计算法,为每个蛋白质生成了500个序列,并计算出与天然蛋白质的平均序列一致性。

PS

  1. 特征包括基本的几何和结构属性的残留,如Cα-Cα距离,主干二面体φ,ψ,ω的$$cos$$和$$sin$$的值,通过一个中心$$C_{\alpha} $$残基到领域$$C_{\alpha}$$残基的单位向量确定相邻残基和目标残基的相对位置,三种二级结构(螺旋、片状和环状),主链骨架氢键的数量,和溶剂访问骨干原子的表面积。

  2. 召回是正确预测(恢复)的原生残基的百分比,精度是正确预测的百分比。

Original: https://www.cnblogs.com/programmer-yuan/p/ldd-cpu.html
Author: programmer_媛
Title: Computational Protein Design with Deep Learning Neural Networks



相关阅读

Title: k-均值聚类算法

1聚类

1.1聚类定义

聚类是把数据对象集合按照相似性划分为多个子集的过程。每个子集是一个簇(cluster),使得簇中的对象彼此相似,但与其他簇中的对象不相似。
聚类是无监督学习,因为给的数据没有类标号信息。

1.2分类与聚类

分类:有监督学习;通过有标签样本学习分类器。
聚类:无监督学习;通过观察学习,将数据分隔成多个簇。

1.3聚类的应用

商业领域:聚类分析背用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。
电子商务:聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。
舆情监控:发现热点主题、话题、事件等;发现未知异常

1.4基本聚类方法

划分方法:k-means,k-means++,k-modes,k中心点
k-modes能够解决离散数据的聚类问题
k-means++能够解决初始点影响聚类效果的问题
k中心点能够解决有离群点的聚类问题
层次方法:AGNES算法,DIANA算法
基于密度的方法:DBSCAN算法,

2k-means(k-均值)算法

2.1划分方法

划分方法:将有n个对象的数据集D划分成k个簇,并且k≤n,满足如下的要求:每个簇至少包含一个对象;每个对象属于且仅属于一个簇。
基本思想:首先创建一个初始k划分(k为要构造的划分数),然后不断迭代地计算各个簇的聚类中心并根据新的聚类中心调整聚类情况,直至收敛。
目标:同一个簇中的对象之间尽可能"接近"或相关,不同簇中的对象之间尽可能"远离"或不同。
启发式方法:
Computational Protein Design with Deep Learning Neural Networks
k-均值(k-means):每个簇用该簇中对象的均值来表示;基于质心的技术
k-中心点(k-medoids):每个簇用接近簇中心的一个对象来表示;基于代表对象的技术
适用性:这些启发式算法适合发现中小规模数据库中的球状聚类,对于大规模数据库和任意形状的聚类,这些算法需要进一步扩展。

; 2.2k-means

2.2.1概念

k-means将样本集合划分为k个子集,构成k个类,将n个样本分到k个类中,使得每个样本到其所属类的中心的距离最小。

2.2.2算法描述

Computational Protein Design with Deep Learning Neural Networks

; 2.2.3步骤示例

Computational Protein Design with Deep Learning Neural Networks
步骤一:初始化
Computational Protein Design with Deep Learning Neural Networks
步骤二:聚类
Computational Protein Design with Deep Learning Neural Networks
Computational Protein Design with Deep Learning Neural Networks
Computational Protein Design with Deep Learning Neural Networks
步骤三:寻找新的类中心
Computational Protein Design with Deep Learning Neural Networks
步骤四:重新计算距离
Computational Protein Design with Deep Learning Neural Networks
步骤五:与上一次聚类结果比较
Computational Protein Design with Deep Learning Neural Networks

Computational Protein Design with Deep Learning Neural Networks

2.2.4例子

Computational Protein Design with Deep Learning Neural NetworksComputational Protein Design with Deep Learning Neural Networks
Computational Protein Design with Deep Learning Neural Networks
Computational Protein Design with Deep Learning Neural Networks
Computational Protein Design with Deep Learning Neural Networks

; 2.2.5优缺点

优点
·聚类时间快
·当结果簇是密集的,而簇与簇之间区别明显时,效果较好
·相对可扩展和有效,能对大数据集进行高效划分
缺点
.用户必须事先指定聚类簇的个数
·常常终止于局部最优
·只适用于数值属性聚类(计算均值有意义)
·对噪声和异常数据也很敏感
·不同的初始值,结果可能不同
.不适合发现非凸面形状的簇

k-modes算法解决数据敏感的问题

k-means++算法解决初始点选择问题

基本原理
1.从输入的数据点集合中随机选择一个点作为第一个聚类中心;
2.对于数据集中的每一个点X,计算其与聚类中心的距离D(X);
3.选择一个D(X)最大的点作为新的聚类中心;
4.重复2和3步直到K个聚类中心被选出;
5.利用K个初始聚类中心运行K-Means

k-中心点算法解决对离群点敏感问题

选用簇中位置最中心的实际对象即中心点作为参照点,基于最小化所有对象与其参照点之间的相异度之和的原则来划分(使用绝对误差标准)。
划分方法聚类质量评价准则:最小化E值

Original: https://blog.csdn.net/m0_46698362/article/details/119235368
Author: 嘿哈哈哈哈哈哈
Title: k-均值聚类算法