威海市环翠区建设局网站,乐都企业网站建设哪家快,服务质量好的crm系统,顺德做网站公司摘要
给一串氨基酸的序列#xff0c;去预测他的结构是什么样的
蛋白质的折叠问题
alphaFold精度不够
这里可以达到原子精度的预测
CASP14 精度
这个是什么问题是不是解决了问题
模型的结果并不重要
导论
摘要故事的详细版本
在写论文的时候#xff0c;可以这样写去预测他的结构是什么样的
蛋白质的折叠问题
alphaFold精度不够
这里可以达到原子精度的预测
CASP14 精度
这个是什么问题是不是解决了问题
模型的结果并不重要
导论
摘要故事的详细版本
在写论文的时候可以这样写达到了原子精度的结果
此时就是一个里程碑式的结果换算成一个大家可以理解的概念
PDB数据集目前为止所有了解的蛋白质的结构
模型和训练
分为三个部分
特征抽取编码器解码器
特征抽取
MSA 多序列比对
把人、鱼、鸡相似的蛋白质拿出来比对同一个氨基酸在不同蛋白质的表现去基因数据库中搜索与当前人的氨基酸序列有没有相似的序列
氨基酸之间的关系
氨基酸之间的关系构建一个矩阵每一对的项是每两个氨基酸之间的关系
得到两大特征
氨基酸序列特征氨基酸对之间的特征
encoder
两大特征矩阵进入evoformer
不再是序列的关系而是二维关系
输入是两个不同的张量
编码器里有48个block用的transformer架构
编码器的输出很好的表征了每个氨基酸的关系
一块处理的是按行的序列信息、一块处理的是按列的序列信息 自注意力
编码器中有48个块
多头自注意力、MLP
两个特征之间存在信息交互
在MSA中按行拿出一个序列做attention按列
用每一行做sigmoid去打造一个门0/1
对偏移每一个氨基酸对的关系作为一个偏移加进去再进去softmax这样的自注意力分数可以有关系的信息
MLP模块
做信息的提炼
解码器
重构蛋白质的结构
对每个氨基酸去预测他在3D中的位置
编码器的输出和解码器的输出回收传回输入再做一次精调
回收机制就相当于把模型复制了三次但权重还是基于前面的 都是相对位置
主干网络
欧几里得变换
对蛋白质的全局结构做旋转或者位移不会影响局部的变换
进入IPA的模块氨基酸的表示有了位置的信息
氨基酸对的信息、不断更新的序列信息、主干信息
经过8个IPA每一次在结构中做不断的调整
慢慢地到我们要的氨基酸的形状
预测模块做一个线性的投影层就可以得到输出
结论
在前人的基础上做10-20点改进
把所有的东西积累在一起最后憋一个大招