更改

跳转至: 导航搜索
无编辑摘要
杨宗颖 纽卡斯尔大学 / 校对
==01、蛋白质组的全面结构覆盖仍然是一个突出且巨大的挑战,但蛋白质结构预测可以提供高效解决方案==
在全世界科研机构的共同努力下,现在已经有超过50000个人类蛋白质结构被解析,使智人成为迄今为止在蛋白质数据库(PDB)中最具有代表性的物种。
为了进一步发挥AlphaFold2的潜力,Deepmind决定将AlphaFold2应用于人类蛋白质组的解析上。2021年7月22日,相关的论文以「Highly accurate protein structure prediction for the human proteome」为题发表在《自然》期刊上。该工作利用AlphaFold2破译整个人类蛋白质组结构(98.5%的人类蛋白质),极大地扩展了蛋白结构覆盖率。同时Deepmind将通过一个公共数据库(由欧洲生物信息学研究所托管,网址:https://alphafold.ebi.ac.uk/,已正式上线)向社会免费提供所有的AlphaFold2蛋白质预测结果(其中的数据不局限于人类蛋白组,同时也包含部分大肠杆菌、酵母、拟南芥、玉米等在内的超过20种物种的蛋白质结构预测结果)。
再创对文章进行了解读,在此与各位读者共享。
图片
 ==02、AlphaFold2模型提高了蛋白结构预测的置信度和覆盖率==
AlphaFold2用一个范围是0到100的指标pLDDT来衡量单个残基的置信度:将pLDDT>90作为高准确度的分界点,pLDDT>70的较低临界值对应于一个普遍正确的骨架预测。下图显示了AlphaFold2在不同pLDDT范围内对一个示例蛋白质的准确性情况。
从AlphaFold2的预测结构来看,在人类蛋白质组中,有35.7%的残基落在最高精度带内(相当于38.6%的残基产生了可信的预测结果)。这是现有通过实验所得结构数量的两倍。58.0%的残基被有把握地预测(pLDDT>70),这意味着AlphaFold2也为PDB中没有良好结构的序列增加可观的覆盖率(原有的结构解析度低于30%)。对于单个蛋白质的预测来说,43.8%的蛋白质中有至少四分之三的序列被有把握地预测。
==03、AlphaFold2模型在多结构域复合体的预测上同样表现优异==
以前的许多大规模结构预测工作都集中具有独立折叠能力的单结构域上。但这会带来一些问题:
紧接着团队计算了AlphaFold2预测的人类蛋白质组结构的TM分数。测试集的蛋白结构实验解析覆盖率均小于一半,序列长度至少600个残基。结果中有187个蛋白质的TM>0.8,343个蛋白质的TM>0.7。虽然预计AlphaFold的域间准确度会低于其域内准确度,但这组数据表明AlphaFold2模型在多结构域复合体的预测上同样表现优异。
04、蛋白结构的准确预测带来了高质量的生物学假设==
蛋白结构的准确预测能够为生物学研究带来丰富的启示。研究团队在文章中提到了三个不同案例。所有的结构预测都是从头开始的,对象均具有少于25%序列同源性或结构解析覆盖少于20%。
23,882
个编辑

导航菜单