什么人工智能可以教我们了解蛋白质
Alexa,Siri和Google智能助理等智能虚拟伴侣早已融入我们的日常生活中。智能计算程序,即所谓的算法,也已经发展成为科学研究中不可或缺的工具。生命科学研究中产生的大量数据可以借助算法有效地检查重复模式。某些程序能够发现大蛋白分子中的重复结构,然后利用这些信息得出这些分子执行的细胞任务的结论 - 例如,它们是作为基因开关,分子马达还是信号分子发挥作用。
然而,先前技术的主要缺点是用户完全处于黑暗中,为什么算法将特定功能分配给某些蛋白质序列。计算机对蛋白质的准确知识并不是直接可用的,尽管这些知识在推进新药物的研究和开发方面可能是非常宝贵的。
来自柏林卫生研究院(BIH)和Charité - UniversitätsmedizinBerlin的Roland Eils和Irina Lehmann与海德堡大学药学和分子生物技术研究所(IPMB)的Dominik Niopek合作,共同领导的学生团队从计算机中解锁这些知识的目标。它于2017年开始研究这一主题,并开发了一种名为“DeeProtein”的算法,这是一种全面的智能神经网络,可以根据单个蛋白质构建模块氨基酸的序列预测蛋白质的功能。像大多数学习算法一样,DeeProtein是一个“黑盒子”,这意味着它们的工作原理对于程序员和用户来说仍然是一个谜。但学生们现在用了一个“技巧”来解开这个网络的秘密。
这位年轻的科学家们开始通过开发一种方式来比喻该计划的工作方式。“在敏感性分析中,我们依次掩盖蛋白质序列中的每个位置,让DeeProtein从这个不完整的信息中计算或者更确切地预测蛋白质的功能,”Julius Upmeier zu Belzen解释道。他是IPMB分子生物技术硕士课程的学生,也是该论文的主要作者,该论文刚刚发表在Nature Machine Intelligence杂志上。*。“接下来我们给DeeProtein提供完整的序列信息并比较两组预测,”Upmeier zu Belzen补充道。“通过这种方式,我们计算出蛋白质序列中的每个位置,这个位置对预测正确功能的重要性。这意味着我们给蛋白质链中的每个位置或氨基酸提供蛋白质功能的灵敏度值。”
然后,科学家们使用新的分析技术来识别对其功能至关重要的蛋白质区域。该技术适用于在致癌过程中发挥作用的信号蛋白以及CRISPR-Cas9基因编辑工具,该工具已经在大量临床前和临床研究中进行了测试。“敏感性分析使我们能够识别容易变化的蛋白质区域,”Dominik Niopek说。“如果我们想对蛋白质进行有针对性的改变,以便为它们配备新功能或”关闭“不良特性,这是重要的第一步。
“通过这项工作,我们证明了神经网络的预测不仅有用,而且我们现在也可以首次将这种隐性知识用于实际目的,”Roland Eils解释说。这种方法与分子生物学和医学中的许多问题相关。“例如,如果我们想开发靶向药物或基因疗法,我们需要确切地知道应该把注意力集中在哪里,”Eils补充说。“DeeProtein现在可以帮助我们做到这一点。”
标签: 人工智能