传统的生物学研究中有一个基于知识经验的Rosetta框架,可以预测蛋白质结构,在过去的二十余年间,研究人员不断“人工”地为其添砖加瓦。而王童和微软亚洲研究院机器学习组的同事们则一起在业界数据积累的基础上开发了一套蛋白质结构预测的深度学习框架。该框架可以自监督、自适应地不断迭代蛋白质的折叠方式,研究人员无需大量生物领域知识,也不需要关注蛋白质底层的生物构造,即可预测蛋白质结构,大大提升了蛋白质结构预测的效率,为传统框架的缓慢进化,带来了全新的 AI 节奏。
在微软亚洲研究院搭建的计算机系统中,王童和同事们模拟了在细胞真实水环境下蛋白动态变化的过程等等。拥有强大计算能力的平台支撑起了百万级原子的模拟计算量,数周就可以完成此前需要十几年才能完成的工作量,“以前只能模拟局部的构象,现在却可以做到对整个蛋白质结构的模拟,以及大尺度构象转变的过程,”王童说。目前,王童和团队将该研究应用在新冠病毒 SARS-CoV-2 的 S 蛋白上,发现了其中构象转变之间的关键作用和机理。
“有很多计算机科班出身的同事,会经常跑过来跟我交流生物学知识,他们的提问都异常专业,”邓攀说。而此时她也刚好可以跟同事们请教一些前沿 AI 算法或者“实用调参”的技术知识。当看到有同事分享宇宙学知识的时候,她更是惊讶不已,“感觉在这里,只要是有大量数据的科学领域,研究员们就会想去做出点什么,无论跨界跨到了哪里,有什么挑战,似乎都不是问题。”
“事实上,我们目前对人体很多运行机制都并不了解。我们每个人都是从肉眼不可见的受精卵成长成人,从1个细胞变成10兆亿个细胞,细胞间的功能差异很大,人和人也各不相同,这中间有太多的事情值得去探索,”谈起生命健康的研究,邓攀的激动溢于言表。“但是,目前传统的生物学方法可能遇到了瓶颈。在这种情况下,把大数据和 AI 的方法纳入进来很有必要。以前用生物学的方法每次只能看到一点点发现,但如果用计算的方法,则有可能窥见更大的画面。”
邓攀目前的研究方向主要是免疫学和肠道微生物组学。在免疫学方向上,邓攀主要做的是T细胞的研究,以解决获得性免疫中的免疫细胞和抗原识别的问题。事实上,一个人体内平均有超过100万种不同的 T 细胞受体,而全部人群中可能出现的 T 细胞受体种类高达10的15次方,多样性极高、计算量极大,但这正是 AI 技术发挥专长的舞台。在研究过程中,邓攀参与了微软与西雅图一家生物技术公司的合作项目,旨在通过机器学习等 AI 技术,将 T 细胞受体语言转换为抗原语言,寻找身体正在对抗哪些疾病。对于肠道微生物的研究,其实也有类似之处,肠道微生物不仅多样,而且它们相互之间的影响以及对于人体机制的影响都相当复杂而隐秘,要找到其中的规律,必须依赖 AI 技术的帮忙。
自2017年前后精准医疗开始兴起,AI+生物也成了业界热点,尤其是2020年全球受到新冠疫情的冲击,社会各界对相关领域的关注度进一步提升。在朱建伟看来,未来 AI 技术除了在生物学的基础研究层面可以发挥更大作用,在卫生健康、疾病治疗等应用层面也将更快见效,像 AI+制药、AI+生物图像、AI+诊断结合、AI+基因检测,都会是下一阶段的重点。