江俊课题组近些年致力于发展机器学习技术在量化领域的应用,努力探究使其成为解决量化问题的一种重要工具。在该工作中,研究人员首先在300K温度下通过分子动力学模拟以及量子化学计算,得到了五万组不同构型的肽键模型分子。通过机器学习算法筛选出键长、键角、二面角跟电荷信息作为描述符,通过神经网络来构建肽键基态结构与其激发态性质之间的构效关系。基于训练好的机器学习模型,预测出了肽键的基态偶极矩及激发态性质,最后预测出肽键的紫外吸收光谱。为了验证机器学习模型的鲁棒性,研究人员又基于300K的温度下得到的机器学习模型,预测出肽键在200K以及400K温度下的紫外吸收光谱,其结果与时间密度泛函理论计算很好地吻合。
这是人工智能技术首次用于理论计算预测蛋白质的光谱研究。通过理论计算得到大量数据,使用人工智能加以训练构建构效关系,使用最后得到的模型用于预测,为模拟蛋白质的光谱提供了一种新的思路。该项工作确立了机器学习模拟蛋白质肽键骨架紫外吸收光谱的可行性和优势,蛋白质的“光学指纹”解读也将会变得更加轻易和有效。
相关工作得到国家自然科学基金、中科院先导项目的资助,该论文第一作者为博士生叶盛与博士后胡伟、李鑫,江俊与Shaul Mukamel为共同通讯作者。