药物发现是一项复杂的任务,通常需要花费数百万美元的艰苦试验和错误,但先进的计算技术可以极大地加快这一过程。现在,康奈尔大学的一组研究人员利用橡树岭领导力计算设施(OLCF)的超级计算能力,利用机器学习来改进药物设计。
 
从历史上看,机器学习和药物设计并没有紧密联系在一起,因为分子动力学产生的大量数据集往往很复杂,而且与药物的性能基本上无关。康奈尔大学计算生物医学研究所主任哈雷尔·温斯坦在接受OLCF采访时表示:“机器学习从来没有被用于对药物设计的这些机制进行分类,当然也没有达到我们正在处理的规模。”“在这项研究开始时,问题是:你如何将这些数据呈现给机器学习算法?”
 
温斯坦带着这个问题找到他的一个博士生安布罗斯·普兰特(Ambrose Plante)。Plante决定将数据重新格式化为图片,以便更容易地解释ML算法,为每个原子分配一个像素。然后,他让算法分析这些图像,以评估功能选择性(药物与特定蛋白质结合的方式,迫使蛋白质发送信号)。
分子结构的可视化表示(左边是原始的,右边是二维的表示)。图片由作者提供。
 
了解如何以不同的方式影响蛋白质是药物开发的关键,特别是当涉及到目前市场上大多数药物所针对的G蛋白偶联受体(GCPRs)时。“就药典而言,这些是最受欢迎的受体,”温斯坦说。“这项研究的特殊之处在于分析这些相互作用的方法。”
 
为了将3D数据转换成2D图像,并训练神经网络来理解这些信号通路,研究人员通过理论和实验(INCITE)程序的创新和新颖的计算影响获得时间分配后,转向OLCF的Titan超级计算机。泰坦,一个拥有18,688个AMD Opteron处理器和18,688个Nvidia K20处理器的系统,能够提供将近18次每秒的Linpack petaflops,在去年8月退役。
 
研究人员发现,神经网络是高度准确的,现在转向更强大和复杂的应用相同的策略。然而,随着泰坦的退役,他们现在转向OLCF的顶峰超级计算机。Summit拥有4608个节点(每个节点拥有2个IBM Power9 cpu和6个Nvidia Volta gpu),每秒可处理148次Linpack petaflops,是目前世界上最强大的超级计算机。
 
温斯坦说:“这不仅能帮助我们理解并可能减轻毒瘾等问题,而且将使我们能够从一个完全不同的角度,用更具体、因此也更有力的标准来看待药物设计。”
 
关于的研究
 
这篇文章中讨论的研究被发表为“发现GPCRs的配体特异性功能机制的机器学习方法”。它是由Ambrose Palnte、Derek M. Shore、Giulia Morra、George Khelashvili和Harel Weinstein撰写的,可以在这里访问