使用Multi-Site Lambda Dynamics(MSLD)计算自由能教程
目的:通过此教程,了解Discovery Studio中使用Multi-Site Lambda Dynamics(MSLD)计算自由能的操作方法及结果分析。
所需功能和模块:Discovery Studio Client、DS Enumerate Ligands for MSLD、DS Set Up MSLD Calculations、DS CHARMm Relative FEP Calculations (GPU)
所需数据文件:4YKR_prep.dsv、hsp90_core.dsv
所需时间:30分钟+计算时间(与硬件相关)
介绍:理解和量化配体和蛋白质之间相互作用强度的能力在药物发现项目中是至关重要的,以识别配体的变化如何可能改变结合亲和力。可靠的结合亲和性估计可以改善先导优化过程中的配体选择。在早期引线优化过程中,可能会考虑来自不同支架家族的数万种配体。因此,诸如对接和MM-GBSA等计算方法适合于所需的吞吐量。如果要使用预测来确定昂贵和耗时的化学合成的优先顺序,则需要更精确地进行涉及较小化学修饰的后期先导优化。
自由能微扰(FEP)和多站点Lambda动力学(MSLD)属于炼金术自由能方法的范畴。这些方法的严格物理性质结合显式溶剂建模使它们成为最准确的结合亲和预测器。FEP通过模拟两个配体之间的转换来对自由能进行两两估计,而MSLD在模拟中模拟多个配体,可以大大提高效率。
MSLD方法是计算组合文库的相对结合亲和力的更佳方法,该组合文库是在一个引子配体上展开的。在这种方法中,你提供一个目标蛋白质结构,并指定先导体或核心配体、其上的附着点或“位点”,以及一组你想用来装饰核心的化学基团或“取代基”。使用这些输入,MSLD方法计算组合库的绑定亲缘性。
在MSLD中,需要两个模拟:单独的多位点配体系统和与蛋白质的复合配体系统。两者都是溶剂化完成热力学循环,这允许计算的相对结合亲和的配体的集合。
本教程涵盖了以下任务:
枚举用于MSLD设置的配体
设置MSLD计算
运行MSLD偏差优化和生产计算(Linux系统环境下)
MSLD模拟设置需要将核心配体定位在蛋白质活性位点。在第一步中,您将使用MSLD协议的枚举配体来为后续的MSLD模拟设置生成配体集。每个生成的配体都表示对协议中指定的核心配体的一个R基团替换。下图显示了在核心配体中选择的两个位点,它们代表了R基团的附着位点。
1. 打开hsp90_core.dsv文件,默认自动选择了两个site作为R1,R2。 用户可以根据需求自定义site,最多支持4个site。如下:
注:操作方式是,按住Shift,选择4个H原子,然后右键选择GROUP,Define即可,也可以在打开Enumerate Ligands for MSLD程序的情况下(最小化),选中对应H原子,在MSLD site的参数下,选择Creat New Group From Selection。
2. 需要首先给hsp90_core.dsv添加CHARMm力场,然后打开Enumerate Ligands for MSLD程序,选择在R1,R2上添加对应的基团,基团添加可以自定义,按照SMILES即可。本次教程中,参数设置如下:
结果生成如下,直接在R1,R2添加基团。
3. 打开4YKR_prep.dsv文件,添加应用CHARMm力场,打开Set Up MSLD Calculations给受体和配体添加溶剂化。参数设置如下,参数与FEP一致。
4. 与FEP不同的是,MSLD的构建溶剂化模型时,溶剂化复合体、溶剂化配体、真空配体均在同一窗口。
5. 现在我们需要进行MSLD计算自由能。程序如下,可以设置偏差优化和生产相关参数。对于包含化学和结构多样化取代基的大型组合文库或系统,启用第3阶段偏置优化可能会提高精度。对于这样的系统,将Production组下的Number of simulation参数增加到6,将Number of simulation to Combine参数增加到2也会产生更好的采样,从而产生更准确的预测。GPU平台上运行时,将每次模拟的核数从1增加到2、4或8通常会产生更好的性能。在运行生产规模的计算之前,建议您在计算基础设施上运行一个简短的基准测试,以确保性能不会随着每个模拟的内核数量的增加而下降。可以通过将“偏差优化>阶段1下的更大迭代次数”设置为1,然后禁用偏差优化>阶段2、偏差优化>阶段3和生产来运行短基准测试。
偏置优化的目标是优化MSLD中添加到系统能量的偏置函数中的参数,以增强每个位点上不同取代基之间的过渡。在后续的MSLD生产计算中,需要在每个工位进行大量的跃迁,以获得自由能的可靠估计。为了实现这一点,偏置优化协议迭代优化添加到系统能量中的偏置势,以平展转换的自由能景观。在偏差优化的后期阶段,每次迭代都会增加采样量,以便对偏差进行精细调整。默认情况下,偏差优化的第一阶段运行100次迭代,每次迭代涉及100 PS的MSLD模拟,然后评估自由能情况和相应的偏差势调整。分别计算每个位点上的每个取代基和一个位点上的所有取代基对的自由能分布图。第二阶段包括10次迭代,每次1纳秒,第三阶段包括5次迭代,每次2纳秒。总体平面度由平均RMSD和平均对RMSD监测,它们捕获了过渡观察到的平均平面度。理想情况下,这些值应该分别低于0.5和1.0,这对应于较高的平坦度,因此在后续模拟中有大量的过渡。在每一阶段结束时,从最后几次迭代中选择一组偏差,以得到所有取代基中最均匀的采样。
经过偏置优化后,溶剂化配体和蛋白质配体络合物体系进行了MSLD生产模拟。在这些模拟过程中,对配体的每个位点上的取代基进行采样,并记录每个唯一配体的概率。从每个独立的轨迹分析这些概率,并计算每个组合配体对应的自由能。还计算了所有独立模拟的自由能和标准偏差的平均值。
生产模拟完成后,结合自由配体和蛋白质-配体复合体模拟的结果计算配体的相对结合自由能。该协议的报告显示了组合文库中每个配体的计算相对自由能值。一个表列出了配体和复合体状态下的平均自由能,以及这些自由能的差值作为平均相对结合自由能,这是对所有位点上模拟核心取代基的第一个配体的自由能的归一化。还报告了相关的标准偏差。
注意,由于模拟的随机性,在运行教程时可能会得到稍微不同的结果。
本次教程运行结果如下图所示:
还显示了一个附加自由能表,列出了忽略了两个位点之间的合作关系的近似自由能。在含有大量配体的具有挑战性的体系中,由于同时在多个位点上的取代基采样不足,自由能表可能不会被完全填充。在这种情况下,附加自由能表提供了对大多数组合配体的近似估计。
每个位点的相对自由能也分别报告。这些值也忽略了位点间的合作效应,除了它们允许评估每个位点上的不同取代基。
偏置优化结果在MSLD偏置优化结果表中报告。与每个系统和阶段相关联的链接报告显示了平均RMSD和平均对RMSD值,并显示了自由能景观平面度在迭代过程中的演变情况。以复合体系统为例,第二阶段偏置优化结果如下:
自由能的粗略估计可以从偏置优化阶段本身获得。这些估计在Estimated Bias报告中的Calc Bias ddG列中列出,您可以从MSLD Bias Optimization Results表中访问该报告。然而,生产模拟结果预计将更加准确。
本教程到此结束。