XingHuiSama の 宝藏之地
首页项目归档照片墙杂谈友链关于
封面

基于 MolGTC 的多靶点激酶抑制剂筛选:从虚拟到现实的漫长征途

✏️修改此篇
写作时间:2026-03-26
# 学术
# 深度学习
# GROMACS

第一章:引言与背景

在现代药物研发中,计算化学已经成为不可或缺的一环。随着靶点结构的解析和算力的提升,我们不再像盲人摸象一样进行高通量筛选(HTS)。

1.1 三阴性乳腺癌 (TNBC) 的困境

TNBC 由于缺乏雌激素受体、孕激素受体和 HER2 的表达,传统的内分泌治疗和靶向治疗对其无效。

1.2 STAT3 与 JAK2 的级联反应

在这个信号通路中,JAK2 的磷酸化会激活 STAT3,进而促使肿瘤细胞增殖。如果我们能同时抑制这两个靶点,就能形成双重打击。

第二章:MolGTC 架构的进化与迭代

在我们早期的研究中,MolRLFI 虽然在特征提取上表现尚可,但在长程依赖和立体异构体的区分上存在致命缺陷。这促使我们开发了 MolGTC。

2.1 为什么抛弃传统指纹特征?

传统化学指纹(如 Morgan Fingerprint)本质上是局部子图的哈希映射,这导致了严重的哈希碰撞问题,丢失了大量的全局拓扑信息。

2.2 图注意力机制 (GAT) 的引入

通过引入多头注意力机制,模型可以自主决定每个原子在聚合邻居信息时的权重。例如,在处理磺酰胺基团时,氧原子的注意力权重显著高于周围的碳原子。

2.2.1 注意力权重的计算

这里的计算涉及复杂的矩阵乘法,我们在 PyTorch 中通过自定义 CUDA 算子进行了加速计算,使得显存占用降低了 30%。

2.2.2 掩码图建模 (Masked Graph Modeling)

我们随机遮盖分子图中的一部分节点(原子)或边(化学键),让模型去预测被遮盖的部分。这是一种极强的自监督信号。

第三章:虚拟筛选流程 (Virtual Screening)

有了强大的模型,接下来就是针对 ZINC 和 ChemSpider 数据库进行千万级别的小分子筛选。

3.1 数据清洗与预处理

千万级的数据中包含了大量的“垃圾”分子。我们使用 RDKit 进行了严格的 Lipinski 五法则过滤。

3.2 药效团约束过滤

除了模型的打分,我们还引入了硬性的 3D 药效团约束,确保分子必须包含至少一个氢键供体和一个疏水芳香环。

3.3 深度学习打分 (Scoring)

MolGTC 在不到三个小时的时间内,从 500 万个分子中筛选出了 Top 1000 的高潜力候选物。

第四章:分子动力学模拟 (Molecular Dynamics)

虚拟筛选只是纸上谈兵,真正的考验在于物理环境下的动态模拟。这里是算力消耗的大头。

4.1 体系构建与溶剂化

我们使用 GROMACS 2023 进行模拟。配体参数使用 ACPYPE (基于 Antechamber) 生成。

4.2 能量最小化与平衡

为了消除原子的空间重叠,我们进行了 50,000 步的最陡下降法能量最小化,随后在 NVT 和 NPT 系综下各进行了 100ps 的平衡。

4.3 100ns 生产模拟轨迹分析

在长达 100ns 的模拟中,配体表现出了极高的稳定性。RMSD 曲线在 20ns 后趋于平稳,波动小于 0.2 nm。

4.3.1 氢键网络分析 (Hydrogen Bond Network)

通过 gmx hbond 分析,我们发现配体与靶点上的 Arg609 形成了极其稳定的双齿氢键。

4.3.2 结合自由能计算 (MM/PBSA)

使用 gmx_MMPBSA 工具,我们计算出最终的结合自由能为 -15.2 kcal/mol,这是一个非常乐观的数据。

第五章:结论与未来的展望

通过将自监督图神经网络与传统的物理驱动模拟相结合,我们极大缩短了早期药物发现的周期。

下一步,我们计划将强化学习引入分子生成阶段,让 AI 不仅能“筛选”药物,还能“设计”药物。在此之前,我要去玩一会 Arknights 了,希望这周的肉鸽不要太折磨。

avatar

XingHuiSama

在代码、学术与分子动力学模拟间穿梭的旅人。近期正埋头于 GROMACS 模拟研究与神经网络计算。

RECOMMENDED

GROMACS 2025 分子动力学模拟初探2222

2026-03-24

GROMACS 2025 分子动力学模拟初探

2026-03-24

基于 MolGTC 框架的 STAT3 抑制剂虚拟筛选与 GROMACS 动力学模拟验证

2026-03-25

Table of Contents