研究背景与靶点机理
在针对三阴性乳腺癌 (TNBC) 的靶向治疗探索中,STAT3 和 JAK2 蛋白的异常激活一直是难啃的骨头。传统的高通量筛选 (HTS) 命中率极低,且容易陷入构效关系 (SAR) 的局部最优解。
为了解决这一问题,我们将自监督学习引入分子图表示,开发了 MolRLFI 和改进版的 MolGTC 框架。
MolGTC 核心架构解析
MolGTC (Molecular Graph Transformer Network with Contrastive Learning) 抛弃了传统的指纹特征,直接在图空间中进行消息传递。
拓扑特征与图构建
在输入层,我们利用 RDKit 将 SMILES 字符串转化为分子图。节点代表原子,边代表化学键。为了捕获长程相互作用,我们在节点特征中融合了静电势和范德华半径。
消息传递与自监督约束
网络的核心是一个多层的图卷积模块。节点 $v$ 在第 $l+1$ 层的特征聚合逻辑遵循以下动力学方程:
$$h_v^{(l+1)} = \text{ReLU} \left( \sum_{u \in \mathcal{N}(v)} W^{(l)} h_u^{(l)} + B^{(l)} h_v^{(l)} \right)$$
通过掩码图建模 (Masked Graph Modeling) 作为前置任务,模型学会了理解配体分子隐式的药效团空间分布。
GROMACS 分子动力学验证
虚拟筛选得出的 Top 10 候选化合物,需要进入真实物理环境的考验。我的台式机(AMD Ryzen 9 7900X + RTX 4070)刚好能扛住这部分算力需求。
体系构建与能量最小化
在复合物体系构建阶段,我们选择了 AMBER99SB-ILDN 力场处理 STAT3 蛋白,配体则使用 ACPYPE 生成 GAFF 力场参数。
能量最小化的收敛阈值设定为极高的标准,以消除空间位阻:
gmx mdrun -v -deffnm em
