文件格式说明 - Molfile(MDL 连接表 / MOL)

Molfile(常扩展名 .mol)是小分子连接表(connection table,CT)的经典文本形式,源自 MDL(现 BIOVIACTfile 家族。酶改造中与 分子对接(molecular docking)、虚拟筛选相关的单个配体拓扑与三维坐标,常以 Molfile 或其上层封装(SDF)交换;本文专述 Molfile 本体。姊妹格式见 fileformat-sdf.md(多条分子 + 性质字段)、fileformat-mol2.md(Tripos 分段式与原子类型)。

段末注释:**CT(connection table)**把化合物编码为原子列表 + 键列表;对接指在给定受体结构下搜索配体结合姿态的计算流程。

插图约定:科普示意图见相对路径 ./fileformat-molfile/文件名.png


1. Molfile 里有什么

狭义的「一个 .mol 文件」通常包含一个分子的 CTAB 块。经典 V2000 书写顺序(大量软件仍默认导出)大致为:

  1. 标题行
  2. 程序/时间戳行
  3. 注释行
  4. 计数行(counts line):原子数、键数等(固定宽度,依赖 V2000/V3000)
  5. 原子坐标块:V2000 下一行一个原子((x,y,z))、元素符号及电荷等字段
  6. 键块:键两端原子序号、键级、立体标记等
  7. M END:结束当前分子的 CTAB

单分子 .mol 一般在 M END 处结束。若在 M END 之后再拼接 $$$$ 并继续写下一段 Mol 块,则整体升级为 SDF 记录串联(见 fileformat-sdf.md)。

Molfile 连接表 CTAB:计数行、原子块、键块(科普示意,非官方原图)

科学意义:Molfile 把共价拓扑(键连与芳香性/键级表示)与三维坐标写在同一连接表里,适合保存配体初始构象或对接软件导出的 Mol。


2. V2000 与 V3000

版本 特点
V2000 固定列宽、人工可读性好;生态最广。
V3000 M V30 BEGIN CTABM V30 END CTAB 块式表达,更适合大分子片段、聚合物标记等;解析器须单独支持。

协作前务必约定版本、氢是否显式加入、芳香键表示习惯(克式圈/交替双键)。


3. 极简虚构示例(教学用)

1
2
3
4
5
6
7
8
甲醇骨架示意(虚构,列对齐仅供演示)
MOCK06261215302D

2 1 0 0 0 0 0 0 0999 V2000
0.0000 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.2000 0.0000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
1 2 1 0 0 0 0
M END

4. 解析与互转

推荐使用 RDKitOpen Babel 等库读写 Molfile,避免手写按列切片。


5. 小结 Checklist

  1. Molfile = 单分子 CTAB;批量分子 + 活性字段优先 SDF
  2. 需要 sybyl 原子类型、对接力场前端准备时常用 MOL2(见 fileformat-mol2.md)。
  3. 酶–蛋白坐标仍以 PDB/mmCIF 为主时,配体单独 .mol.sdf 便于脚本复现对接。

参考与延伸阅读

  • BIOVIA CTfile 体系(Molfile、Rxnfile 等)官方与派生说明
  • Open Babel
  • RDKit
-------------本文结束感谢您的阅读-------------