Molfile(常扩展名 .mol)是小分子连接表(connection table,CT)的经典文本形式,源自 MDL(现 BIOVIA)CTfile 家族。酶改造中与 分子对接(molecular docking)、虚拟筛选相关的单个配体拓扑与三维坐标,常以 Molfile 或其上层封装(SDF)交换;本文专述 Molfile 本体。姊妹格式见 fileformat-sdf.md(多条分子 + 性质字段)、fileformat-mol2.md(Tripos 分段式与原子类型)。
段末注释:**CT(connection table)**把化合物编码为原子列表 + 键列表;对接指在给定受体结构下搜索配体结合姿态的计算流程。
插图约定:科普示意图见相对路径 ./fileformat-molfile/文件名.png。
1. Molfile 里有什么
狭义的「一个 .mol 文件」通常包含一个分子的 CTAB 块。经典 V2000 书写顺序(大量软件仍默认导出)大致为:
- 标题行
- 程序/时间戳行
- 注释行
- 计数行(counts line):原子数、键数等(固定宽度,依赖 V2000/V3000)
- 原子坐标块:V2000 下一行一个原子((x,y,z))、元素符号及电荷等字段
- 键块:键两端原子序号、键级、立体标记等
M END:结束当前分子的 CTAB
单分子 .mol 一般在 M END 处结束。若在 M END 之后再拼接 $$$$ 并继续写下一段 Mol 块,则整体升级为 SDF 记录串联(见 fileformat-sdf.md)。

科学意义:Molfile 把共价拓扑(键连与芳香性/键级表示)与三维坐标写在同一连接表里,适合保存配体初始构象或对接软件导出的 Mol。
2. V2000 与 V3000
| 版本 | 特点 |
|---|---|
| V2000 | 固定列宽、人工可读性好;生态最广。 |
| V3000 | M V30 BEGIN CTAB … M V30 END CTAB 块式表达,更适合大分子片段、聚合物标记等;解析器须单独支持。 |
协作前务必约定版本、氢是否显式加入、芳香键表示习惯(克式圈/交替双键)。
3. 极简虚构示例(教学用)
1 | 甲醇骨架示意(虚构,列对齐仅供演示) |
4. 解析与互转
推荐使用 RDKit、Open Babel 等库读写 Molfile,避免手写按列切片。
5. 小结 Checklist
- Molfile = 单分子 CTAB;批量分子 + 活性字段优先 SDF。
- 需要 sybyl 原子类型、对接力场前端准备时常用 MOL2(见
fileformat-mol2.md)。 - 酶–蛋白坐标仍以 PDB/mmCIF 为主时,配体单独
.mol/.sdf便于脚本复现对接。
参考与延伸阅读
- BIOVIA CTfile 体系(Molfile、Rxnfile 等)官方与派生说明
- Open Babel
- RDKit