欢迎来到Ben-air的博客
方向: 生物信息 & AI 方向
资深生物信息工程师 | 机器学习/深度学习应用 | 大模型智能体实践
📧 ben_air@foxmail.com · 🔗 github.com/Ben-unbelieveable · 📍 天津
个人简介
超十年生物信息领域学习工作经验;
8年以上基因组学、肿瘤与遗传病临床检测领域研发经验,具备生物信息 + 人工智能交叉背景。
在酶改造、CNV检测、引物设计、变异解读等场景中成功落地嵌入模型、强化学习、随机森林、大语言模型智能体等技术。
致力于将AI方法应用于生物序列、结构与文献数据,推动研发与临床交付的智能化升级。
工作经历
擎科生物 · 生物信息工程师(2026.3 – 至今)
- 酶改造项目:基于蛋白质嵌入模型(ESM / ProtBERT)与结构预测模型(AlphaFold2)构建特征采集管线,配合机器学习头(MLP / LightGBM)实现酶性能预测,指导湿实验筛选。
- 抗体序列标注:开发抗体可变区、CDR区的自动化标注流程,为AI驱动抗体设计提供高质量训练数据。
华大基因 · 生物信息高级工程师 / 团队负责人(2024.1 – 2026.2)
- 临床单基因病产品线(年销量2亿):主导携带者/新生儿/WES产品的容器化改造(WDL + Docker),实现可复现流程。
- AI驱动的算法开发:
- 强化随机森林 ExonCNV 检测:针对假基因干扰,无对照样本下灵敏度 72% → 92%,特异性 100%。
- 强化学习 PCR 引物设计(PPO/DQN):捕获效率提升 50%,达商业化水平。
- AI 智能体(MCP + Prompt优化):自动检索文献、解析全文、提取证据,文献一致性 100%,解读效率提升 20 倍以上。
华大基因 · 肿瘤事业部(2017.6 – 2024.1)
- 负责泛癌检测产品“华梵安”(年销 5000 万+),入院 30+,主导 LDT 方法学评估。
- 带领团队落地核心算法:SNV、InDel、CNV、SV、TMB、MSI、UMI。
- 推动流程统一(Snakemake + Git),降低 80% 冗余开发成本。
- 构建云计算能力(OSS、ECS、阿里云基因分析平台),降低存储成本 70 万/年,团队多人获得 ACP 认证。
北京百迈客 · 生物信息工程师 / 产品经理(2016.6 – 2017.6)
- 设计并开发基因组数据库,构建公共数据自动化爬取与更新框架(GEO、SRA、Ensembl)。
代表性 AI 项目
1. AI 智能体 —— 遗传变异自动文献解读与致病性判读
- 问题:传统遗传解读依赖人工检索文献,成本高、周期长。
- 方案:输入变异 → 自动检索 → 获取全文 PDF → 解析图片/表格/文本 → 大模型结构化判读(Prompt + MCP)。
- 效果:与人工专家一致性 100%,单样本人工解读从 5 小时降至接近 0。
2. 强化学习 + 随机森林应用于 CNV 检测与引物设计
- ExonCNV 检测:强化学习优化特征权重,随机森林实现无对照样本检测。
- 多重 PCR 引物:状态空间为候选引物池,奖励函数为扩增均一性与目标覆盖度。
技术栈
| 类别 | 技能 |
|---|---|
| 机器学习/深度学习 | 随机森林、XGBoost、LightGBM、强化学习(DQN/PPO)、嵌入模型(ESM、ProtBERT) |
| 大语言模型应用 | Prompt Engineering、MCP、RAG、PDF 解析(LayoutLM / unstructured) |
| 生物计算工具 | AlphaFold2、ESM、HMMER、BLAST、PyMOL |
| 工程与流程 | Python、Snakemake、Docker、Git、阿里云(ACP)、WDL |
| 领域知识 | 肿瘤/遗传病检测、CNV/SV/SNV/Indel、ACMG 指南、LDT、引物设计 |
最近找到一些比较好的公众号文章编辑工具,所以后续文档更新会同步更新到公众号上,也欢迎大家关注