关于|about Me

欢迎来到Ben-air的博客

方向: 生物信息 & AI 方向

资深生物信息工程师 | 机器学习/深度学习应用 | 大模型智能体实践
📧 ben_air@foxmail.com · 🔗 github.com/Ben-unbelieveable · 📍 天津

个人简介

超十年生物信息领域学习工作经验;
8年以上基因组学、肿瘤与遗传病临床检测领域研发经验,具备生物信息 + 人工智能交叉背景。
在酶改造、CNV检测、引物设计、变异解读等场景中成功落地嵌入模型、强化学习、随机森林、大语言模型智能体等技术。
致力于将AI方法应用于生物序列、结构与文献数据,推动研发与临床交付的智能化升级。

工作经历

擎科生物 · 生物信息工程师(2026.3 – 至今)

  • 酶改造项目:基于蛋白质嵌入模型(ESM / ProtBERT)与结构预测模型(AlphaFold2)构建特征采集管线,配合机器学习头(MLP / LightGBM)实现酶性能预测,指导湿实验筛选。
  • 抗体序列标注:开发抗体可变区、CDR区的自动化标注流程,为AI驱动抗体设计提供高质量训练数据。

华大基因 · 生物信息高级工程师 / 团队负责人(2024.1 – 2026.2)

  • 临床单基因病产品线(年销量2亿):主导携带者/新生儿/WES产品的容器化改造(WDL + Docker),实现可复现流程。
  • AI驱动的算法开发
    • 强化随机森林 ExonCNV 检测:针对假基因干扰,无对照样本下灵敏度 72% → 92%,特异性 100%。
    • 强化学习 PCR 引物设计(PPO/DQN):捕获效率提升 50%,达商业化水平。
    • AI 智能体(MCP + Prompt优化):自动检索文献、解析全文、提取证据,文献一致性 100%,解读效率提升 20 倍以上。

华大基因 · 肿瘤事业部(2017.6 – 2024.1)

  • 负责泛癌检测产品“华梵安”(年销 5000 万+),入院 30+,主导 LDT 方法学评估。
  • 带领团队落地核心算法:SNV、InDel、CNV、SV、TMB、MSI、UMI。
  • 推动流程统一(Snakemake + Git),降低 80% 冗余开发成本。
  • 构建云计算能力(OSS、ECS、阿里云基因分析平台),降低存储成本 70 万/年,团队多人获得 ACP 认证。

北京百迈客 · 生物信息工程师 / 产品经理(2016.6 – 2017.6)

  • 设计并开发基因组数据库,构建公共数据自动化爬取与更新框架(GEO、SRA、Ensembl)。

代表性 AI 项目

1. AI 智能体 —— 遗传变异自动文献解读与致病性判读

  • 问题:传统遗传解读依赖人工检索文献,成本高、周期长。
  • 方案:输入变异 → 自动检索 → 获取全文 PDF → 解析图片/表格/文本 → 大模型结构化判读(Prompt + MCP)。
  • 效果:与人工专家一致性 100%,单样本人工解读从 5 小时降至接近 0。

2. 强化学习 + 随机森林应用于 CNV 检测与引物设计

  • ExonCNV 检测:强化学习优化特征权重,随机森林实现无对照样本检测。
  • 多重 PCR 引物:状态空间为候选引物池,奖励函数为扩增均一性与目标覆盖度。

技术栈

类别 技能
机器学习/深度学习 随机森林、XGBoost、LightGBM、强化学习(DQN/PPO)、嵌入模型(ESM、ProtBERT)
大语言模型应用 Prompt Engineering、MCP、RAG、PDF 解析(LayoutLM / unstructured)
生物计算工具 AlphaFold2、ESM、HMMER、BLAST、PyMOL
工程与流程 Python、Snakemake、Docker、Git、阿里云(ACP)、WDL
领域知识 肿瘤/遗传病检测、CNV/SV/SNV/Indel、ACMG 指南、LDT、引物设计
联系方式 : ben_air@foxmail.com

最近找到一些比较好的公众号文章编辑工具,所以后续文档更新会同步更新到公众号上,也欢迎大家关注

公众号 : 生信知识库