欢迎来到Ben-air的博客

方向：生物信息 & AI 方向

资深生物信息工程师 | 机器学习/深度学习应用 | 大模型智能体实践
📧 ben_air@foxmail.com · 🔗 github.com/Ben-unbelieveable · 📍 天津

个人简介

超十年生物信息领域学习工作经验；
8年以上基因组学、肿瘤与遗传病临床检测领域研发经验，具备生物信息 + 人工智能交叉背景。
在酶改造、CNV检测、引物设计、变异解读等场景中成功落地嵌入模型、强化学习、随机森林、大语言模型智能体等技术。
致力于将AI方法应用于生物序列、结构与文献数据，推动研发与临床交付的智能化升级。

工作经历

擎科生物 · 生物信息工程师（2026.3 – 至今）

酶改造项目：基于蛋白质嵌入模型（ESM / ProtBERT）与结构预测模型（AlphaFold2）构建特征采集管线，配合机器学习头（MLP / LightGBM）实现酶性能预测，指导湿实验筛选。
抗体序列标注：开发抗体可变区、CDR区的自动化标注流程，为AI驱动抗体设计提供高质量训练数据。

华大基因 · 生物信息高级工程师 / 团队负责人（2024.1 – 2026.2）

临床单基因病产品线（年销量2亿）：主导携带者/新生儿/WES产品的容器化改造（WDL + Docker），实现可复现流程。
AI驱动的算法开发：
- 强化随机森林 ExonCNV 检测：针对假基因干扰，无对照样本下灵敏度 72% → 92%，特异性 100%。
- 强化学习 PCR 引物设计（PPO/DQN）：捕获效率提升 50%，达商业化水平。
- AI 智能体（MCP + Prompt优化）：自动检索文献、解析全文、提取证据，文献一致性 100%，解读效率提升 20 倍以上。

华大基因 · 肿瘤事业部（2017.6 – 2024.1）

负责泛癌检测产品“华梵安”（年销 5000 万+），入院 30+，主导 LDT 方法学评估。
带领团队落地核心算法：SNV、InDel、CNV、SV、TMB、MSI、UMI。
推动流程统一（Snakemake + Git），降低 80% 冗余开发成本。
构建云计算能力（OSS、ECS、阿里云基因分析平台），降低存储成本 70 万/年，团队多人获得 ACP 认证。

北京百迈客 · 生物信息工程师 / 产品经理（2016.6 – 2017.6）

设计并开发基因组数据库，构建公共数据自动化爬取与更新框架（GEO、SRA、Ensembl）。

代表性 AI 项目

1. AI 智能体 —— 遗传变异自动文献解读与致病性判读

问题：传统遗传解读依赖人工检索文献，成本高、周期长。
方案：输入变异 → 自动检索 → 获取全文 PDF → 解析图片/表格/文本 → 大模型结构化判读（Prompt + MCP）。
效果：与人工专家一致性 100%，单样本人工解读从 5 小时降至接近 0。

2. 强化学习 + 随机森林应用于 CNV 检测与引物设计

ExonCNV 检测：强化学习优化特征权重，随机森林实现无对照样本检测。
多重 PCR 引物：状态空间为候选引物池，奖励函数为扩增均一性与目标覆盖度。

技术栈

类别	技能
机器学习/深度学习	随机森林、XGBoost、LightGBM、强化学习（DQN/PPO）、嵌入模型（ESM、ProtBERT）
大语言模型应用	Prompt Engineering、MCP、RAG、PDF 解析（LayoutLM / unstructured）
生物计算工具	AlphaFold2、ESM、HMMER、BLAST、PyMOL
工程与流程	Python、Snakemake、Docker、Git、阿里云（ACP）、WDL
领域知识	肿瘤/遗传病检测、CNV/SV/SNV/Indel、ACMG 指南、LDT、引物设计

联系方式： ben_air@foxmail.com

最近找到一些比较好的公众号文章编辑工具，所以后续文档更新会同步更新到公众号上，也欢迎大家关注

公众号：生信知识库