一些比赛项目的时间记录,本文档记录 阿里云天池 项目,生命科学赛道——生物学年龄评价与年龄相关疾病风险预测 的相关记录。
环境安装
项目使用机器学习的方法,基于甲基化数据进行年龄预测。所以需要先进行相关环境的安装。
避免历史环境的干扰,本项目使用conda直接创建了一个全新的基础环境。1
2 基于python=3.11 创建全新的conda环境,同时安装 h5py和scikit-learn包
conda create -n tianchi2023 python=3.11 h5py scikit-learn
后期为了更好的对数据进行可视化操作,和交互式的进行模型的训练,安装了jupyter1
pip3 install jupyter
阿里云的jupyter存在端口权限,需要进行端口映射。1
ssh liubo4@120.24.188.250 -L127.0.0.1:8889:127.0.0.1:8889
使用官方baseline
| 迭代版本 | 使用方法 | 成绩 |
| 第 1 次 |天池提供的baseline (ElasticNet()) | (8.579980758705524, 9.329089, 7.830872352677162) |
| 第 2 次 | ElasticNet(0.1) | (5.659034220859258, 6.588447, 4.729621347754892) |
| 第 3 次 | ElasticNet(0.05) | (5.513496300186773, 6.4005265, 4.626466076783459) |
| 第 4 次 | ElasticNet(0.01) | (6.3587627338640615, 7.2758136, 5.441711888168797) |
| 第 5 次 | Lasso(alpha=0.05) | (5.638377567734381, 6.5338798, 4.742875378541272) |
训练集和仅使用健康人群
| 迭代版本 | 训练参数 | 成绩 |
| 第 2 次 | ElasticNet(0.1) | (6.068306326553264, 6.2521014, 5.884511231750328) |
| 第 3 次 | ElasticNet(0.05) | (6.002052213263324, 6.1584253, 5.845679095410925) |
| 第 5 次 | Lasso(alpha=0.05) | (6.085405076269716, 6.349815, 5.820995260724246) |
训练集和仅使用健康人群,位点数扩展至20000
| 迭代版本 | 训练参数 | 成绩 | 用时 |
| 第 1 次 | ElasticNet(0.1) | (4.474091597156978, 4.4790444, 4.469138756905508) | 33s |
| 第 2 次 | ElasticNet(0.05) | (4.429926482228302, 4.287037, 4.57281606870465) | |
| 第 3 次 | Lasso(alpha=0.05) | (4.400938993393588, 4.433994, 4.367884170411444) | 34s |
训练集和仅使用健康人群,位点数扩展至100000( 20W已经无法再16GB下运行)
| 迭代版本 | 训练参数 | 成绩 | 用时 |
| 第 1 次 | ElasticNet(0.1) | (3.8419492549466012, 3.6467113, 4.037187160405898) | 165s |
| 第 2 次 | ElasticNet(0.05) | (3.726990224723529, 3.4416575, 4.012322906264685) | 162s |
| 第 3 次 | Lasso(alpha=0.05) | (3.886337189746082, 3.7988966, 3.9737778283599625) | 165s |
训练集混用健康和非健康人群,位点数扩展至100000( 20W已经无法再16GB下运行)
| 迭代版本 | 训练参数 | 成绩 | 用时 |
| 第 1 次 | ElasticNet(0.1) | (3.4642932672596456, 3.707379, 3.221207431812382) | 215s |
| 第 2 次 | ElasticNet(0.05) | (3.262297007905778, 3.4586637, 3.0659303138004477) | 213s |
| 第 3 次 | Lasso(alpha=0.05) | (3.4673917658963997, 3.76499, 3.1697934404689465) | 209s |
训练集混用健康和非健康人群,服务器运行位点扩展至全部数据(训练集 70%)
| 迭代版本 | 训练参数 | 成绩 | 用时 |
| 第 1 次 | ElasticNet(0.05) | (3.1139186428174943, 3.1427836, 3.0850536438198026) | 839s |
| 第 1 次 | ElasticNet(0.1) | (3.2288436084070304, 3.2900968, 3.1675904570179183) | 817s |
| 第 1 次 | Lasso (0.1) | (3.153165288490824, 3.384533, 2.9217976485148514) | 816s |
训练集用健康人群,服务器运行位点扩展至全部数据(训练集 70%)
| 迭代版本 | 训练参数 | 成绩 | 用时 |
| 第 1 次 | ElasticNet(0.05) | (3.9090402715439425, 3.5266752, 4.291405318783686) | 639s |
训练集用全部,服务器运行位点扩展至全部数据,Nan使用位点的甲基化均值填充 (训练集 70%)
| 迭代版本 | 训练参数 | 成绩 | 用时 |
| 第 1 次 | ElasticNet(0.05) | (2.976909323353664, 3.2731206, 2.6806980049989533) | 815s |
训练集用全部,服务器运行位点扩展至全部数据,Nan使用位点的甲基化均值填充 (训练集 80%)
| 迭代版本 | 训练参数 | 成绩 | 用时 |
| :——- | —————- | ————————————————– | —: |
| 第 1 次 | ElasticNet(0.01) | (2.9917520688953543, 3.058976, 2.9245282028084088) | 964s |