Ben-air


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

  • 搜索

Nucleotide_Transformer-building_and_evaluating_robust_foundation_models_for_human_genomics

发表于 2024-12-27 | 分类于 Tobeinsert
Nucleotide Transformer 是一个 DNA 序列预训练基础模型,参数范围从 5000 万到 25 亿个参数,并集成了来自 3,202 个人类基因组的信息和850各其他物种的基因组信息。期实例包括在蛋白质序列上训练语言模型,他们的任务是预测大型蛋白质序列数据集中的隐藏氨基酸。当使用迁 ...
阅读全文 »

Sequence modeling and design from molecular to genome scale with Evo

发表于 2024-12-26 | 分类于 LLM , 算法
DNA是遗传物质,其重要性不言而喻,针对DNA、RNA和蛋白的研究也层出不穷。之前有很多基于Transformer的DNA模型,受限于起本身上下文长度的限制,经常采用寡居核苷酸而不是单碱基所谓模型训练/学习的基本单位。而本问开发的Evo模型,是一个包含7-billion-参数 的模型,训练以用来在全 ...
阅读全文 »

5003.大模型-架构-transformer-3.tokenizer

发表于 2024-12-24 | 分类于 LLM
由于神经网络模型不能直接处理文本,因此我们需要先将文本转换为数字,这个过程被称为编码 (Encoding),其包含两个步骤: 使用分词器 (tokenizer) 将文本按词、子词、字符切分为 tokens; 将所有的 token 映射到对应的 token ID。 分词策略根据切分粒度的不同,分词 ...
阅读全文 »

5003.大模型-架构-transformer-2.modle

发表于 2024-12-24 | 分类于 LLM
除了像之前使用 AutoModel 根据 checkpoint 自动加载模型以外,我们也可以直接使用模型对应的 Model 类,例如 BERT 对应的就是 BertModel:12from transformers import BertModelmodel = BertModel.from_pre ...
阅读全文 »

0009.概念-术语-embeddings嵌入

发表于 2024-12-24 | 分类于 machine_learning
嵌入是值或文本、图像和音频等对象的表示,旨在供机器学习模型和语义搜索算法使用。它们根据每个物体可能有或可能没有的因素或特征,以及它们所属的类别,将这些物体转化为数学形式。 从本质上讲,嵌入能让机器学习模型找到相似的对象。给定一张照片或一份文档,使用嵌入的机器学习模型就能找到类似的照片或文档。由于嵌入 ...
阅读全文 »

大模型-编程基础-transformers-运行微调模型

发表于 2024-12-23 | 分类于 LLM
加载模块前,请记得升级 transformers的版本到最新版 pip install -U transformers,开始没升级,用的 4.27 各种报错,尤其是刚接触一度怀疑本地包的参数有问题浪费了不少时间,其实发现升级到新版就都可以正常使用了。 另外由于每个模型在训练的时候,会有固定对应的分词 ...
阅读全文 »

5003.大模型-基础架构-transformer

发表于 2024-12-23 | 分类于 LLM
Transformer是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人在首次提出。Transformer架构引入了自注意力机制(self-attention mechanism),这是一个关键的创新 ...
阅读全文 »

5003.大模型-基础架构-hyena鬣狗

发表于 2024-12-23 | 分类于 LLM
https://ermongroup.github.io/blog/hyena/https://arxiv.org/pdf/2302.10866https://colab.research.google.com/github/expz/annotated-hyena/blob/master/anno ...
阅读全文 »

Detection of germline CNVs from gene panel data- benchmarking the state of the art

发表于 2024-12-17 | 分类于 NGS , 文献 , software
原文链接:Detection of germline CNVs from gene panel data: benchmarking the state of the art 胚系CNV检测是遗传性疾病检测的重要手段,在遗传性疾病的检测中发挥着重要的作用。但是在NGS检测中,准确检测CNV仍然是一项 ...
阅读全文 »

shell-变量设置

发表于 2024-12-12 | 分类于 Tobeinsert
资料https://c.biancheng.net/view/773.html set设置了当前shell进程的本地变量,本地变量只在当前shell的进程内有效,不会被子进程继承和传递。 env仅为将要执行的子进程设置环境变量。 export将一个shell本地变量提升为当前shell进程的环境变量 ...
阅读全文 »
1…567…47
Ben-air

Ben-air

468 日志
97 分类
144 标签
GitHub Twitter Wechat Weibo DouBan ZhiHu
© 2026 Ben-air
已有人访问 | 总访问次