640.gif

 

在学术研究到企业应用中,构建端到端的生物信息学工作流程犹如搭建一座复杂的科学大厦,既要有跨领域的专业知识,又要深入理解基因组学概念和计算机技术。大型语言模型(LLMs)虽能提供一定帮助,但在执行复杂生物信息学任务时,往往难以给出细致入微的指导。

如今,多智能体平台可以通过生物信息学数据,并利用RAG进行增强,助力研发团队更好完成复杂生物信息学任务。

 

fe4cc9a87d244402b1f599b00d41b76a.gif

 

微调,即通过让预训练模型学习较小的领域特定数据集,调整其权重,使其适应特定任务,这一过程犹如对模型进行 “量身定制”,使其在特定领域表现更出色;RAG 不直接修改预训练模型,在接收用户查询后,先从外部数据存储中检索相关信息,结合用户查询与检索信息构建输入提示,将提示发送给大语言模型生成更完善的响应。相比于微调,RAG在应用难度和计算资源消耗上有显著优势,而微调的深度定制能力在需要高度专业化和精确性的应用场景中具有不可替代的价值。

 

图片1.png

图一:生物信息学多agent系统的构建、系统架构和实验设计

 

随着大型语言模型(LLM) 技术的迅猛发展,生物信息学特定语言模型(BioLM)也迅速发展。LLM 技术的突破为生物信息学计算开辟了全新路径。鉴于生物系统的复杂性以及生物信息学数据的高度结构化特性,基于 LLM 的计算方法已在基因组学、蛋白质组学和分子生物学等多个关键领域展现出强大的问题解决能力。

受 LLM 架构(如 transformers)启发,生物信息学的基础模型擅长捕捉生物数据中的复杂模式和关系。它们已经实现了从单一模态工具向复杂多模态系统的转变,整合了基因组序列、蛋白质结构等多样化的数据集。在研发智能体的应用方面,BioLM 为生物信息学领域带来了新的机遇,有望进一步推动该领域的创新与发展。

 

图片2.png

图二:LLM 在生物信息学任务中的应用

 

生物信息学的语言模型在众多关键领域发挥着重要作用,涵盖核苷酸分析、蛋白质结构与功能预测、基因组学、药物发现以及疾病建模等。在 DNA 领域,DNABERT、DNABERT - 2 以及 DNAGPT 等模型表现突出。这些模型基于大规模基因组序列进行预训练,随后可通过在特定任务相关数据上的微调,执行诸如基因启动子预测、转录因子结合位点识别以及功能变异检测等多样化的下游任务。

RNA 领域,RNABERT 等语言模型经过预训练和微调后,可用于 RNA 序列分类、RNA 二级结构预测等任务。而领域同样成果丰硕,由 Facebook AI Research 开发的 ESM 系列(Evolutionary Scale Modeling)中的 ESM - 1b,作为首批基于 Transformer 架构的大规模无监督蛋白质语言模型,利用数亿条蛋白质序列进行训练,擅长捕捉蛋白质序列中的进化信息,广泛应用于蛋白质结构、功能及变异效应预测。ProtBERT,基于 BERT 架构并由 ProtTrans 项目开发,凭借在大规模蛋白质序列数据上的预训练,在蛋白质分类、功能注释和结构预测等任务中展现出卓越性能。此外,ProGen 作为一种生成型蛋白质语言模型,依托大规模公开的蛋白质序列数据库进行训练,能够从头生成符合特定功能需求的蛋白质序列,有力地支持了蛋白质工程和功能改造研究。

atlas.png

明度「ATLAS」智能体平台将陆续集成多模态生物医药大语言模型,进一步增强智能体在研发任务的处理能力,赋能医药企业研发效率提升。

作为国内首个医药垂直领域智能体平台,明度「ATLAS」已深度融合「DeepSeek」,为企业提供了更加智能化的运营方式。作为生物医药行业AI垂直应用的领跑者,明度已经率先实现了行业内生物医药场景的商业化落地和标杆案例。未来,明度将进一步推动AI技术与业务场景的深度融合,为生物医药企业提供最先进的数智化工具,赋能医药企业智能化转型,推动产业向更高效、更精准、更智能的方向发展。

 

如有兴趣请通过下方二维码/电话联系我们,为您分享更多明度行业案例、定制化设计以及AI浪潮下的数智化转型思路。

 

 

参考文献:

(1)Large Language Models for Bioinformatics. arXiv preprint arXiv:2501.06271.

(2)BioAgents: Democratizing Bioinformatics Analysis with Multi-Agent Systems. arXiv preprint arXiv:2501.06314.

 

业务咨询

扫描二维码联系我们
 

图片

 

免费咨询电话
400-600-9163

 

 
MINGDU
往期回顾   
 

让AI真正懂医药!明度ATLAS率先集成DeepSeek,开启行业现象级AI聚变

 

生物药研发数字化利器——序列编辑器加速国产替代

 

明度质量管理套件|AI引领质量管理新纪元的“数智密钥”

 

复宏汉霖与明度智云携手AI,释放数据潜力,共塑未来

 

620215c9-47d8-4ffb-bd18-6b2cac10006a.png

 

nmZRu7tw_t7YE.gif

 

生物信息学革命:AI研发智能体重塑行业未来

明度智云    新闻中心    生物信息学革命:AI研发智能体重塑行业未来
创建时间:2025-02-11 08:00