生物信息学AI智能体专用评估套件

张开发
2026/4/12 8:39:31 15 分钟阅读

分享文章

生物信息学AI智能体专用评估套件
摘要本文提出BioAgent Bench这是套用于评估AI智能体在生物信息学常规任务中性能与鲁棒性的基准数据集及评估套件。该基准包含经整理的端到端任务如RNA测序、变异检测、宏基因组学任务提示明确指定输出产物以支持自动化评估还可开展受控扰动下的压力测试。研究基于多种智能体执行框架评测主流闭源与开源权重模型并采用大语言模型评判器对分析流程进度与结果有效性进行评分。结果表明前沿智能体无需复杂定制支撑即可完成多步骤生物信息学流程且能可靠生成指定的最终产物。但鲁棒性测试显示在输入损坏、诱饵文件、提示冗余等受控扰动下智能体存在失效模式这说明高层流程的正确构建无法保证步骤级推理的可靠性。此外生物信息学工作流常涉及患者敏感数据、专有参考数据或未公开知识产权在严格隐私约束下闭源模型并不适用此类场景中即便完成率更低开源权重模型仍是更优选择。本研究公开发布数据集与评估套件。entropic, dionizije.faoutlook.com#生物信息学 #AI智能体 #基准测试 #评估套件 #大语言模型 #鲁棒性 #开源模型 #闭源模型引言图1BioAgent Bench总体架构大语言模型智能体的输入包含任务提示、输入数据与参考数据。智能体执行任务时可调用通用工具包或专用生物信息学工具。智能体完成生成后由大语言模型评判器将其输出与真实基准对比并生成评估结果。除标准「原始」输入外本研究还通过多种扰动方式对智能体进行压力测试。本次评估聚焦 10项生物信息学任务每项对应不同物种、病毒或生态系统与10种模型5种开源权重模型、5种闭源模型。基准设计表1 BioAgent Bench任务详情「可验证」表示该任务可按通过/未通过2元结果评分实验结果图2模型-任务完成率热图左图为成对完成率矩阵行对应模型、列对应任务每个单元格标注对应模型-任务组合的完成率%单元格颜色表征完成率水平同时标注数值便于阅读。右图汇总各模型在所有任务上的平均完成率给出模型整体排名。图3模型平均规划质量评分与整体流程完成率相关性散点图回归线相关系数r0.61闭源权重模型、开源权重模型鲁棒性表2多轮试验的杰卡德指数与皮尔逊相关系数记录各任务多轮试验的分类结果重合度杰卡德指数与数值结果相关性皮尔逊系数扰动分析表3 各任务智能体扰动测试结果标注是否识别损坏数据√表示表现良好、是否误用诱饵文件×表示表现良好以及提示冗余导致的完成率变化百分点负值表示性能下降详细总结思维导图BioAgent Bench核心任务属性不同框架下模型完成率%扰动测试核心结果参考BioAgent Bench: An AI Agent Evaluation Suite for Bioinformaticshttps://doi.org/10.48550/arXiv.2601.21800260308BioAgent_Bench.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。

更多文章