Sir-Bench – 安全事件响应代理的基准测试
Sir-Bench – benchmark for security incident response agents

原始链接: https://arxiv.org/abs/2604.12040

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 Sir-Bench – 安全事件响应代理的基准测试 (arxiv.org) 6 分,dan_l2 发表于 2 小时前 | 隐藏 | 过去 | 收藏 | 2 条评论 帮助 dan_l2 发表于 2 小时前 | 下一个 [–] 作者在此。现有的安全 AI 基准测试衡量知识、攻击能力或工作流程完成情况。SIR-Bench 衡量的是代理在调查过程中是否能够发现新的证据,而不是仅仅通过重述警报来得出正确结论。 794 个测试用例源自 129 种真实的事件模式,在真实的云环境中重现。 很高兴回答关于方法论、评分或我们在前沿模型中看到的失败模式的问题。回复 huangjac 发表于 2 小时前 | 上一个 [–] 哇,这很酷回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com