OpenAI开源浏览智能体评测基准BrowseComp

当地时间4月10日,美国开放人工智能研究中心(OpenAI)宣布开源包含1266个挑战性问题的基准测试BrowseComp。OpenAI表示,一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。现有基准测试(如SimpleQA)主要衡量模型检索基本孤立事实的能力,这类测试已被具备快速浏览工具(如支持浏览功能的GPT-4o)的模型所饱和。为了衡量AI智能体在互联网上定位难以查找、相互关联信息的能力,现开源基准测试BrowseComp。

    广告等商务合作,请点击这里

    未经正式授权严禁转载本文,侵权必究。

    打开界面新闻APP,查看原文
    界面新闻
    打开界面新闻,查看更多专业报道

    热门评论

    打开APP,查看全部评论,抢神评席位

    热门推荐

      下载界面APP 订阅更多品牌栏目
        界面新闻
        界面新闻
        只服务于独立思考的人群
        打开