xbench

  • xbench发布AgentIF-OneDay评测

      随着大模型在单点推理上日益逼近PhD水平,Agent领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显乏力。为精准评估大模型的多模态理解与复杂问题解决能力,红杉中国…

    1天前
    2.8K
企业微信
运营大叔公众号
运营宝库
运营宝库H5