DeepMind启动QuestBench:检查大型推理和信息获取

日期:2025-04-29 浏览:

4月26日,相关报告指出,Google的DeepMind团队推出了一个名为QuestBench的新基准工具。该工具旨在评估大语言模型(LLM)的能力,以通过满意问题框架(CSP)来识别和获取有关理解任务的缺失信息。在实际应用程序方案中,侵权活动占据了许多领域,例如数学,逻辑,计划和编码。但是,实际应用通常充满了不确定性。例如,在提出数学问题时,用户可以忽略重要的细节,而诸如机器人之类的自主系统需要在某些信息未被注意到的环境中运行。实际上,将完整的信息设置与不完整的信息问题之间的这种矛盾实际上确定了积极功能在获取LLMS信息方面的发展。该模型的关键为模糊情况提供了准确的解决方案是识别信息的能力离子差距,提出目标澄清问题。为了应对这一挑战,研究人员已经开发了一个QuestBench基准,专门用于审查LLMS识别识别任务缺失信息的能力。 QuestBench将以富有同情心的问题(CSP)形成该问题,重点是“ 1-sufficial CSP”,也就是说,您只需要知道未知变量的值即可解决可变目标的问题。 QuestBench涵盖了三个领域:主要学校的逻辑推理,计划和数学,以及Inuri四个方面的难度:变量的数量,障碍的数量,搜索深度以及暴力搜索所需的预测数量,因此准确地揭示了识别瓶颈模型和表现的方法。在试验期间,Questbench审查了几个顶级模型,包括GPT-4O,Claude 3.5十四行诗和Gemini 2.0的实验思维。测试设置包括零样本,链信号的思考和四个样本信号。测试时间是从2024年6月到2025年3月,涉及主要学校(GSM-Q)的288个数学问题,并在主要学校(GSME-Q)扩展了数学问题的151个。测试结果表明,思维链通常会改善模型性能,并且在计划任务时,Gemi执行Wellby 2.0 Flash思考实验。开放的资源模型具有逻辑推理的竞争力,但在复杂的数学问题上表现弱。研究指出,当前模型在简单的代数问题上表现良好,但是随着问题的复杂性的增加,其性能已大大下降,这表明仍然有很大的空间来提高识别和阐明信息差距的能力。

0
首页
电话
短信
联系