返回首页

GPT-4Gemini大翻车做旅行攻略成功率≈0%!复旦OSU等华人团队:Age

时间:2024-02-06 来源:原创/投稿/转载作者:管理员点击:

  最近,复旦、俄亥俄州立大学、Meta和宾夕法尼亚州立大学的研究者发现,GPT-4 Agent规划旅行只有0.6%成功率!离在人类复杂环境中做出规划,智能体还任重道远。

  然而,最近复旦、俄亥俄州立大学、宾夕法尼亚州立大学、Meta AI的研究者们发现,AI智能体在现实世界的规划能力还很差。

  他们对GPT-4 Turbo、Gemini Pro、Mixtral 8x7B等进行了全面评估,发现这些大模型智能体全部翻车了!即使是表现最好的,成功率也仅有0.6%。

  长久以来,研究人员一直在努力让AI智能体模仿人类的规划能力,但这些尝试大多局限于受限的环境中。

  这些由LLM驱动的语言智能体,成为了2023年的热门话题,很多人预言,它们会在2024年被广泛应用于现实世界中。

  它们通过使用语言作为思考和交流的工具,展现出了包括工具使用和多种推理形式在内的诸多能力,如此与众不同。

  为此,研究者们开发了一个名为TravelPlanner的新规划基准,它专门针对一个我们日常生活中经常会遇到的场景——规划旅行。

  即使对人类而言,这项任务也充满挑战,十分耗时。但大部分还是可以成功完成,只要使用合适的工具、投入足够的时间。

  当接收到一个查询请求时,语言智能体的任务是运用多种搜索工具来搜集必要的信息。根据搜集到的资料,这些智能体需要制定出一个方案。这个方案不仅要精确满足用户在查询中提出的需求,还必须合乎常识,即遵循那些不言自明的基本原则和约束

  制定一个优秀的旅行计划并不容易,即使是专业标注人员,也平均需要12分钟来完成一个计划的标注。

  TravelPlanner提供了一个包含约400万条互联网爬取数据的丰富沙盒环境,这些数据可以通过6种工具来访问。

  研究者对当前最先进的大语言模型(GPT-4、Gemini、Mixtral等)和规划策略(如ReAct、Reflexion等)进行了全面评估,但最高的成功率仅为0.6%(在1000次尝试中仅有6次成功)。

  在保持任务的焦点、使用正确的工具收集信息或同时处理多个约束方面,LLM智能体都遇到了重重困难。

  而TravelPlanner也有望成为非常有意义的测试平台,帮助未来的LLM智能体在复杂环境中实现接近人类水平的规划能力。

  向LLM提出问题「我要从西雅图去加州,时间是2023年11约6日到10日。6000刀预算,住宿要能接受宠物,而且要整间房子。」

  TravelPlanner是一个专为评价LLM智能体在使用工具和在多种约束条件下进行复杂规划的能力而定制的基准。

  TravelPlanner的目标是,检验语言智能体能否在满足这些约束的同时,通过利用各种工具收集信息并做出决策,来制定出合理的旅行计划。

  总共有1,225个不同的查询,通过设置不同的天数和硬性约束,来测试智能体在复杂规划的广度和深度方面的表现。

  为了判断智能体能否识别、理解并满足不同的约束条件来制定出可行的计划,研究者在 TravelPlanner中设置了三种类型的约束。

  对于某些目的地,可能在特定时间内找不到航班(比如下图中西雅图到旧金山的航班无法预订),这种情况往往是因为机票已售罄。

  因此,TravelPlanner融入了诸如预算限制等多种用户需求,这些需求可以称之为硬性约束。

  TravelPlanner的构建步骤包括:1)设置评估环境;2)设计多样化的旅行查询;3)标注参考计划;4)进行质量检查。

  其中,为了生成多样化的查询,研究者将包括出发城市、目的地和特定的日期范围等要素,通过随机选择组合起来,构成了每个查询的基础框架。

  举例来说,3天的行程专注于探索一个城市,而5天和7天的行程则分别安排访问2个和3个城市,这些城市位于随机选择的一个州内。

  随着天数的增加,语言智能体需要更频繁地使用工具,这不仅增加了规划的难度,还要求智能体处理长期规划的复杂性。

  此外,研究者还引入了各种用户需求作为硬性条件,以此来进一步增加查询的复杂性和真实性。这些难度等级分为三类:

  此级别的查询主要考虑单人的预算限制,每个查询的起始预算根据一系列精心设计的启发式规则来确定。

  中等难度的查询在预算限制的基础上,增加了一个从约束池中随机选取的额外硬性条件,比如菜系偏好、房型选择和住宿规则。

  困难级别的查询除了包括中等难度的所有条件外,还额外加入了交通偏好作为一个新的约束条件。每个困难查询都包含三个从约束池中随机选出的硬性条件。

  如表3所示,即便是依托于GPT-4-Turbo技术的智能体,在收集信息的过程中也会出错,从而无法成功制定出计划。

  即便使用了GPT-4-Turbo,无效的操作和重复操作的循环也分别占据了错误总数的 37.3%和6.0%。

  研究者在表4中详细分析了各种约束条件的通过率,发现了一些有趣的现象:智能体的性能受到硬性约束数量的明显影响。

  不论任务难度如何,智能体的通过率普遍不超过10%,并且随着约束条件的增加,其性能进一步下降。

  这表明,当前的智能体在处理具有多重约束的任务时遇到了挑战,这正是TravelPlanner的核心难点所在。

  这意味着智能体往往无法完成全面的信息搜集,它们可能会编造信息或遗漏重要细节,导致在「沙盒环境中测试」和「信息完整性」这两个约束条件下的通过率偏低。

  此外,随着旅行时间的延长,这种差距愈发显着,突显了智能体在处理长期规划任务方面需提升能力的迫切性。

  智能体在处理需要考虑整体策略的规划任务时面临很大的挑战,特别是当任务涉及到「最少入住天数」和「预算」这样的全局约束时。

  然而,目前的LLM由于自回归的特性,难以同时考虑多个未来可能的情况,这大大限制了它们的规划能力。

  因此,迫切需要开发新的策略,比如使用回溯技术来调整已经做出的决策,或者采用启发式方法来进行更有远见的规划,以提高智能体的表现。

  特别是在工具使用场景中,即便前面的步骤都按照计划正确执行,智能体也常常因为诸如日期输入错误这样的小失误而无法成功完成计划。

  图3左侧清晰地显示了这一点:即使操作无误,智能体也会反复使用错误的日期,导致基于2022年数据的TravelPlanner沙盒返回空结果,最终使智能体放弃继续规划。

  通过详细分析可以发现,智能体在单独规划模式下,即使拥有充足的信息,也会将不同的信息混为一谈。

  图3的中间部分显示:智能体错误地为往返航班分配了相同的航班号,这种错误使得计划中的信息与沙盒数据不一致,造成了所谓的「幻觉」。

  这表明,当智能体面对大量信息时,可能会出现「中途迷失」(Lost in the Middle)的现象。

  通过研究Reflexion的案例,可以发现智能体在认识到需要降低成本的同时,却倾向于随机选择物品,包括一些价格较高的选项。

  图3的右侧部分清楚地展示了智能体的思考与行为之间的不一致,这种差异表明,智能体难以将它们的分析推理与实际行动同步,这严重影响了它们的任务完成率。

  在下面的case中,语言智能体一直在犯关于日期的错误,还对飞机旅行太多固执己见,导致它放弃了有效的信息搜索。

  另外,它还编造了虚构的航班号「F1234567」等细节。这就表明智能体在无法获取准确数据时具有编造错误信息的倾向。

  在下面的case中,语言智能体为第一天的午餐和第二天的早餐都选择了同一家餐厅,这种选择似乎有悖常理。

  共同一作Jian Xie,是复旦大学计算机科学专业的硕士生。导师是复旦大学知识工场实验室的肖仰华教授以及俄亥俄州立大学的苏煜教授。他的研究主要集中在自然语言处理领域,尤其是目前专注于检索增强生成(RAG)和语言智能体方面。最近的研究探讨了在RAG场景中LLM的知识偏好,以及工具增强语言智能体的规划能力。

  共同一作Kai Zhang,是俄亥俄州立大学的博士生,导师是苏煜教授。同时也在Google DeepMind担任兼职学生研究员。他对自然语言处理及其在现实世界的应用充满兴趣。近期专注于从知识和多模态性角度探索LLM。

  最近特别关注的一个研究项目是「大语言模型的知识冲突」——LLM是否能够有效利用外部信息(例如新版Bing和具备互联网功能的ChatGPT),尤其是在这些信息与它们的参数记忆相冲突时。

【责任编辑:管理员】
上一篇:乡镇里最有实权的是哪些人 下一篇:没有了
随机推荐 更多>>