Chatgpt现在可以考虑操作,积极选择工具,并使用自己的虚拟计算机为您完成任务。代理AI时期到达的时间比我们想象的要早。在星期五的早晨,北京的时间,Openai突然开始了新产品的现场直播。目前,新的ChatGpt代理已发布,对一般代理商的功能进行了重大升级。与以前的模型升级不同,通用代理可以自动使用各种工具来计划帮助人们完成复杂的任务,包括自动浏览用户日历,成立编辑的PPT,运行代码等。代理可以将您的Gmail和GitHub网站连接起来,以获取信息并解决问题,并使用API访问不同的应用程序。代理支持的AI智能大大改善了基于ChatGpt代理的模型在HLE基准测试中得分41.6%,几乎用O3和O4-Mini获得了两次。 ChatGpt代理当前向OpenAI Pro开放,加上订阅用户和团队计划。想要从Chatgpt的下拉工具菜单中仅使用“代理模式”的用户。 Openai表示,预计商业和教育用户第二天将获得新功能。在官方发布时,Pro用户通常可以使用每月最多400次的代理信号,而其他费用用户最多可以使用40次。目前尚不清楚该功能何时将用于聊天免费用户。这是迄今为止最多的-naka -bold新Openai产品,从那时起,Chatgpt已成为可以为人们采取行动和共享活动的代理产品,而不是回答问题。观看使用计算机执行复杂任务的ChatGpt代理对我来说是一个真正的“ AGI感觉”时刻,看到计算机思考,计划和实施会带来不同的感觉。 Chatgpt现在可以使用自己的虚拟计算机为您完成任务,从头到尾处理复杂的任务。用户不仅可以允许chatgpt提出诸如“查询年度财务报告”之类的请求,而且可以明智ly浏览网站并进行灌输结果,激励您安全登录,运行代码,进行评论,并提供M Mai -Edit幻灯片和电子表格,以总结其研究结果。例如,让“ ChatGpt Agent搜索和查询旧金山城市年度全面财务报告(2020-2024)”:例如,请输入我是网球迷,想去棕榈泉去看网球比赛,尤其是在半决赛/决赛中,尤其是在半决赛/决赛期间。突破,以及与操作员的网站的互动,全面的研究功能以及CHATGPT和对话能力的智能推理。开车。最重要的是,用户始终具有一般控制。 Chatgpt会在执行任何重要操作之前要求您征得您的许可,并且您还可以随时中断任务,覆盖浏览器或停止运行。 “尽管ChatGpt代理可以同时处理反馈,但此版本仅仅是开始。我们将继续重复并定期进行重大改进,以使其更强大,更实用并为更多的用户提供服务。”操作员和深度研究在-Deppth In -Depth In -Depth Research中具有独特的好处:操作员可以滚动,单击,输入Weel页面,同时进行良好的研究,同时进行研究,并在研究和总结并概述并成长为读书和总结。情况,每个用户试图使用运营商处理任务的不可能的领域,每个人都不是Goodenai,实际上更适合于深度研究,因此他们决定包括两者的好处。通过合并辅助CHATGPT功能并引入更多工具,OpenAI开口是完整的y模型中的新功能。它可以与网站进行积极互动 - 单击,过滤和收集更准确有效的结果。 Yonghu还可以从自然沟通中无缝移动到在同一对话中提出特定的操作请求。 OpenAI包括具有完整工具集的ChatGpt代理:包括通过图形用户界面与网页交互的视觉浏览器,用于处理简单Web查询护理的文本浏览器,终端(命令行的接口)以及直接调用API的功能。代理商还可以使用ChatGpt连接器转换Gamal应用程序,例如AIL,GitHub已连接以使Chatgpt能够查找与您的信号相关的信息,并将其与您的答案一起使用。用户还可以通过获取浏览器来登录任何网站上的帐户,从而帮助其搜索信息并更深入地执行任务。提供chatgpt访问和与网页信息互动的多种方法意味着ChatGpt代理可以选择更好地完成任务的最佳途径。例如,它可以通过API获取信息到用户日历,使用文本浏览器有效地处理Big Hatext内容,并且还可以通过视觉界面与为人们设计的网站进行协调。所有这些操作均在ChatGpt自己的虚拟机上执行,并在使用多个工具时维护任务所需的上下文信息。 ChatGpt代理可以选择使用文本浏览器或视觉浏览器打开网页,如果需要,从Internet下载文件,运行终端命令来处理文件,然后通过Visual Browser查看输出结果。同时,通过任务调整该方法以快速,准确,准确,高效。 ChatGpt代理专为与工作流程的迭代合作而设计,比以前的型号更具交互性和灵活性。在实施任务的chatgpt时,用户可以随时介绍它,澄清一下该机构拉力,将其朝着所需的方向移动,或完全替换任务内容。它将继续处理新信息,而不会失去其先前的开发。此外,Chatgpt正在积极请求用户的更多详细信息,以确保活动始终符合目标。如果任务所做的超过预期或减少,则用户可以选择暂停任务,请求发展摘要或直接终止任务并获得一些当前结果。如果用户在手机上安装了ChatGpt应用程序,则该任务完成后也将发送通知。基准结果:扩大现实世界ChatGpt代理的实用性并提高模型背后的能力是Maktop在许多基准测试中的Maktop性能,审查包括Web浏览和现实世界完成任务在内的内容。其中,在对人类S的最终审查中,该评论衡量了AI在各个领域的专家问题上的表现,该模型支持了THE ChatGpt代理在本评估中的通过@1分为41.6。由于代理可以计划动态并独立选择工具,因此它可以以不同的方式处理相同的任务。当在平行运行中缩放一个简单的同时运行八次尝试时,并以对自我报告的最高信心选择结果时 - HLE代理标记增加到44.4。 Frontiermath是数学中最困难的基础,称为准确的试验,其中包含新的和非专业的问题,通常持续时间甚至Daysto解决数学专家。凭借使用工具(例如访问终端执行代码)的能力,ChatGpt代理在此测试中获得了27.4%的精度,这主要是先前的模型。 Openai还使用模仿复杂实际活动的基准审查了该模型。在基于知识的复杂,经济知识的任务中审查模型性能的内部基准上,ChatGpt代理的输出与大约一半CA的人相提并论SES,甚至比人更好,完成任务的时间范围不同,并且比O3和O4-Mini模型更好。在DSBENCH基准中,它用于评估代理在涵盖数据审核和建模的实际数据科学活动中的性能。 Chatgpt代理人超过了人的绩效,并具有明显的好处。在电子表格板基地的基准上,它用于检查模型处理现实生活表编辑任务的能力。 CHATGPT代理比现有模型更大。当可以直接编辑电子表格的能力时,它得分为45.5%,而Excel中的Copilot仅为20.0%。该过程如下:使用电子表格板套件,使用基于Windows系统的Microsoft Excel环境来评估电子表格活动。 OpenAI使用MacOS和Freeoffice系统,这可能会导致评分的细微差异。例如,作者报告说,GPT-4O在整体高难度限制项目上得分为15.02%,而Openai的量为13.38%。 OpenAI使用包含所有912个问题的完整基准测试集。 Openai在内部基准上研究了模型的技能,以处理投资银行分析师的第三年建模活动,例如:为《财富》 500强的标准格式和报价创建三个主要的财务报表。就是这样。 Openai还在BrowseComp基准测试中检查了ChatGpt代理。 OpenAI于今年早些时候发布的基准测试用于衡量浏览代理查找困难的网络信息的能力。 ChatGpt代理在此测试中设定了新的SOTA(目前最佳性能),得分为68.9%,比深度研究中的17.4%的得分高出17.4%。最后,Inon webarena基准测试,它用于评估Web浏览代理以完成真实的Web任务。 Chatgpt优于代理O3驱动的CUA(即驱动运营商的模型)。有关更多基准详细信息,请参阅Chatgpt代理系统卡:系统CARD地址:https://cdn.openai.com/pdf/839e66fc-602c-48bf-81d3-b21ecc3459d/chatgpt_agent_system_card.pdf最终,Ultraman Sam出版的安全性允许ChatGpt Aght。代理代表了AI系统功能的新高度,它可以使用自己的计算机为您完成一些特殊且复杂的任务。它结合了深度研究和运营商的本质,但其实际功能不仅是想象力 - 它可以长期思考,使用一些工具,更深入地使用磁性,采取一些行动并更深入地思考等等。例如,我们举行了一次会议演示,为朋友的婚礼做准备:购买礼服,预订旅行,选择礼物等等。我们还介绍了数据审查并创建工作演示的示例。尽管它非常有用,但潜在风险也很大。从强大的培训到系统安全措施,我们已经制定了许多安全措施和警告,以及比以往任何时候用于用户控件,但我们找不到所有内容。本着迭代部署的精神,我们将向用户发出许多警告,并赋予他们选择是否要照顾的自由。我将向Thins Family解释是在切割和实验性的。这是尝试未来的机会,但是我不会将其用于高风险使用或获得大量个人信息,直到我们有机会在现实世界中进行研究和改进。我们不确定会产生什么影响,但是恶意行为者可以尝试“欺骗”用户的AI代理,以提供他们不应该提供并采取他们不应该预测的行动的隐私信息,我们无法预测这些行为。我们建议给代理人完成任务以减少隐私和安全风险所需的最低限度加入。例如,我可以允许代理商访问我的日历以安排适当的用餐时间。但是,如果我只是要求为我买衣服,我不必提供任何访问权限。诸如“ lo”之类的任务好的,在我昨晚收到的电子邮件中,采取了所有必要的步骤来处理它们,并且不要问任何后续问题“更危险。这可能会导致恶意电子邮件中的不可靠内容来欺骗数据泄漏您的数据的模型。我们认为,从接触现实的情况下,重要的是要了解现实,并且随着我们更好地发展和降低潜在的风险,taoma应该仔细地使用这些竞争级别,因此需要新的级别。如果易于使用,许多网络会提前访问X Netizen。还发现了罗恩(Rowan)尚未听说的税收税的技术,罗恩(Rowan)仍然闻所未闻的罗文(Rowan)罗恩(Rowan)是在罗文(Rowan)的早期隆起中设立的。 (FIR),最后创建下载的演示文稿以总结结果。罗文说,如果财务顾问所做的话,这项任务的费用可能超过5,000美元,并且持续一周。其中,电子表格和幻灯片的生成功能确实很好,但类似于诸如Manus或Genspark之类的工具。因此,Genspark联合创始人兼首席执行官Eric Jing Ocr Rowan Cheung是一个迅速的词,并将其输入Genspark。他说,在同一提示下,Genspark的质量比ChatGpt代理人的质量更高,只有一小部分的时间和成本。一些网民还要求Chatgpt代理商在Tesco Food Store完成购物,订购烧烤晚餐和粘稠的焦糖布丁。他给出的直接言论也很简单:在这个周末为两个人准备一家特易购店吃烤晚餐。包括沙漠的治疗。 “不确定我看着它浏览网站,促使我输入Theogin信息,将产品添加到购物车中,然后独立完成整个过程。”但是,Netizen还承认,整个Chatgpt代理流程持续了20分钟,如果我自己跑步,可能会更好,并且有一个未来改进的空间。参考内容:https://openai.com/index/introducing-chatgpt- agent/https://x.com/openai/status/1945890077782149HT //x.com/ericjing_ai/status/1945915234784588272Https://x.com/thealexbanks/status/1945921363237052589