赛马投注app

赛马投注APP

赛马投注中国app官方版下载 花了1000倍的token, 遵守却莫得更好: AI Agent隐性账单长什么样

发布日期:2026-05-26 21:52 来源:未知 作者:admin 浏览次数:

赛马投注中国app官方版下载 花了1000倍的token, 遵守却莫得更好: AI Agent隐性账单长什么样

如今的AIAgent正在大领域落地,其中诳骗最广且最受温雅确当数ClaudeCode,Codex,Cursor这类codingagent。往常的一年里,这类codingagent家具迭代速即,在一年内将在swe-bench-verified的准确率晋升到了78%+。

然则,比拟浮浅的代码推理简略和代码关联的聊天,codingagent的token滥用也极为显赫。在使用这种codingagent的经过中,最常听到的恼恨亦然:“为什么它搞定问题这样啰嗦”,“为什么要这样长篇大套”,以及“为什么我的credits这样快又用结束?”

这些恼恨的背后暴袒露面前codingagent的几大问题:

1.不透明:codingagent滥用token的风尚不廓清,行径风景以及不同模子之间的互异不透明;

2.不保底:在职务推行前难以知说念任务告捷与否,但无论是否告捷,都要支付相应支出;

3.不可预计:东说念主类猜想的问题难度简直和本色的token滥用匹配吗?agent能否我方判断问题会滥用若干token呢?

针对这些问题,来自密歇根大学、斯坦福大学等单元的征询者,使用开源的OpenHandsagent框架,分析了8个frontier模子在swe-bench-verified上的轨迹,第一次给出了一份系统性的解答。

AgenticCoding有多贵?

论文领先比较了和coding关联的3种任务:代码推理(和代码关联的单论对话推理任务),代码问答对话(对于代码问题的多轮对话聊天),以及swe-bench上的agentic代码任务。胁制发现,agenticcoding任务在平均输出输入token比,平均总token滥用,以及平均财富滥用,均指数级高于其他两种任务。

这源自于agenticcoding任务的多轮交互和强大而复杂的险阻文管束:巨量的代码查询,文献输出都会被加入到对话历史中,导致滥用合手续加多,况且agent会握住把历史险阻文、器具输出反复喂给模子,导致输入输出比高达154:1。这意味着agenticcoding任务的资本结构与咱们所闇练的对话和推理任务有显赫的不同。

AgenticCoding的支出立时性高,

且花的越多不一定作念得越好

论文统计了swe-bench-verified中500个问题的平均token滥用,并将滥用从小到大排序。从图中可以发现,最贵的任务可能比最低廉的任务多滥用约700万token,况且越贵的任务token滥用的圭臬差也越大。

对并吞任务的重叠启动来说,通过诡计最贵的一次启动和最低廉的一次启动的互异,胁制发现即使是并吞任务,最贵的启动仍可能比最低廉的启动贵2两倍足下。

进一步分析token滥用若干涉准确率的相干,论文发现更多的滥用并不成保证更高的准确率。

对于不同任务来说,论文字据平均token滥用的数目进行分组,并统计每组任务的准确率,胁制发现token滥用更多的任务时常准确率较低。

对于并吞个任务的不同启动来说,将4次启动按照token滥用排序,分红四个支出等第,然后统计每一个支出等第的准确率。胁制发现:平均所有这个词模子来看,最高的准确率并不出当今支出最高的时候,而是出当今较低支出时。当支出最低时,任务启动的准确率最低,当晋升支出稍稍晋升时,准确率达到最高,持续加多支出,当支出第二高和最高时,准确率不增反减——更多的资源滥用并莫得带来更高的任务告捷率。

为了探索高支出失败背后的原因,论文查验并分析了agent搞定问题轨迹中的两类行径:阅读文献以及修改文献。胁制发现:支出更大的启动轨迹中,重叠修改和重叠寻查并吞文献的次数也显然更多,这标明更多的token滥用其实随同了好多往来复回的“折腾”,而不是高效的推理,尝试,和查验。浮浅来说,一味浮浅地堆token并不成显赫带来更好的遵守。

哪些模子贵,赛马投注(中国)app下载哪些模子省?

不同模子之间的token遵守互异极大

以上的分析是基于所测试的8个模子的举座说明特色,在此基础上,论文对每个模子进行了具体的分析,并比较了他们使用token的遵守。

著作测试的八个模子包括OpenAI的GPT-5和GPT-5.2,Anthropic的ClaudeSonnet-3.7、ClaudeSonnet-4和ClaudeSonnet-4.5,Google的Gemini-3-ProPreview,MoonshotAI的Kimi-K2,以及阿里巴巴的Qwen3-Coder-480B。这八个模子遮盖了五家不同的公司,同期包含闭源API模子(GPT、Claude、Gemini系列)和开源模子(Kimi-K2、Qwen3-Coder-480B)。其中ClaudeSonnet有三个版块、GPT有两个版块,这样既包含了跨公司的横向对比,也有并吞家眷内不同代际的纵向对比。

通过不雅察不同模子的token滥用与任务准确率的相干,发现不同模子间的互异是系统性的,不是因为任务难度不同,而是模子自身的行径风尚。举例GPT-5以及GPT-5.2可以以较低的token资本达到可以的准确率,但Kimi-K2在资本较高的同期准确率却并莫得很高。在雷同的500个任务下,Kimi-K2和ClaudeSonnet-4.5比GPT-5多滥用约150万token。

论文进一步选出了两个任务子集:所有这个词模子都告捷的任务和足下模子都失败的任务,并再次统计不同模子的token滥用。胁制发现模子的token滥用排序基本不变,况且所有这个词模子在失败任务子集上的token滥用都多于告捷子集,不同模子从失败子集到告捷子集的token滥用增量也各不交流。

是否有成见对任务的token滥用

进行提前预计?

东说念主类众人对任务难度的判断与agent本色token滥用并不皆备吻合

当了解了agenticcoding的支出后,下一个问题等于:在推行任务之前,是否有成见字据要推行的任务来预计支出?

著作领先分析东说念主类众人所集合的任务难度是否可以手脚预计agenttoken支出的圭臬。在swe-bench-verified中,每一个任务都有东说念主类众人所绚烂的任务难度,按照东说念主类众人预期的完成手艺分为三档:“1hr”。若是说东说念主类滥用的手艺就极度于agent滥用的token,那么东说念主类所猜想的任务难度是否和agent的token支出是吻合的呢?

论文将不同任务字据token支出进行排序,并诡计它与东说念主类标注难度的关联性。胁制发现Kendalltau=0.32,标明东说念主类众人对任务难度的判断和Agent本色滥用的token之间惟一很弱的关联性。

斗鱼体育app中国官网下载

其中6.7%的"浮浅"任务比平均"苍凉"任务还贵,11.1%的"苍凉"任务比平均"浮浅"任务还低廉——更评释了东说念主类才调员和AIAgent对任务的"复杂度清晰"是不同的维度。

Agent我方是否可以对任务的token滥用作念出预计?

既然东说念主类预计的任务难度和agent的本色任务滥用有所互异,那么是否可以让agent我方来预计我方的滥用?

论文紧接着对agent的自预计进行了尝试:在这部分实验中agent所有这个词的器具和harness的架构都得回了保留,惟一在系统请示词中将任务从之前的“搞定问题”造成了“预估支出”,这样一来,就可以最猛进度的表流agent自身的特征和功能,并让它得以使用雷同的器具对代码库进行多轮探索,测试和推理。

论文顶用预计的支出和本色支出的关联性手脚研讨预计准确率的方针,并同期统计了作念预计所滥用的token。胁制夸耀,模子作出的预计与本色的关联性最高惟一0.39(ClaudeSonnet-4.5的outputtoken),大精深模子都在0.2-0.3之间,且对outputtoken的预计比inputtoken愈加准确。在资本方面,大部分模子作出预计所需要的资本都小于本色任务推行资本的一半,除了早期的ClaudeSonnet-3.7和4,一度逾越的确task推行资本的两倍。

著作进一步分析发现所有这个词的模子都低估了任务的本色滥用,尤其对inputtoken的低估卓绝严重。

因此,无论是东说念主类众人还是agent我方,对token滥用预计目下只可手脚粗粒度的信号,离精准的事先订价还有很大距离。

转头

著作通过对codingagent轨迹的分析,发现Agent的token滥用以inputtoken为主导,且在不同问题之间以及并吞问题的不同启动之间都存在很高的立时性。不同模子的token遵守互异显赫,且更多的token滥用并不成保证更高的正确率。在推行前资本预计方面,东说念主类集合的任务难度与Agent的本色token滥用并不吻合,Agent自身的预估也存在准确率较低和精深低估的问题。翌日潜在的征询标的包括更高效的Agent瞎想,以及更好的支出预计与管束门径。

作家先容:

本文第一作家LongjuBai是密歇根大学一年纪博士生,通信作家JiaxinPei现为斯坦福大学博士后征询员赛马投注中国app官方版下载,行将入职得克萨斯大学奥斯汀分校担任助理莳植。配合者包括来自斯坦福大学的ZheminHuang和ErikBrynjolfsson,来自AllHandsAI的XingyaoWang,来自GoogleDeepMind的JiaoSun,来自密歇根大学的RadaMihalcea,以及来自斯坦福大学和麻省理工学院的AlexPentland。