
AI 自动修 bug万博max官网,处治率达 44%!这是天下开源模子的最新最强水平。
来自蚂蚁的开源新模子,在 SWE-bench Lite 上越过扫数开源决策,性能比好意思闭源模子。


具体发挥如下,在 SWE-bench Lite 上:
扫数开源模子步伐(Open Weight Model)中排行第一;
扫数开源系统步伐(Open Source Syestem)中排行第六;
总体排行第 14;
优于面前榜单最好开源模子" KGCompass " 7.33%。

他们始创将仓库代码图模态融入大模子(Code Graph Model, CGM),让大谈话模子能径直相识代码图,更高效设立 bug、补全代码。
这透顶开脱对黑盒模子(如 GPT-4 或 Claude 3.7 等)和复杂 Agent 责任过程的依赖,结束愈加可控、透明、安全的 SE 自动化。
而且,CGM 齐全基于开源模子。要知谈,开源模子在 SWE-bench 上的发挥不毫不够好,此前险些扫数 SOTA 级决策都是基于闭源模子结束。而 CGM 基于 Qwen 模子,作念到了并排闭源模子的水平。
CGM仅需 4 步就能快速定位、生成补丁,省去了 Agent 决策中复杂的编排过程,效纯厚线 up。

让 AI 简直相识大模子代码库
大模子趋势以来,AI 编程赶快崛起,尤其是在写函数这类小任务上的发挥出色,比如在 HumanEval 等基准测试上,很多模子的准确率还是跳跃 90%。
然则简直的软件工程远比"写一个函数"复杂得多。像 Bug 设立、功能增强这么的任务,不绝需要跨文献、跨模块操作,并条款模子相识名堂中复杂的结构、依赖推敲和类的接受体系。
面前的主流步伐不绝是使用基于闭源模子的 Agent。它们不错模拟东谈主类设施员活动,如不雅察代码、调用器用、多轮交互等完成任务。
但这类步伐也存在几个问题:
活动旅途不成控,容易积贮推理过错;
依赖 GPT-4、Claude 等闭源模子,难以专有部署或定制;
工程本钱高,遵循不高。
与此同期,面前使用开源模子的决策,很难结束 SOTA 级遵循。
为此辩论团队提议:能否只用开源模子、不依赖 Agent,处治仓库级任务?CGM 由此而来。
� � 图结构与大模子深度会通
CGM 收受访佛 Vision-Language Model(VLM)的跨模态建模神气。它将传统 LLM 的文智力会能力与代码仓库的结构图(Graph)聚首,酿成一种图 - 谈话多模态模子。模子中枢会通了两个模态:
图模态:将仓库构建为结构化图,节点包括函数、类、文献、包等 7 种类型,边示意调用、包含、接受等依赖;
谈话模态:用户输入的当然谈话描画和代码教唆,运行模子生成 patch 或复兴。

模子输入为代码图和文本色式的 prompt,将在 LLM 中对结构 - 语义进行双模态对皆。
具体结构会通步伐如下:
使用微型编码器(CodeT5+)对每个节点进行编码,压缩为单个"节点 token ",每个节点内按照至多 512 个 token 的文本块切分。
通过一个适配器(一个两层 MLP)将编码后的节点表征映射到 LLM 输入镶嵌空间中。相配于将 LLM 陡立文彭胀 512 倍,能更平正理海量的代码仓库陡立文。
使用图感知细心力掩码(Graph-aware Attention Mask)。替代 LLM 华夏有的因果细心力,使细心力机制只作用于相邻节点间。访佛于 GNN 的音信传递机制,粗略让 LLM 径直感知和应用代码的结构依赖推敲。
✏️两阶段磨砺:结构相识 + 问题泛化
基于此模子架构,团队通过两阶段磨砺让 LLM 粗略相识代码图的拓扑结构。
阶段一:子图重构预磨砺
为了磨砺 CGM 灵验捕捉代码图的语义和结构信息,团队联想了一个"图生代码 ( Graph-to-Code ) "任务。从大型代码图中就地采样出子图(甩手节点数目以限定输出代码长度),模子需要阐发这些输入的子图(仅包含节点类型和流畅推敲,不含齐备的代码内容)来重建出原始的代码片断。
然后收受层级化步伐,保执重建代码的结构一致性和可读性。按照拓扑排序与行号划定拼接仓库陡立文:高档别节点(如 REPO、PACKAGE)置于输出序列或文献的肇始;文献节点通过拓扑排序确定划定;文献内节点(如 CLASS、FUNCTION)则按行号划定拼接。
阶段二:噪声增强微调
此阶段使用简直的 GitHub 问题 - 设立补丁数据对 CGM 进行微调。
模子学习基于两项输入生成代码补丁: ( i ) 一个关联的代码子图; ( ii ) 一段文本教唆,指明阐发补丁可能需要修改的执行文献。为了擢升模子的鲁棒性,挑升在教唆中引入了 10% 的噪声输入:举例,教唆中可能包含一个执行上无需修改的不关联文献,或者遗漏至少一个本应被修改的要津文献。在磨砺中引入这种受控的噪声有助于模子更好地泛化到执行输入信息不齐备或包含扰乱的场景。
� � 推理阶段:Graph-RAG 框架替代 Agent
终末,为了进一步擢升执行应用能力,CGM 构建了一个无 Agent 轻量化框架 Graph-RAG。
它收复了东谈主类设施员 bug 设立责任流,但比现存 Agent 决策遵循更高。
中枢模块数目从 10 个进一步精简到了 4 个:改写器→检索器→重排器→生成器(CGM 模子)。
改写器(Rewriter):改写问题描画,索求要津词与关联文献;
检索器(Retriever):通过语义与结构检索,从代码图中抽取连通子图;
重排器(Reranker):排序检索松手,遴选最要津文献用于生成;
生成器(Reader):聚首子图与教唆生成最终设立代码。

基于以上,CGM 在多个测试基准中获得了率先收获。具体如下——
实验松手
辩论团队在多个主流基准上系统评估了 CGM 的性能,涵盖两个主要任务类别:(1)代码设立和(2)代码补全。
仓库级别的代码设立
在 SWE-bench Lite Leaderboard 上,CGM 以 44.00% 的松手排行开源权重榜单第一。

在 SWE-bench Verified 上,CGM 比较于最好开源基线擢升了 10.20%,至 50.40%;
关于 Java 名堂,CGM 在 SWE-bench-java Verified 上达到 14.29%,则比较于最好开源基线擢升了 4.4%。

这些松手标明 CGM 粗略处理跨谈话、跨项策画大领域仓库级 Bug 设立任务,展现出宏大的结构相识与泛化能力。
仓库级别的代码补全
在复杂代码生成任务中,CGM 在 ComplexCodeEval 和 CrossCodeEval 上也权贵率先于同尺寸开源模子,终点是在需要跨文献推理和补全的场景下遵循杰出。

此外,辩论团队在不同基座模子上(CodeLlama-7B 和 DeepSeek-Coder-7B)辞别部署了 CGM,并与近期 RAG 系统进行比较。松手涌现,CGM 具备很好通用性,不错适配多种基座模子,况且发挥越过传统 RAG 步伐。

追思来看,CGM 不依赖复杂 Agent 系统,初次结束了在大模子中会通代码图模态,让 AI 像东谈主类相同 get 仓库里文本和代码之间的复杂依赖推敲,"简直相识一个名堂"。
更要津的是,它基于开源模子就能结束,不局限于特定模子。为企业和开采者提供了一个纯真、透明且可控的决策。
� � 终末,CGM 的期间论文、中枢代码、模子权重与磨砺数据均已开源,感兴趣的同学可进一步了解笃定。
期间论文:https://arxiv.org/abs/2505.16901
开源代码:https://github.com/codefuse-ai/CodeFuse-CGM
模子权重:https://huggingface.co/codefuse-ai/CodeFuse-CGM-72B
磨砺数据:https://huggingface.co/datasets/codefuse-ai/CodeGraph
� � 团队此前责任:
Code LLM 综述:Awesome-Code-LLM(TMLR)
https://github.com/codefuse-ai/Awesome-Code-LLM
Graph+LLM 前序辩论:GALLa(ACL 2025)
https://github.com/codefuse-ai/GALLa
高效细心力架构:Rodimus(ICLR 2025)
https://arxiv.org/abs/2410.06577
代码多任务微调框架:MFTCoder(KDD 2024)
https://arxiv.org/abs/2311.02303
一键三连「点赞」「转发」「注重心」
接待在批驳区留住你的思法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见万博max官网