最近,昆仑万维在代码智能体领域扔下了一颗重磅炸弹!他们正式开源了自主研发的32B参数规模代码智能体基座模型 Skywork-SWE-32B。这款模型不仅在软件工程任务中表现出色,还在代码修复能力上达到了业界顶尖水平。
Skywork-SWE-32B 在 SWE-bench Verified 基准测试中取得了38.0% 的 pass@1 准确率,直接刷新了 Qwen2.5-Coder-32B 系列模型的最佳记录。更令人惊喜的是,通过引入测试时扩展技术,其准确率进一步飙升至47.0%,成功超越同参数规模下的其他开源模型,甚至缩小了与闭源模型之间的性能差距。
为了训练出如此强大的模型,昆仑万维团队构建了一个超大规模的可验证数据集,包含超过1万个 GitHub 仓库任务实例。他们还设计了一套三阶段自动化流程:从筛选15万个开源仓库信息,到最终生成8,209条高质量验证通过轨迹,每一步都确保了数据的质量和可靠性。
如果你对 Skywork-SWE-32B 感兴趣,可以访问以下链接:
博客地址
https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd
HuggingFace 地址
https://huggingface.co/Skywork/Skywork-SWE-32B
划重点:
Skywork-SWE-32B 在 SWE-bench Verified 基准上的表现刷新了32B 开源模型的最佳成绩。
测试时扩展技术让模型准确率提升至47.0%,大幅缩小与闭源模型的差距。
昆仑万维通过自动化流程构建了超1万条高质量 SWE 任务数据集。
📝留言定制 (0)