石锤! Windsurf 的新模型 SWE-1.5 更像 GLM-4.5!
之前网传硅谷的公司已经在内部开始大面积用国产开放权重大模型来魔改了, 传的尤其猛的是 Cursor 的 Composer-1 是用 DeepSeek 魔改(后训练或微调)的, 而 Windsurf 的 SWE-1.5 是用 GLM-4.6 魔改的.
而上一个基本已经石锤了, 这个还没有被验证, 于是给大家整个活, 看看这个模型从输出特征进行聚类, 更像哪个模型.
我魔改了 Slop-Forensics 分析了 SWE-1.5 和其它国产大模型的语言指纹, 结果出乎意料:
它与 GLM-4.5 聚类在同一分支,而非之前网传的 GLM-4.6!
考虑到一个模型想要效果好, 即使用其他的基座模型也要后训练一段时间, 所以的确更可能是 GLM-4.5 (7月28号发布), 而不是 GLM-4.6 (10月1号发布).
可惜了它没用 GLM-4.6 后训练哈哈哈, 我觉得以目前 GLM-4.6 作为基座模型后训练会比现在更猛, 或者是不是这样? SWE-1.5 对应 GLM-4.5, SWE-1.6 对应 GLM-4.6?
另外, Cerebras (即 Windsurf 这个 SWE-1.5 模型的云计算服务商), 决定将 GLM-4.6 作为默认推荐模型, 考虑到 GLM-4.6 在测试上的表现 (SWE-Bench 68%, LiveCodeBenchV6 82.8%), 我估计下一个模型用GLM-4.6概率就特别大了.
国产大模型牛皮!
顺便讲一下 Slop-Forensics 这个项目的原理:
• 统计每个模型的词汇使用频率和短语重复模式
• 将这些"语言习惯"转化为特征向量
• 用聚类算法构建系统发育树,距离近=语言模式相似
就像指纹鉴定,不同模型即使输出相同内容,其底层的词汇偏好、短语组合方式会暴露出训练数据或架构的相似性.
SWE-1.5 和 GLM-4.5 在树上紧密聚类,说明它们在:
高频词选择
二元/三元短语组合
词汇复杂度分布
这些维度上高度一致。这种相似性很难伪造——它根植于模型的深层结构中.
我魔改的版本:https://t.co/s5h62S9apS
#智谱 #GLM #Cursor #windsurf #cerebras #国产大模型 #AI编程
点击图片查看原图