maolon 最近回复了
反正国产这些开源的模型训练的数据一部分是御三家蒸馏来,比如让 sonnet 或者 opus 模拟思维链或者直接交给他一个工程任务然后将他的解决步骤输出作为训练集,那学生像老师不是很正常么
@
lkk #24 我记得之前有个不怎么严谨的词法分析 deepseek 是 r1 还是啥的吐词和 gemini 2.5 pro 非常像的,这几家闭源的烧几十上百亿美金,你这边花个几万美金 api 的钱轻轻松松蒸馏,转头说我们训练只用了几千万人民币,换我是谷歌我也恶心
"模型天然存在"快速收敛"的生成倾向" 这个我认为是过快和轻率的得出结论,然后用错误的结论推导剩下的论点。
模型的生成倾向和他后训练的 RL 算法有关,确实我们会奖励以更少的步骤或者更少的 token 生成正确的结果,但是这个步骤本身不一定是"快速"收敛的,相反可能是一个很长的流程。
反面的例子就是 gpt5.2 high/xhigh 这两个 reasoning effort ,会花费大量的时间探索代码结构和任务意图,我不知道文章本身怎么定义"充分探索",但是至少这两的探索过程会谨慎和小心的多
不过说真的现在这些 llm 它训练的目标都是尽可能帮助用户完成任务,中间要是遇到阻碍就会尝试逃逸限制,甚至逃逸沙箱,所以要是测试中有什么连接错误他真的干得出删 docker container 这些操作,就算不是生产库把测试数据删了也很烦
用 gemini app/ai studio 总结,notebook lm 暂时还不支持原生读视频但是 gemini app 支持
openspec 适合改现有大项目以及和别人合作同一个项目,
然后 cc 上下文太短(加上最近疑似 opus 也 quant 了),codex 的 5.2 xhigh/high 会好很多
另外我现在就跟楼上提到一样是将 openspec skill 化,由 codex 自己决定什么时候执行他,效果就挺好
先不说别的了,你们在 V2 的 AMA 一言不发搞了个寂寞?你们之前说的抽奖抽了吗?结果是什么?
就纯搞宣发把 v 友当傻子耍?
@
neteroster 2.5 pro 也经历过大砍,最开始的 0325 有效注意力可以到 200k 左右,然后被永久下架之后,后续的 0506 甚至连 50k 都做不到,0605 稍稍好一些也是 100k 左右的注意力。谷歌是老惯犯了,所以 gemini 系列模型的 coding agent 能力我一直是质疑的
5.2 xhigih/high 这次是真的从懒惰的 5.1 里解脱了,一次能跑 3 个小时不带停的
基本同意
细粒度的 ddd 带来的主要是 context control 的好处,
生成工具我认为他们依然能提供生成 ground truth 的能力,交互化和添加 context 控制功能也是一种方向,
自动化测试现在 e2e 方向的能力依然有限(受限于多模态和 context 长度限制)但是未来肯定会变得非常可用,
我觉得"语义知识库"是个很好的概念,现在基于文档的 SDD 应该是很早期的语义库的版本,应该会过渡到基于语义知识库的版本控制,协同编辑,和开发,以及围绕这个的一系列工程化的经验和方法。应该很快就是文档即代码的时代了。
以及随着 人-AI 的合作进一步加深,目前的管理体系肯定会随着变化,现在的人和人的交流拟定方案再到人翻译给 ai ,等待 ai 执行,评估结果再交由人类审核,然后重新规划的模式并没有充分利用 ai 的能动性