@阑夕:DeepSeek-R2 真的要来了,这次不是 KFCVWO50!
来自路透社的独家报道:
– DeepSeek 原计划在 5 月初发布新一代 R2 模型,但已经开始考虑提前发布,这段时间 Grok 3、Claude 3.7、Qwen 2.5-Max 等竞品接连推出,还是有影响的;
– 梁文锋在距离清华、北大两所高校步行可达的地段设立了北京办公室,非常乐于和实习生以及应届生一起工作和讨论问题,而且从不鼓励加班;
– 采访中一名已经离职的研究员依然对前老板赞不绝口,「他把我们视为专家,不断提问,一起学习,而且愿意下放管理权,普通员工也能参与核心技术,这很让人兴奋」;
– 梁文锋在幻方量化时就以薪酬慷慨著称,他会给数据科学家开出 150 万的年薪,而同行给的数字一般不会超过 80 万;
– 在创办 DeepSeek 前,幻方量化就制定了把 70% 对可支配收入投入到 AI 研究上的战略,从 2020 年到 2021 年,幻方量化花了 12 亿买卡训练模型;
– 这样的异常支出让幻方量化受到了证券监管部门的注意,但最终没有做出干预,这对后来 DeepSeek 的问世至关重要,因为 2022 年开始,中国企业就不太能够合规买到 A100 了;
– DeepSeek-R1 爆火之后,梁文锋被建议不要和媒体接触,因为担心过度炒作会引起不必要的争议,尤其是在地缘政治的风口浪尖,苟住再说;
– 另有前员工表示,DeepSeek 不缺算力,能够进行大规模训练,但梁文锋对更具经济成本的模型架构非常关注,这决定了 DeepSeek 的发展路线以及后来的巨大成功;
– 全球的 AI 大厂至今都还在消化 DeepSeek-R1 造成的影响,也都盯着 R2 的时间表,它的发布会是今年 AI 行业的又一个关键时刻。