杨植麟,一个90后理想主义者的悬浮

文 | 八尺八寻,作者 | 八尺,编辑 | 培培

01

天才的标签之外杨植麟还是个资深文青。90 后一代或多或少都曾迷恋过村上春树,1992 年出生的杨植麟也不例外。在村上春树的一本小说中,杨植麟对一个程序员深夜写代码这件事印象深刻,并充满憧憬,这为他未来进入 AI 领域埋下伏笔。

高中和大学时期他热爱摇滚,最喜欢的乐队是平克弗洛伊德。在清华读书期间,他创立了摇滚乐队 Splay,曾晋级清华大学校园歌手大赛原创决赛。清华向来有音乐传统,除了走出过高晓松和水木年华,杨植麟那位大名鼎鼎的学弟姚顺雨(任职于 OpenAI),本科时创立了清华大学说唱社。

玩摇滚和说唱属于理科生的叛逆和浪漫。90 后一代人的迷茫在于,这个时代留给他们的红利并不多,音乐恰好能宣泄这种愤懑的情绪。杨植麟的乐队创作过一首歌,讲述有关 " 做了一个创业成功一夜暴富的白日梦 "。对追求理想和获得金钱总是摇摆不定,正是青春期普遍的状态,渴望一夜暴富或许是抵挡理想主义破灭的有效手段。

从时间坐标上来看,其实 90 后赶上过移动互联网红利期的尾巴。戴威是只比杨植麟大一岁的清华校友,2015 年戴威的 ofo 共享单车正式上线,并在全球首创 " 无桩单车共享 " 模式,成为当之无愧的创业明星。ofo 最后的结局我们都知道,戴威欠用户人均 199 元(总额达 15   亿),后来奔向美国继续创业。

移动互联网的黄金时代是属于 70 后、80 后创业者的,以王兴、程维、张一鸣、黄峥为代表,头部市场格局已趋近固化。90 后一代创业者,拔剑四顾心茫然,很难找到真正的机会,需要等待下一个产业变革窗口期的到来。

移动互联网的黄金时期进入尾声后,那些年媒体和科技圈无不认为区块链会是下一个风口。这个过程北大的孙宇晨(90 年人)从币圈靠割韭菜杀了出来,人送外号 " 孙割 ",最后同样跑到美国,目前他是特朗普币(TRUMP 币)的最大持有者,被称为特朗普的榜一大哥。

他走的是一条邪路,也是一条置之死地而后生的不归路。很多人说何同学是 5G 的唯一受益者,这话对应到孙宇晨身上也没错,他几乎是区块链的最大受益者。

互联网的风口来来往往,短暂又辉煌。历经了区块链、元宇宙、5g 的浪潮,现在终于来到了 AI2.0 时代,标志性事件是 2022 年 11 月 30 日 OpenAI 推出 ChatGPT。马化腾在 ChatGPT 问世后,将 AI 比做 " 几百年不遇、类似发明电的工业革命一样的机遇 ",往后几年无数人开始摩拳擦掌,试图在 AI2.0 时代抢占先机。

很多人难以理解,近三年为什么有人对 AI 怀着近乎狂热的追求,乃至把 AI 当成某种信仰。就 90 后群体来说,我很认同一位 AI 博主给出的答案:" 我们 90 后似乎从未真正分到过时代红利,如果 AI 不是我们的答案,那什么才是这个时代给我们的机会?"

许知远有本书叫《时代的稻草人》,把 " 稻草人 " 这个概念用来形容 90 后一代,可以如此归纳:稻草人的现实困境在于它既属于自由的田野,又悬浮在半空,永远无法真正扎根。如今他们等来的 AI,一块看似能够让他们真正扎根的全新土壤。

文艺青年杨植麟后来走上计算机学术道路,那时他似乎并没意识到自己能在 AI 领域取得多大成就。

当戴威在共享单车领域兴风作浪时,杨植麟赴美国卡耐基梅隆大学攻读博士学位,师从苹果 AI 负责人 Ruslan Salakhutdinov 和谷歌首席科学家 William Cohen。博士期间,他作为第一作者发表了两篇里程碑式论文:Transformer-XL(突破固定上下文长度的语言模型)、XLNet(提出广义自回归预训练框架)。

这两篇论文在 AI 领域影响深远,引用量超 22000 次,研究成果被 Google PaLM、Meta LLaMA 等主流产品采用,也成为他通向 AI2.0 时代的门票。

OpenAI 推出 ChatGPT 后,在循环智能干了六年的杨植麟内心充满复杂的情绪," 有点激动,有点焦虑,有点 FOMO(害怕错过),又很兴奋。" 几个月后他创立月之暗面,主攻 AGI(通用人工智能)领域。

月之暗面这个名字来源平克弗洛伊德的专辑名《The Dark Side of the Moon》,杨植麟把会议室也全部用摇滚乐队命名,公司里还放着两把电吉他,一架钢琴。可见文青的一面确确实实刻进骨子里。

梁文锋凭借 DeepSeek 出圈前,杨植麟是最被看好的 AI 创业者,业界评价他——是坚定的 AGI 信徒和有技术号召力的创始人,无论是在学界还是商界都地位颇高。据传,2023 年三四月份,字节的张一鸣频繁约人补 AI 课,这些人当中就有杨植麟。

他是顶尖计算机专家,又有六年的人工智能创业经验,这催生出一个技术理想主义者的野心。"AI 不是我在接下来一两年找到什么 PMF(产品市场匹配),而是接下来十到二十年如何改变世界。" 去年与媒体人张小珺对话时他说「1」。

改变世界谈何容易,放眼全球敢说自己能改变世界的人,似乎只有马斯克和特朗普。

张小珺为他的表达捏一把冷汗,认为他的思考显得抽象且具有理想主义,担心他难以在现实主义的中国找到生存空间。媒体人天生的悲观显然不会影响到一个看到时代机遇的创业者。悲观者或许正确,但唯独乐观者能够前行,文艺青年时期的他也许是悲观的,如今作为创业者他必须前行。

02

梁文锋和 DeepSeek 出圈,让红极一时的月之暗面迅速黯淡下去,杨植麟前行的道路受阻。同为广东人,两人的命运在几天内就出现了明显的分野。

月之暗面成立于 2023 年 4 月,DeepSeek 成立于这年 7 月,起步时间相差无几。相比 85 后梁文锋,杨植麟更年轻,计算机学术成就也更大。研发大模型之前,梁文锋作为幻方量化的创始人,主导公司的 AI 技术研发与战略方向,杨植麟也在人工智能行业有多年经验。

之前我写过清华姚班的天才为什么没能成为 AI 时代的主角(清华姚班的天才们,为何成为 AI 时代的失意者),最终归因于姚班人对技术的路径依赖,商业能力稍弱。如今想想这个归因的确过分单一,杨植麟 30 岁之后创立的月之暗面,无论技术还是商业经验都相对丰富,最后却没能取得 DeepSeek 的成绩,当中一定有更复杂的原因。

凭借过硬的学术能力,杨植麟在 AI 领域找到生存空间问题不大。月之暗面创立之初就获得 2 亿美元的融资,来自红杉中国和真格基金。第二年,又接受了美团、阿里、腾讯、小红书等互联网企业的战投。

创业拿投资是再正常不过的事,问题是怎么拿,拿多少,还是完全不拿。张一鸣创办今日头条之初,一再强调今日头条是非主流,要保持非主流的独立存在,不希望被迫站队(当时的 BAT 大厂)。原因很简单,一旦站队就会树敌且容易引发舆论。

去年 4 月多家媒体报道,杨植麟在月之暗面完成阿里领投的 10 亿美元融资后,通过老股交易套现数千万美元,金额据传达 4000 万美元。虽然月之暗面回应消息不实,陷入舆论漩涡也会影响公司的注意力。

2024   年初,与杨植麟之前的公司循环智能股东(包括金沙江创投)之间的股权纠纷,也让他焦头烂额。该纠纷的核心在于月之暗面成立时,未能明确月之暗面与循环智能的人员股权和产权归属。循环智能及其投资方认为月之暗面使用了前公司的资源,并因此提起仲裁诉讼,要求获得月之暗面的股份「2」。

这也引发了外界对杨植麟处理合作关系和资产剥离能力的质疑,不管怎样,对初创公司来说无疑一种极大的消耗。

杨植麟所谓十年二十年改变世界只是一种理想,随着巨头的发力,AI 创业的窗口期一定会非常短,往往在三两年大概就能定下格局,真正的机会只能靠极短的时间去争取。整个 2024 年,月之暗面被这两件事牵扯,难免会影响公司在技术研发上投入的时间和精力。

当年 12 月 6 日,杨植麟还发布 1300 字的长文回应金沙江创投合伙人朱啸虎。如果知道基座大模型一个月后即将迎来 "deepshock",叙事走向可能会完全不同。

相比之下,DeepSeek 出圈以前一直保持一种非主流的状态,拒绝外来投资,以免被干扰,这为他们腾出时间闷声钻研技术,可以心无旁骛地在技术深水区里下猛料。而且梁文锋对公司掌握着绝对的控制权,他通过多层有限合伙嵌套,以 1% 的直接持股和间接持股控制杭州深度求索 84.3% 的股权,避免了股权分散造成的影响。

技术尚未形成护城河前,去年杨植麟还把很大精力放在了投流上。仅 2024 年 3 月至 8 月,Kimi 的广告投放金额就高达 1.4 亿元,单月最高投放近 5000 万元。也见到了成效,Kimi 的月活在短短半年内从 400 万飙升至 1282 万「3」,稳居行业第二,仅次于百度文小言。

Kimi 如此大规模投流并非完全是为了抢占市场。按照杨植麟的说法,投流实际上是为了获取数据和扩大数据样本,如何在收集数据基础上去筛选数据、运用数据,才最终决定了 Kimi 们能生长成为什么样的 AI 助手。

通过用户扩大数据来源,这一逻辑源于大模型对高质量、精准反馈数据的依赖性,用户在使用过程中产生的交互数据,能够反向优化模型的推理能力和场景适应性。

杨植麟认为,大模型训练要遵循 Scaling law(缩放定律 / 规模定律)的第一性原理。Scaling law 是指,随着模型规模(参数数量)、训练数据量、计算资源因素的增加,模型性能通常会按照某种可预测的规律提升。这几乎是当时行业内的共识,大家都知道的事情,也意味着在用这个方法卷模型性能并不新鲜。

2024 年 Kimi 大规模投流并获得一定量的用户留存后,产品形态却未实现重大迭代,仅个别功能更新。

Kimi 团队规模始终在两百人以内,与动辄数千人的大厂研发部门相比,其技术迭代速度明显滞后。更致命的是核心人才的流失,2024 年下半年,多名算法工程师离职。杨植麟给的解释是没有人才流失,而是主动做了业务减法,不希望团队扩大,认为这对创新有致命性伤害。

杨植麟与梁文锋的竞赛进入冲刺阶段,是在去年 9 月。当时 OpenAI 正式推出了 o1 系列的两款模型 o1-preview 预览版和 o1-mini 迷你版,o1-preview   成为全球首款推理模型,它定义了现代 AI 推理模型的核心特征,如长思维链和强化学习训练。这意味着此后大模型公司,必然都会沿着这个思路推出自己的推理模型。

这场竞赛的结果是,今年 1 月 20 号 DeepSeek R1   和 Kimi1.5   两个推理模型同一天发布。取得的反响完全不同,DeepSeek R1 震惊全球,完全掩盖了 Kimi1.5 的风头。小步慢跑的 Kimi,输给憋出大招的 DeepSeek。

论成败多少会显得刻薄,这里只分析技术问题。杨植麟似乎进入一个误区,DeepSeek R1 的技术路线,证明杨植麟坚信的 "Scaling law" 这个模型训练的第一性原理,并非唯一。

图灵奖得主杨立昆曾说,从突破性创新角度来看 DeepSeek 并不出色,但是在低成本、开源、多个任务上的推理性能表现很不错。

DeepSeek 的轰动性几乎超出了所有业内人的预期,甚至杨植麟也不例外。在 DeepSeek   R1 发布同日,杨植麟也推出首个通用推理模型 K1.5,但也没能预料到大模型格局会就此改变。

因为不开源、以及更注重通用推理能力和多模态,在 chat   特定推理任务上的表现力不如 DeepSeek,Kimi 的模型性能完全被单模态的 DeepSeek   R1 光环遮盖。也因此有了大模型 " 六小虎 " 终章的说法。

DeepSeek 上线一个月,圈粉上亿(下载量)。梁文峰的技术路线也证明,杨植麟通过大规模投流争夺用户,对提升模型能力来说收效甚微。

03

这场竞争是技术理想主义与商业现实主义的较量。

杨植麟的理想主义,是希望探究有效的产生智能的方法,探索智能的上限,最终实现 AGI。现实是,通往 AGI 的这条征途上会非常漫长,也需要从基础设施到技术上的范式转变。

如果过度专注 AGI,不仅可能会造成产品迭代缓慢,也可能因为缺乏成功的商业化应用,无人愿意为其理想主义买单。

旷视科技的创始人印奇是杨植麟的清华学长,在跨越 AI 的两个时代后,他从纯粹的技术信仰者转身开始思考商业闭环。印奇在与《晚点》对话时坦言,技术和科研无法独立长久存在,必须与客户价值和商业模式相连接,没有人会永远为 " 信仰 " 买单,闭环才是可持续创新的前提。「4」

张小珺那句:担心他(杨植麟)在现实主义的中国难以找到生存空间。像是一个预言。杨植麟的技术理想与商业化落地之间,有一条宽阔的鸿沟。这条鸿沟正是所谓的现实主义。

最初 Kimi 通过提供基础功能的免费服务吸引用户,例如长文本处理、代码编写、联网搜索等,满足大多数用户的日常需求。去年 5 月开始,Kimi 针对用户在基础功能之外的需求(如更高性能、优先使用权等)推出付费版本,例如高峰期优先使用权,用户可通过打赏获得高峰时段的优先使用权限。本质上这是对 ChatGPT 付费模式的一种变形。

现实主义中国的情况是,人们普遍没有付费订阅的习惯,想赚 C 端的钱注定难如登天。

去年 7 月 Kimi 上线了浏览器插件,试图通过丰富应用场景,进而探索潜在的商业化机会。8 月 Kimi 发布了企业级 API,主要面向具有一定规模化业务的企业,为对稳定性要求更高的大企业客户提供 API 服务。这是 Kimi 从专注 ToC 应用变为同时兼顾 ToB 业务的一个关键信号。问题是技术没有形成壁垒,这些商业试探的效率也不会高。

相比之下,DeepSeek 的商业化路径极为清晰,以技术开源与低价策略为核心,精准卡位 B 端市场。DeepSeek 开源策略并非单纯技术输出,而是通过开放部分代码吸引开发者,同时保留核心算法的封闭性,形成 " 开源引流 - 定制收费 " 的商业模式。

这种模式不仅降低了市场推广成本,还通过与云厂商深度绑定,如阿里云、腾讯云、华为云等将 DeepSeek 模型集成至其 AI 平台,提供 SaaS 化服务。DeepSeek 的 API 调用价格仅为行业均值 1/5 的低价策略,这让它快速占领市场份额。

同为广东人的梁文锋,在公开场合中被塑造成技术理想派,但实际上,他也是典型的商业实用主义者。他深谙 AI 产业的法则,通过压缩成本、开源引流、生态协同等策略,快速构建商业闭环,在金融、游戏等领域实现规模化落地。

这一切都是建立在技术领先的基础上,AI 创业者失去用户会失去市场,但失去技术很可能失去一切。去年 7 月,梁文锋与《暗涌 Waves》沟通时,提到最多的两个字就是——创新。

朱啸虎曾说:"AI 创业者要勇于承认自己没有壁垒,有任何技术壁垒都是骗人的,就是靠底层模型提供能力,但可以更懂用户,更懂产品,可以在非 AI 的能力上建立壁垒。" 这套说辞在移动互联网时期或许正确,AI 时代模型能力不行再怎么懂用户也不行。

DeepSeek 火爆以来,Kimi 的月活用户随之流失,从去年 11 月的 3600 万腰斩到今年 3 月的 1820 万,被 DeepSeek(1.87 亿)、豆包(9980 万)和腾讯元宝(2358 万)甩在身后。面对颓势杨植麟并非毫无动作,宣布与财新传媒合作,试图通过垂直领域内容增强公信力,又自建内容社区,在小红里开对话框。在模型性能没有很大提升的情况,这些措施看上去已经拥抱商业,但目前来看尚未见效。

回过头来看,85 后梁文锋用技术和商业的完美结合,给 90 后文艺青年杨植麟上了一堂现实主义课程。作为顶尖名校出身,与图灵奖获得者合发论文,杨植麟的学术背景优于梁文锋。但他的技术理想主义把自己推向云端,在月亮和六便士之间,他选择了月亮的暗面。

再从代际上看,梁文锋只比张一鸣小两岁,他们才是同一代人,梁文锋的成就也是 80 后创业成功的典范。两年前他说的那句:" 务必要疯狂地怀抱雄心,且还要疯狂地真诚。" 似乎最能代表他的创业理念。

单从商业模式的成功来衡量,上个互联网风口 80 后最突出的商业人物分别是字节的张一鸣和拼多多的黄峥,两人的理念完全不同。张一鸣的理念是敢为天下先,爱拼才会赢,最终缔造出抖音帝国。黄峥受教于段永平,胸无大志,敢为天下后,同样把拼多多做到了万亿市值(人民币)。

成功并非只有一条路径,他们都用自己独特的商业理念开创一条崭新的商业模式。

相比之下,目前来看 90 后一代,被商业磨砺的时间尚短,不足以摸索出一套适合自身的商业打法。至今还没出现一个具有开创性的商业领袖。如果 AI 真的是这一代人的答案,至少,几个月前杨植麟曾是那个最接近成为新一代商业领袖的人。

DeepSeek 火爆也激发出大厂的胜负欲,近两个月,百度、字节、阿里、腾讯频繁迭代模型,进入 5 月,微软开发者大会用 50 个新产品全面押注 Agent,Google I/O 2025 开发者大会宣布,全面重塑 AI 生态。巨头们竞争白热化,或让 Kimi 以及其他六小龙这类中等规模 AI 公司直接面临更复杂的生存问题。

六小龙中最早掉队的零一万物创始人李开复,3 月曾直接回应,中国市场最终可能只有三家能够真正站稳脚跟的大模型提供商,分别是 DeepSeek、阿里巴巴和字节跳动。

强者吞掉弱者一直都是商业的主流叙事,残酷而无趣,人们反而更喜欢以弱胜强的商业叙事。事实上这样的故事也并不罕见。

20 世纪 80 年代,全球计算机巨头 IBM 主导企业级市场,而苹果电脑只是个初创公司,后来乔布斯提出个人电脑的概念,如今谁人不识 MacBook。特斯拉之前,丰田、通用等传统车企占据全球汽车市场 90% 以上份额,马斯克跳过燃油车存量市场,用电动车和智能驾驶建立技术壁垒,市值一度超过全球九大传统车企总和。

尽管巨头压制,又被 DeepSeek 反超,月之暗面并非全无机会。作为同一代人,也作为一个商业观察者,很希望他能在第一轮的竞逐失败赛中逆势成长,开创出独属自己的道路。

最近和很多大模型领域的研究人员聊,很多人认为现在的大模型 transform 架构仍然存在幻觉等难以回避的问题,未来可能会有新的架构,颠覆现有的能力。这意味着,属于杨植麟和 90 后 AI 创业者的机会依然存在,AI 依然是 90 一代人的答案。

也许杨植麟的底色仍是那个文艺青年。他喜欢的专辑《The Dark Side of the Moon》里的第一首歌是《Speek To Me》,最后想把这首歌中一段十分应景的歌词送给他:不要坐下,挖到另一个的时间到了,存在的越久,飞得越高,只有驾驭那浪潮的时候,才能在巨浪中取得平衡。

参考资料:

【1】对话月之暗面杨植麟:向延绵而未知的雪山前进,张小珺

【2】Kimi 杨植麟仲裁案水下故事全揭秘,暗涌

【3】移动营销平台 AppGrowing 数据

【4】晚点对话印奇:AI1.0 的教训是,所有不能闭环的辉煌都是暂时的

【5】对话幻方梁文锋:AI 界的拼多多——揭秘 DeepSeek! 暗涌