本文聚焦于AI行业的最新动态,深入探讨了DeepSeek爆火后对大模型格局产生的巨大冲击,以及“AI六小龙”等相关企业如何调整业务方向以应对挑战,同时分析了中美两地AI格局的变化趋势。
3月18日,前VC投资人庄明浩在朋友圈转发了三段颇具深意的文章片段。这三段内容分别涉及百川“断臂”医疗To B业务、零一万物明确表示不涉足万亿规模超大参数模型,以及朱啸虎称金沙江的LP们十分感激他未在基础模型公司上浪费一分钱。庄明浩还配文道:“或许旁观者可以轻松笑看,但如果你身处这个行业之中呢?”
当下,那些“身在其中者”纷纷开始调整战略方向。以“AI六小龙”为例,零一万物果断退出“超大基模”烧钱竞赛,转而采取模型开放策略,未来将专注于研发能兼容适配国内主流模型的产品,从基座大模型的重投入者转变为软硬件解决方案提供商,不过仍会继续推进轻量化模型的研发;百川智能则聚焦医疗方向,对金融业务进行优化收缩。另外四条“龙”中,智谱与阶跃星辰分别依靠北京市与上海市政府的资源来推动项目进展;Minimax在海外市场和视频领域表现较为稳定;而月之暗面受到DeepSeek的冲击较为明显,QuestMobile 1月数据显示,当月DeepSeek的日活(DAU)超越豆包,Kimi退居第三,且用户增速显著放缓。
DeepSeek带来的技术革新和成本降低,推动了行业的“技术平权”。一方面,它冲击了原有的大模型格局;另一方面,促使算力向推理端聚焦,带动了大模型应用的繁荣发展。全球投资机构a16z在3月发布的AI产品流量TOP50榜单中,Web端排名前五十的产品里,中国有19款入榜,占比升至38%。而在去年8月的榜单中,中国市场仅有8款产品上榜。同期,美国AI产品的数量从33款降至23款,占比降至46%。
随着训练端技术差距逐渐缩小,算力压力得到一定程度的缓解,开源市场为创业者的想法落地提供了助力,中国市场在产品端的优势愈发凸显。而原本处于行业头部的竞争者们,急需调整方向,补充资源,以应对新一轮的大模型幸存者挑战赛。
a16z榜单Web端TOP50
DeepSeek之后基模还有意义吗?
DeepSeek的火爆直接冲击了原本的大模型格局,其核心原因在于DeepSeek – R1模型在低成本和开源生态的基础上,在多个关键任务上展现出与国际顶尖闭源模型相当甚至更优的性能。此外,DeepSeek采用的强化学习技术和混合专家架构(MoE)等技术,也提升了模型的推理能力和效率。
与多款模型有限度的“伪开源”不同,DeepSeek将模型架构、训练方法以及数据处理方案完全公开。这种彻底的开源策略吸引了全球超过20万开发者参与生态建设,衍生出医疗、金融、教育等垂直领域的定制模型,直接冲击了传统大模型厂商依靠高昂授权费用和闭源模式盈利的途径。
然而,目前市场上对于DeepSeek是否会彻底颠覆基座大模型市场与Scaling Law(扩展定律)存在不同观点。坚定的应用派朱啸虎认为,目前市场已无需关注传统的“AI六小龙”,创业公司做底层模型已毫无意义。他表示,自己一开始就认为基础模型会像水电煤一样成为通用的商品服务,但没想到这一天来得如此之快,且方式如此剧烈。
大洋彼岸的英伟达也因DeepSeek的热度而市值一夜暴跌近六千亿美元。投资者主要担忧DeepSeek的技术突破会降低市场对英伟达昂贵硬件,特别是其高端GPU的需求。在刚刚结束的GTC大会上,英伟达创始人兼CEO黄仁勋回应称:从两年前的ChatGPT到如今的推理机会,AI Scaling Law并未消失,而是从一个演变成了三个——预训练扩展、在代理人工智能(Agentic AI)阶段的后训练扩展,以及针对推理模型的扩展法则。其中推理(inference)实际上是计算的最终难题。他认为,去年全世界对Scaling Law的预测都不准确,如今的算力需求比去年预估的规模高出100倍。
然而,大会当日英伟达股价收跌3.4%。华泰证券分析师认为,此次GTC上,尽管公司提出了后训练Scaling和测试时间Scaling的概念,但从英伟达当天的股价表现来看,此次大会或许未能消除投资人对算力需求增长方面的担忧。
第四范式创始人戴文渊对记者表示,DeepSeek为全行业提供了一个更优质的基座,带来了巨大帮助,其更大的推动意义在于推动深度推理方向的出现,有助于中国AI产业减少在预训练环节面临的限制。当更多算力聚焦在推理端,整体技术和性能也能得到提升。
但不能因为更多算力聚焦推理端就否定训练端的意义。戴文渊打了个比方:训练端就像考前刷题库,推理端就像考试时的具体思考,如果平时没有认真做题,考试时就需要更多思考。只是对于国内市场而言,训练端确实会面临算力压力,所以当行业进入推理周期后,对原有的基座大模型产生了影响。
英伟达强调Scaling Law三条曲线
“六小龙”转向
尽管关于Scaling Law的辩论仍在继续,但更多算力资源向推理端倾斜已成为事实。那些投入大量资金押注基座摸底的厂商,不得不主动或被动地调整业务方向。
在最新的动态发声中,零一万物创始人李开复回应第一财经等媒体时表示:公司未来不再专注于单一大模型,而是采取模型开放策略,研发能兼容适配国内主流模型的产品。转型后,零一万物从基座大模型的重投入者转变为软硬件解决方案提供商,不再训练万亿参数规模的超大基模,但仍会继续推进轻量化模型的研发。
百川智能也调整了业务方向,优化金融业务,聚焦医疗To B赛道。对于金融业务的收缩,百川官方回应记者称:百川正按照既定规划,对金融业务进行优化调整,以集中资源,聚焦核心业务。
据记者了解,百川自2024年起就逐步缩减对预训练大模型的投入,今年将加大对医疗增强大模型的投入。AIGCLINK发起人、行行AI合伙人占冰强表示,目前AI六小龙各有特点。其中,百川在医疗赛道具有优势,因为王小川在创业搜狗搜索时,积累了大量医疗行业的客户。从整个AI领域来看,占冰强认为,行业发展不能仅依赖厂商的开发能力,还需要具备商务能力,目前百川的医疗商务资源是一项优势。
3月20日,百川智能与北京儿童医院、小儿方健康共同发布全球首个儿科大模型“福棠·百川”儿科大模型。虽然技术落地对百川来说并非难题,但市场份额的争夺仍面临严峻挑战。目前,行业内多家企业已开始侧重医疗方向,如华为组建医疗卫生军团、聚焦医疗大模型临床落地,科大讯飞控股子公司讯飞医疗推出讯飞星火医疗大模型,腾讯与迈瑞联合开发“启元”重症大模型,多家医院宣布接入DeepSeek大模型。
此外,资金压力也是医疗场景需要重点考虑的问题。目前部分医院缺乏高性能计算资源(如GPU)和高速网络连接,难以满足大模型的算力需求;医院内部对数据管理严格,限制了数据的共享和调用;医疗领域对错误的容忍度极低,医疗大模型需要达到极高的准确率才能在临床场景落地,多数医疗模型还处于合作试水阶段。因此,相较于金融、营销、社交娱乐等场景,医疗场景不利于初创公司缓解资金压力。
与其他厂商进行业务收缩不同,智谱通过加快拿单和融资速度来缓解资金焦虑。仅在3月,智谱就先后宣布获得杭州国资、珠海华发集团、四川成都高新区的融资,同时达成双方项目合作协议。例如,珠海高新区、华发集团与智谱签署合作协议,宣布联合搭建首个城市级GLM大模型空间“智谱 珠海华发空间”,为珠海产业提供从技术层、平台层到应用层的全栈AI技术支持。此外,四川成都高新区与智谱合作打造四川省基座大模型“智谱诸葛大模型”,同步建设大模型训练中心、研发中心及西部赋能平台三位一体的AI基础设施。
但需要注意的是,如果智谱的新一轮募资以项目进展为节点,那么公司在资金层面的压力并未从根本上得到缓解。
剩余的“三龙”也纷纷跟进开源方向。阶跃星辰从去年的审慎态度转变为今年明确加大开源力度,3月20日再次披露图生视频模型开源;MiniMax在收缩B端业务后,持续投入视频生成、视觉多模态与海外产品;月之暗面大幅收缩产品投放预算,逐渐披露在长文本与开源技术方面的进展。
DeepSeek、Perplexity和Claude月访问量变化对比
从技术追赶到产品博弈
在DeepSeek的影响下,行业格局将如何分化,不同人士有不同的看法。
朱啸虎认为,未来基础模型的竞争格局中,大厂里只会剩下阿里、腾讯、字节三家。在他看来,阿里通义千问布局良好,还有开源模型;腾讯原本在基础模型上落后,但因全面拥抱DeepSeek,反而迎头赶上;字节投入巨大,且对自身的AI能力充满信心。至于创业公司,朱啸虎认为必须找到自己的优势领域,才有机会脱颖而出,但从现状来看,他认为尚未出现能颠覆阿里、腾讯、字节的万亿美元机会。
李开复在业务调整后,也表达了对大模型格局的看法。他认为中国大模型格局很可能会集中到三家——DeepSeek、阿里巴巴和字节跳动,原因是它们的模型会随着时间不断迭代进化,其中DeepSeek目前发展势头最猛。对于其他基模平台,李开复认为,大量资金投入训练的基座模型逐渐趋于同质化,成本高昂,越来越难以与开源技术竞争。
如果将目光投向中美两地的AI格局,李开复认为,中美市场中的超大模型预训练正逐渐走向寡头化,且寡头化程度不断加深,其中开源圈优势明显。在美国市场,OpenAI和Anthropic都坚信自己能训练出远超其他玩家的闭源模型。但从结果来看,OpenAI在2024年的运营成本为70亿美元,而DeepSeek的运营成本可能仅为OpenAI的2%。
从技术层面看,各家模型各有优势,李开复认为核心痛点并非哪家模型在性能上比其他模型高出1%,而是模型路线本身是否具有可持续性。例如,OpenAI每年花费70亿美元,面临巨额亏损。而现在出现了一个竞争对手,将成本低廉数倍的开源模型免费开放给市场,且该竞争对手资源充足,目前看来DeepSeek有足够的资金储备持续投入模型研发,并已有效将计算成本降低了五到十倍。“有了这样一个强大的竞争对手,我认为OpenAI的萨姆·奥尔特曼可能夜里辗转难眠。”李开复表示。
奥尔特曼也在采取调整措施。近期,在对外采访中,奥尔特曼对DeepSeek的爆火进行了反思,他认为是OpenAI对“思维链”的隐藏给了其他人病毒式传播的机会,这也是一次很好的警示,未来GPT5可能免费。
OpenAI最近的更新更多地聚焦在产品端,包括API更新、发布语音转录和语音生成AI模型等,这也符合奥尔特曼“产品套件”的策略。奥尔特曼认为,如果执行得当,未来五年,OpenAI将拥有一系列数十亿用户规模的产品。但一位聚焦Agent领域的创业者对记者表示,OpenAI的产品表现“一般”,相较于技术层面的原始创新,中国创业者在产品端拥有更多成功经验,而这也将成为DeepSeek推动技术平权之后,中美新一轮的竞赛领域。
本文深入剖析了DeepSeek爆火后AI行业的变革。它冲击了原有大模型格局,推动算力向推理端聚焦,带动了大模型应用繁荣。“AI六小龙”纷纷调整业务方向以应对挑战,如零一万物转型、百川聚焦医疗等。同时,中美AI格局也在发生变化,超大模型预训练趋于寡头化,开源圈优势凸显。未来,行业竞争将从技术追赶转向产品博弈,中国创业者在产品端的经验或成为新的竞争优势。