欧洲杯体育其中提到通过大模子跨节点大家并行-开云(中国)kaiyun网页版登录入口
华泰证券以为,DeepSeek通过优化推理老本,有望激动LLM买卖化行使加快。基于此,看好推理需求开释带动IaaS就业商稼动率栽植,云厂商有望受益。其次,研讨到R1带来模子能力栽植的同期又可结束低老本部署,有望带动AI行使加快渗入。临了,尽管当今DeepEP仍需要在Hopper+CUDA+NVLink的框架下结束,但中弥远来看,跟着国产卡的适配跟进,期间有望向更多国产生态迁徙,国产AI算力板块有望迎来成长机遇。
全文如下华泰 | 筹画机:DeepSeek - EP降本,存眷行使与算力
2025年3月1日,DeepSeek发布《One More Thing, DeepSeek-V3/R1 Inference System Overview》,其中提到通过大模子跨节点大家并行,DeepSeek结束了$87,072/天的低老本推理,灵验算力获取显贵栽植。咱们以为,跟着国产算力硬件渐渐适配DeepEP体系,DeepSeek模子或通过性价比上风带动推理需求开释,国产算力有望加快成长。
中枢不雅点
中枢亮点:推理老本大幅缩小,理思景象下15%付费率即可盈亏平衡
据DeepSeek,V3和R1推理就业占用节点总数,峰值占用为278个节点,平均占用226.75个节点,DeepSeek假设GPU租借老本为2好意思金/小时,总老本为$87,072/天。此外,在2025/02/27 12:00 PM至2025/02/28 12:00 PM,V3和R1模子推理糜掷Token 776B(输入608B+输出168B),平均每百万Token责罚老本为0.11好意思元。DeepSeek假设要是扫数Tokens沿途按照DeepSeekR1的订价筹画,表面上一天的总收入为$562,027,老本利润率545%。但研讨到当今DeepSeek仅通过API收费,故乡们测算若按照R1收费订价,付费Token占总Token的15%即可结束推理历程的盈亏平衡。
中枢期间:通过EP结束更高的浑沌量和更低的延伸
DeepSeek-V3 / R1 推理系统的优化目的是:更大的浑沌,更低的延伸。为了结束这两个目的,DeepSeek的决策是使用大范围跨节点大家并行(Expert Parallelism/EP),并开源了DeepEP代码。具体来看,中枢能力包括:1)大范围跨节点大家并行:禁受了预填充-解码明白架构,不同阶段同期进行多个大家并行筹画;2)筹画/通讯重迭:将GPU中的SM(流多责罚器)区别为筹画、通讯两部分,各自同期实行相应使命负载,减少延伸恭候期间;3)负载平衡:通过预填充负载平衡、解码负载平衡、大家并行负载平衡,尽可能地为每个 GPU 分拨平衡的筹画负载、通讯负载。
中枢原因:推理订价/老本的互异或为外部算力供应受限的斥逐
对比来看,国外模子如OpenAI o3-mini在推理订价方面较DeepSeek更贵,如每百万Token输入的价钱为$0.55(缓存射中),而R1为$0.14。咱们以为,API订价的互异或有十分一部分来自于推理老本的互异,DeepSeek或凭借EP等更极致的软硬件优化,结束推理老本的勤俭。咱们以为,这一表象的背后,响应的是国表里算力供应以及产业所在的互异。国内大模子厂商在算力供给受限的配景下,通逾期间优化的表情不断压榨硬件性能,在有限的算力下结束最优的模子斥逐。基于此,咱们以为,国内模子有望凭借性价比上风,带动下流买卖化行使,结束环球阛阓的份额栽植。
中枢受益:DeepEP开源有望开释推理需求,存眷行使与算力
咱们以为,DeepSeek通过优化推理老本,有望激动LLM买卖化行使加快。基于此,咱们看好推理需求开释带动IaaS就业商稼动率栽植,云厂商有望受益。其次,研讨到R1带来模子能力栽植的同期又可结束低老本部署,有望带动AI行使加快渗入。临了,尽管当今DeepEP仍需要在Hopper+CUDA+NVLink的框架下结束,但中弥远来看,跟着国产卡的适配跟进,期间有望向更多国产生态迁徙,国产AI算力板块有望迎来成长机遇。
风险教唆:AI期间迭代不足预期;AI买卖化不足预期;本申报基于客不雅信息整理欧洲杯体育,不组成投资提倡。

