(原标题:周末DeepSeek扔出“王炸”!初度败露了本钱利润率 影响多大?)绫 丝袜
周六,国内AI大模子公司DeepSeek官方账号在知乎初度发布《DeepSeek-V3/R1推理系统概览》本事著述,不仅公开了其推理系统的中枢优化决策,更是初度败露了本钱利润率等关键数据,激勉行业振荡。
数据裸露,若按表面订价计算,其单日本钱利润率高达545%,这一数字刷新了环球AI大模子范畴的盈利天花板。
业内分析指出,DeepSeek的开源计谋与本钱限度智商正在冲破AI范畴的资源把持。DeepSeek这次“透明化”败露,不仅展示了其本事实力与交易后劲,更向行业传递明深信号:AI大模子的盈利闭环已从理思照进执行。
DeepSeek最新发布
3月1日,DeepSeek于知乎开设官方账号,发布《DeepSeek-V3/R1推理系统概览》本事著述,初度公布模子推理系统优化细节,并败露本钱利润率关键信息。
著述写说念:“DeepSeek-V3/ R1推理系统的优化见识是:更大的费解,更低的延长。”
为休止这两个见识,DeepSeek的决策是使用大限制跨节点大师并行(EP),但该决策也增多了系统复杂性。著述的主要内容即是对于怎样使用EP增长批量大小(batch size)、苦衷传输耗时以及进行负载平衡。
值得细心的是,著述还领先败露了DeepSeek的表面本钱和利润率等关键信息。
字据DeepSeek官方败露,DeepSeek V3和R1的所有行状均使用H800 GPU,使用和检会一致的精度,即矩阵计算和dispatch 传输取舍和检会一致的FP8圭臬,core-attention计算和combine传输取舍和检会一致的BF16,最猛进度保证了行状恶果。
另外绫 丝袜,由于白日的行状负荷高,晚上的行状负荷低,因此DeepSeek休止了一套机制,在白日负荷高的期间,用所有节点部署推理行状。晚上负荷低的期间,减少推理节点,以用来作念筹划和检会。
刘涛李晨车震在最近24小时(2025年2月27日12:00至28日12:00)的统计周期内:GPU租借本钱按2好意思元/小时计算,日均本钱为87072好意思元;若所有输入/输出token按R1订价(输入1元/百万token、输出16元/百万token)计算,单日收入可达562027好意思元,本钱利润率高达545%。
不外,DeepSeek官方坦言,骨子上莫得这样多收入,因为V3的订价更低,同期收费行状只占了一部分,另外夜间还会有扣头。
DeepSeek的高利润率源于其翻新的推理系统联想,中枢包括大限制跨节点大师并行(EP)、计算通讯重迭与负载平衡优化三大本事相沿:大师并行(EP)提高费解与反馈速率,针对模子荒芜性(每层仅激活8/256个大师),取舍EP计谋推广总体批搞定限制(batch size),确保每个大师获取弥漫的计算负载,显赫提高GPU期骗率;部署单元动态调度(如Prefill阶段4节点、Decode阶段18节点),平衡资源分派与任务需求。
计算与通讯重迭苦衷延长,Prefill阶段通过“双batch交错”休止计算与通讯并行,Decode阶段拆分attention为多级活水线,最大遗弃掩盖通讯支拨。
全局负载平衡幸免资源奢华,针对不同并行形状(数据并行DP、大师并行EP)联想动态负载平衡器,确保各GPU的计算量、通讯量及KVCache占用平衡,幸免节点空转。
粗浅来说,EP就像是“多东说念主配合”,把模子中的“大师”溜达到多张GPU上进行计算,大幅提高Batch Size,榨干GPU算力,同期大师溜达,裁减内存压力,更快反馈。
DeepSeek在工程层面进一步压缩本钱。日夜资源调配:白日岑岭时段全力支捏推理行状,夜间闲置节点转用于研发检会,最大化硬件期骗率;缓存掷中率达56.3%:通过KVCache硬盘缓存减少重复计算,在输入token中,有3420亿个(56.3%)成功掷中缓存,大幅裁减算力铺张。
影响多大?
有分析称,DeepSeek这次败露的数据,不仅考证了其本事门道的交易可行性,更为行业建设了高效盈利的标杆:其模子检会本钱仅为同类居品的1%—5%,此前发布的DeepSeek-V3模子检会本钱仅557.6万好意思元,远低于OpenAI等巨头;推理订价上风方面,DeepSeek-R1的API订价仅为OpenAI o3-mini的1/7至1/2,低本钱计谋加快商场渗入。
业内分析指出,DeepSeek的开源计谋与本钱限度智商正在冲破AI范畴的资源把持。DeepSeek这次“透明化”败露,不仅展示了其本事实力与交易后劲,更向行业传递明深信号:AI大模子的盈利闭环已从理思照进执行,记号着AI本事从实验室迈向产业化的关键移动。
中信证券觉得,Deepseek在模子检会本钱裁减方面的最好推行,料将刺激科技巨头取舍更为经济的容颜加快前沿模子的探索和筹划,同期将使得大量AI应用得以解锁和落地。算法检会带来的限制报酬递加效应以及单元算力本钱裁减对应的杰文斯悖论等,均意味着中短期维度科技巨头不竭在AI算力范畴进行捏续、限制插足仍将是高笃定性事件。
本周以来,DeepSeek开启“开源周”,给东说念主工智能范畴扔下数颗“重磅炸弹”。总结DeepSeek这五天开源的内容,信息量很大,具体来看:
周一,DeepSeek晓谕开源FlashMLA。FlashMLA是DeepSeek用于Hopper GPU的高效MLA解码内核,并针对可变长度序列进行了优化,现已插足分娩;
周二,DeepSeek晓谕开源DeepEP,即首个用于MoE模子检会和推理的开源EP通讯库,提供高费解量和低延长的all-to-all GPU内核;
周三,DeepSeek晓谕开源DeepGEMM。其同期支捏密集布局和两种MoE布局,齐全即时编译,可为V3/R1模子的检会和推理提供精深支捏等;
周四,DeepSeek晓谕开源Optimized Parallelism Strategies。其主要针对大限制模子检会中的效用问题;
周五,DeepSeek晓谕开源Fire-Flyer文献系统(3FS),以及基于3FS的数据搞定框架Smallpond。
因此,有网友驳斥称:“《DeepSeek-V3/R1推理系统概览》本事著述是‘开源周彩蛋’,成功亮出了底牌!”
至此绫 丝袜,DeepSeek“开源周”的连载能够要告一段落了,但DeepSeek后续行为也曾值得捏续讲理。