联系我们

CONTACT

手机：18854071661
电话：0530-8772310
ＱＱ：564112010
邮箱：18854071661@163.com
地址：山东省菏泽市单县莱河镇198号

DeepSeek突围奥秘曝光天才集结开出千万年薪

时间：2025-03-31 21:59:08 点击量：806

　　DeepSeek这波强攻，彻底把OpenAI逼急了——深夜紧急上线-mini。

　　关于DeepSeek模型训练数据、GPU用量、成员构成、RL训练算法，早已成为所有人的关注焦点。

　　SemiAnalysis一篇深度报道中，从多个方面进行了推测——训练成本、对闭源模型利润影响、团队等等。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图1)

　　DeepSeek不是「副业」，在GPU等硬件支出远超5亿美元，论文中600万美元仅是预训练运行GPU成本，研发、硬件总拥有成本（TCO）被排除在外

　　DeepSeek大约有150名员工，并定期从北大、浙大等招募顶尖人才，据称有潜力的候选人能拿到超130万美元（934万元）薪水

　　DeepSeek一个关键创新——多头潜注意力（MLA），耗时多月开发，将每个查询KV量减少93.3%，显著降低推理价格

　　DeepSeek背后顶级投资者幻方量化（High-Flyer），很早就洞察到了AI在金融领域之外的巨大潜力，以及规模化部署的关键重要性。

　　在使用数千个GPU集群进行模型实验后，幻方在2021年投资购入了10,000块A100，这一决策最终证明是极具前瞻性的。

　　随着业务发展，他们在2023年5月决定分拆成立「DeepSeek」，以更专注地推进AI技术发展。由于当时外部投资者对AI领域持谨慎态度，幻方选择自行提供资金支持。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图2)

　　与媒体将其描述为「副业项目」不同，DeepSeek已发展成为一个严肃且协调有序的重要项目。即使考虑到出口管制的影响，高级分析师估计他们在GPU方面的投资规模已超5亿美元。

　　据SemiAnalysis评估，他们拥有约50,000块Hopper架构GPU，这些计算资源在幻方和DeepSeek之间共享使用，并在地理位置上进行了分散部署，用于交易、推理、训练和研究等多个领域。

　　根据分析，DeepSeek在服务器方面的资本支出总额约为16亿美元，而运营这些计算集群的成本高达9.44亿美元。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图3)

　　在人才战略方面，DeepSeek专注于招募中国本土人才，不过分看重候选人的过往履历，而是更注重其实际能力和求知欲望。

　　他们经常在北京大学和浙江大学等顶尖高校举办招聘活动，现有员工中很多都来自这些学校。

　　公司的职位设置非常灵活，不会过分限定岗位职责，招聘广告甚至强调可以自由使用数万个GPU资源。

　　他们提供极具竞争力的薪酬待遇，据报道为优秀候选人提供的年薪可达130万美元以上，远超其他科技巨头和AI实验室的水平。

　　与谷歌等大公司的繁琐决策流程相比，DeepSeek 凭借自主融资的优势，能够更快速地将创新理念付诸实践。

　　有趣的是，DeepSeek在运营模式上却与谷歌相似，主要依靠自建数据中心而非外部服务提供商。

　　这种模式为技术创新提供了更大的实验空间，使他们能够在整个技术栈上进行深度创新。

　　DeepSeek的定价策略和运营效率在本周引发了广泛关注，特别是有关DeepSeek V3训练成本「600万美元」的报道。

　　据他们评估，DeepSeek在硬件方面的累计投资已远超5亿美元。在开发新架构的过程中，需要投入大量资源用于测试新理念、验证新架构设计和进行消融实验（ablation studies）。

　　比如，作为DeepSeek重要技术突破的多头潜注意力机制（Multi-Head Latent Attention），其开发周期就长达数月，消耗了大量的人力资源和计算资源。

　　论文中，提到的600万美元仅指预训练阶段的GPU直接成本，这只是模型总成本的一个组成部分。

　　举例来说，Claude 3.5 Sonnet训练成本就达到了数千万美元。

　　如果这就是Anthropic所需的全部投入，他们就不会从谷歌筹集数十亿美元，更不会从亚马逊获得数百亿美元的投资。

　　这是因为他们需要持续投入实验研究、架构创新、数据采集与清洗、人才招募等多个方面。

　　许多分析将V3与GPT-4o进行对比，强调V3超越了后者的性能。这个结论虽然正确，但需要注意GPT-4o是在2024年5月发布的。

　　此外，随着时间推移，用更少的计算资源实现相当或更强的性能，也符合行业发展规律。推理成本的持续下降正是AI进步的重要标志。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图4)

　　一个典型的例子是，现在可以在普通笔记本电脑上运行的小型模型，已能达到与GPT-3相当的性能水平，而后者在发布时需要超级计算机进行训练，且推理阶段也需要多个GPU支持。

　　换言之，算法的持续优化使得训练和推理同等性能的模型，所需的计算资源不断减少，这种趋势在行业内屡见不鲜。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图5)

　　目前的发展趋势表明，AI实验室在绝对投入增加的同时，单位投入所能获得的智能水平提升更为显著。

　　据估计，算法效率每年提升约4倍，这意味着实现相同性能所需的计算资源每年减少75%。

　　Anthropic CEO Dario的观点更为乐观，认为算法优化可以带来10倍的效率提升。

　　在分析GPT-4成本演变时，高级分析师还观察到类似的下降趋势，尽管仍处于成本优化曲线的早期阶段。

　　与前述分析不同的是，这里的成本差异反映了性能提升和效率优化的综合效果，而非保持性能不变的单纯比较。

　　在这种情况下，算法改进和优化措施共同带来了约10倍的成本降低和性能提升。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图6)

　　值得强调的是，DeepSeek独特之处在于他们率先实现了这一成本和性能的突破。

　　虽然开源模型权重的做法，此前已有Mistral和Llama等先例，但DeepSeek的成就仍然显著。

　　另一个引人关注的问题是，R1能够达到与o1相当的性能水平，而o1仅在去年9月才发布。

　　与传统范式相比，推理范式具有更快的迭代速度，且能以较少的计算资源获得显著收益。

　　正如SemiAnalysis在scaling law报告中指出的，传统范式主要依赖预训练，这种方式不仅成本越来越高，而且越来越难以实现稳定的性能提升。

　　新的推理范式，主要通过合成数据生成和在现有模型基础上进行后训练强化学习来提升推理能力，这使得以更低成本获得快速进展成为可能。

　　随着业界逐步掌握这一新范式的扩展技巧，高级分析师预计不同模型之间在能力匹配上的时间差距可能会进一步拉大。

　　虽然R1在推理性能上确实达到了相当水平，但它并非在所有评估指标上都占据优势，在许多场景下其表现甚至不如 o1。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图7)

　　OpenAI最近发布的o3测试结果显示，其性能提升几乎呈现垂直上升趋势。

　　这似乎印证了「深度学习遇到了瓶颈」的说法，只是这个瓶颈的性质与以往不同。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图8)

　　在R1引发广泛关注的同时，一个重要事实往往被忽视：谷歌在一个月前就推出了一款更具性价比的推理模型——Gemini Flash 2.0 Thinking。

　　在已公布的基准测试中，Flash 2.0 Thinking表现优于 R1，尽管基准测试并不能完全反映模型的线项基准测试结果，这显然不足以提供完整的对比。

　　即便如此，分析师认为谷歌的模型具有很强的稳定性，在多个方面都能与R1分庭抗礼，只是没有获得应有的关注度。

　　这可能部分源于谷歌欠佳的市场策略和用户体验，也与出乎意料的竞争者R1的到来有关。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图4)

　　正是凭借快速行动、充足资金、卓越智慧和明确目标的创业公司特质，DeepSeek才能在推理模型的竞争中超越Meta这样的科技巨头。

　　接下来，让我深入扒一扒DeepSeek所取得的领先实验室尚未实现的技术突破。

　　SemiAnalysis高级分析师预计，DeepSeek发布的任何技术改进，都会被西方实验室迅速复制。

　　DeepSeek V3以前所未见的规模实现了多Token预测（MTP）技术，这些新增的注意力模块可以预测接下来的多个 Token，而不是传统的单个Token。

　　其他方面，虽然DeepSeek在训练中采用了FP8精度，但像全球一些顶尖的实验室已经采用这项技术相当长时间了。

　　DeepSeek V3采用了我们常见的「混合专家模型」（MoE）架构，个由多个专门处理不同任务的小型专家模型组成的大模型，展现出强大的涌现能力。

　　MoE模型面临的主要挑战是，如何确定将哪个Token分配给哪个子模型（即「专家」）。

　　DeepSeek创新性地采用了一个「门控网络」（gating network），能够高效且平衡地将Token路由到相应的专家，同时保持模型性能不受影响。

　　这意味着路由过程非常高效，在训练过程中每个Token只需要调整小量参数（相较于模型整体规模）。

　　尽管有人担心MoE带来的效率提升，可能降低投资意愿，但Dario指出，更强大的AI模型带来的经济效益非常可观，任何节省的成本都会立即被投入到开发更大规模的模型中。

　　当前，包括OpenAI、谷歌、Anthropic等一些公司正专注于扩大模型的计算规模，并提高算法效率。

　　对于R1而言，它极大地受益于其强大的基础模型——V3，这在很大程度上要归功于强化学习（RL）。

　　RL主要关注两个方面：格式化（确保输出连贯性）以及有用性与安全性（确保模型实用且无害）。

　　模型的推理能力，是在对合成数据集进行微调过程中自然涌现的，这与o1的情况类似。

　　值得注意的是，R1论文中并没有提及具体的计算量，因为披露使用的计算资源，会暴kaiyun登录入口 kaiyun平台露DeepSeek实际拥有的GPU数量远超过其对外宣称的规模。

　　谈到蒸馏，R1论文最引人注目的发现可能是，通过具有推理能力的模型输出来微调较小的非推理模型，使其获得推理能力。

　　数据集包含了约80万个样本，现在研究人员可以利用R1的思维链（CoT）输出创建自己的数据集，并借此开发具有推理能力的模型。

　　未来，我们可能会看到更多小模型展现出推理能力，从而提升小模型的整体性能。

　　如开头所述，MLA是一项重要的技术创新，它显著降低了DeepSeek模型推理成本。

　　与标准注意力机制相比，MLA将每次查询所需的KV缓存减少了约93.3%（KV缓存是Transforme模型中的一种内存机制，用于存储表示对话上下文的数据，从而减少不必要的计算开销）。

　　通过大幅减少每次查询所需的KV缓存量，可以相应减少每次查询所需的硬件资源，从而降低运营成本。

　　MLA这项创新，特别引起了许多美国顶级实验室的关注。实际上，MLA首次在2024年5月发布的DeepSeek V2中就已推出。

　　此外，由于H20芯片比H100具有更高的内存带宽和容量，DeepSeek在推理工作负载方面获得了更多效率提升。

　　在利润率方面，SemiAnalysis发现了一个关键现象：R1并非线的技术优势，而是以显著更低的成本实现了相似的性能水平。

　　这种现象本质上符合市场逻辑，接下来高级分析师将提出一个框架，来分析未来价格机制的运作方式。

　　这种情况与半导体制造业的发展模式极其相似，只是节奏更快。就像台积电每当率先突破新制程时，都能获得显著的定价优势，因为他们提供了此前市场上不存在的产品。

　　其他落后的竞争对手（如三星、英特尔）则会采取较低的定价策略，以在性价比上达到平衡。

　　对芯片制造商（在这个类比中，即AI实验室）来说，一个有利条件是他们可以灵活调整产能分配。

　　当新型号能提供更优的性价比时，他们可以将产能转移到新型号的生产上。虽然旧型号仍会继续支持，但会相应减少其供应规模。

　　这种策略模式与当前AI实验室的实际运营行为高度吻合，也反映了半导体制造业的基本规律。

　　率先突破到新的能力层次，将带来可观的价格溢价，而那些能够快速追赶到相同能力水平的竞争者，只能获得适度利润。

　　这种显著的价格差异不禁让人质疑：为什么OpenAI的价格如此之高？这是因为他们采用了基于SOTA的前沿定价策略，享受着技术领先带来的溢价优势。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图10)

　　SemiAnalysis预计，AI未来的发展速度，将超过领先芯片制造业的发展节奏。

　　快速实现最新能力意味着可以保持定价权（如ChatGPT Pro），而能力落后则意味着更低的定价，主要收益将流向提供token服务的基础设施提供商。

　　当前正处于技术快速迭代的周期，我们将会看到产品以前所未有的速度更新换代。

　　只要科技公司能够通过scaling能力来开发出新功能，并在这些功能基础上创造价值，就应该拥有定价权。

　　芯片制造业是目前资本最密集的行业，虽然全球没有任何行业在研发投入上超过半导体行业，但这个最接近的现实类比实际上表明——模型公司发展态势越快，对高性能芯片的需求也越大。

　　将AI token与「杰文斯悖论」（技术进步提高效率反而增加资源消耗）进行比较时，我们可以发现深刻的历史相似性。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图11)

　　最初，业界并不确定是否能持续缩小晶体管尺寸，但当这一可能性得到证实后，整个行业都致力于将CMOS工艺微缩到极限，并在此基础上构建有意义的功能。

　　我们正在像早期缩小晶体管一样scaling模型规模，尽管这在技术进步方面可能会经历一段异常忙碌的时期，但这种发展趋势对英伟达来说无疑是利好消息。

　　如果DeepSeek愿意接受零利润率甚至负利润率运营，他们确实可以维持如此低的价格水平。

　　但显然，提供前沿token服务的价格弹性阈值要高得多。考虑到DeepSeek正在筹备新一轮融资，这种策略对他们来说是有其战略意义的。

　　DeepSeek刚刚在推理能力这个关键突破点上，打破了OpenAI的高利润率格局。

　　SemiAnalysis对此持怀疑态度——这更像是一个开源实验室展示了它能够达到闭源实验室的能力水平。

DeepSeek突围奥秘曝光天才集结开出千万年薪(图12)

　　高级分析师确实认为，一个更强大的开源实验室（而DeepSeek现在无疑是其中表现最好的）对新兴云服务提供商（Neoclouds）和各类服务提供商来说是重大利好。

　　但如果上层服务提供商选择免费提供其产品，那么提升计算资源的商业价值就成为可能。

　　这意味着更多的资金将流向计算资源提供方而非闭源模型提供商，换句话说，支出将更多地流向硬件设施而非其他环节。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　30万人狂欢！英超133年老店庆典：苦等70年全市3/5居民都跑来了

　　“投资客较多”，上海史上最大单地块旧改项目拆分出让，周边新房开盘即罄，房价直奔20万元/平方米？

　　新协议要价更狠：美国援助变贷款，每年4%利息！泽连斯基发声：不承认！普京一项提议，古特雷斯拒绝了

　　太狠了！19个跌停后又来20个，从47跌到0.14，里面的散户怎么办？

　　62胜创队史纪录！雷霆横扫步行者9连胜亚历山大33+7+8连67场20+

　　《编码物候》展览开幕北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律

【返回列表】

Kaiyun（开云中国）官方网站

18854071661

DeepSeek突围奥秘曝光天才集结开出千万年薪