定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《InfoQ:2025年DeepSeek:AI 赛道的超级引擎|AI前线特刊(159页).pdf》由会员分享,可在线阅读,更多相关《InfoQ:2025年DeepSeek:AI 赛道的超级引擎|AI前线特刊(159页).pdf(159页珍藏版)》请在薪酬报告网上搜索。
1、 目录目录 开篇词.1 DeepSeek崛起:大模型之战与应用未来.5 纯强化学习的革命:DeepSeek技术路线揭秘.24 DeepSeek的组织文化:创新与商业化的平衡.35 AI开源新趋势:DeepSeek的决策与影响.44 AI时代的百万年薪:DeepSeek与全球人才争夺战.58 RAG技术前沿:DeepSeek模型的应用与突破.70 DeepSeek如何重塑AI商业化格局?.93 从提示词到变现:DeepSeek如何赋能用户.105 全球AI新格局:DeepSeek带来的生态机会.114 AI的能力边界:DeepSeek能否重新分配生产力?.128 AI领域的下一个里程碑:Deep
2、Seek的预测与机遇.139 让天下没有难做的AI交付,DeepSeek服务交付联盟是个什么组织?.149 AIAI前线前线|特刊特刊 开篇词开篇词 各位开发者朋友:当你们翻开这本电子书时,我们正站在人工智能革命的临界点。过去十年,AI技术从实验室走向产业应用;未来十年,这场革命将以前所未有的深度重塑人类社会的每个角落。作为这场变革的见证者和参与者,InfoQ极客传媒联合极客时间、TGO鲲鹏会等兄弟单位,联袂多名专家第一时间对DeepSeek这一革命性技术进行深度解读,获得众多开发者朋友和企业的广泛认可。今天我们怀着敬畏与期待,将DeepSeek探索人工智能边界的故事凝结成册,希望通过这些沉淀
3、继续影响更多的朋友一起见证历史。这本电子书不是简单的技术汇编,而是一个创新组织在AI浪潮中劈波斩浪的完整叙事。从大模型底层架构的革命性突破,到开源生态的战略抉择;从纯强化学习的技术攻坚,到百万年薪人才争夺战中展现的组织智慧我们试图通过九个维度的深度剖析,向大家展示:在算法红利与商业化压力的双重作用下,一家在算法红利与商业化压力的双重作用下,一家AI企业如何保持技术创新定力,企业如何保持技术创新定力,同时构建可持续发展的商业闭环。同时构建可持续发展的商业闭环。这本电子书记录的不仅是DeepSeek成功背后的故事,更是一部关于“如何成为时代引擎”的方法论。超超级引擎的轰鸣:技术突破即行业加速器级引
4、擎的轰鸣:技术突破即行业加速器 如果说算力是AI时代的石油,那么DeepSeek正在重新定义内燃机的构造当行业还在监督学习的线性轨道上匀速前行时,DeepSeek通过自主进化系统让模型实现指数级成长。这种技术路径的颠覆性,正如从蒸汽机到火箭引擎的跨越:它不追求单一任务的极致优化,而是构建可自适应环境、持续突破性能极限的“智能推进器”。每一个技术突破的爆震声,都在为行业校准新的速度阈值。DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 动动力系统的秘密:组织文化的聚变反应力系统的秘密:组织文化的聚变反应 超级引擎的持久运转,依赖内部精密的能量转化机制。DeepSeek独特的
5、组织哲学保持了研发团队与商业化团队之间的创造性张力,既不让短期盈利目标束缚技术想象力,也避免陷入技术乌托邦的陷阱。这种戴着镣铐跳舞的智慧,体现在工程师与产品经理每周的认知碰撞会中,也体现在允许20%资源投入高风险探索项目的制度设计里。正如硅谷教父杰弗里摩尔所言:跨越技术采纳鸿沟的关键,在于建立创新与市场的对话机制。传传动轴的革新:开源生态重构动轴的革新:开源生态重构AI产业产业 真正的超级引擎从不独行,它需要重新定义传动的规则。在有关AI开源新趋势的交流中,我们讨论了DeepSeek开源决策背后的战略考量。不同于某些企业将开源视为市场防御手段,DeepSeek的开源实践始终秉持生态共建的初心。
6、通过开放模型中间层接口,既降低了开发者的准入门槛,又在产业上下游催生出200余个创新应用案例。这种利他即利己的生态思维,正在改写AI时代的价值分配规则。核核心部件的进化:人才飞轮突破性能极限心部件的进化:人才飞轮突破性能极限 当行业用薪酬数字粗暴比拼“马力”时,DeepSeek更关注人才的“推重比”。当“百万年薪”成为行业热议话题,我们更应注意人才争夺背后的深层逻辑。在DeepSeek的实践中,顶尖人才的价值不仅体现在代码能力,更在于其构建认知飞轮的能力那些能同时理解技术本质与商业规律,在模型优化与用户体验之间找到平衡点的人才,才是驱动AI落地的关键齿轮。为此,其建立起独特的双轨道培养体系,让
7、技术天才与产品极客能在碰撞中实现认知升级。输输出功率的质变:商业化重塑价值坐标系出功率的质变:商业化重塑价值坐标系 超级引擎的真正价值,体现在它如何重新定义“速度”。AI商业化绝非简单的技术变现。当电商企业将提示词响应速度从3秒降至0.5秒时,带来的不仅是效率提升,更是用户决策模式的根本改变。这种价值重构要求企业具备技术穿透力既能洞察算法瓶颈,又能感知用户体验的细微痛点。DeepSeek在金融、教育、医疗等领域的成功实践证明:AI商业化的天花板,取决于技术团队对产业Know-How的理解深度。AIAI前线前线|特刊特刊 站在2025年的技术拐点上,我们清晰地看到:大模型正在从技术奇观走向产业基
8、础设施,AI竞争进入应用深水区。在这个过程中,DeepSeek始终秉持三个核心信念:其一,真其一,真正的智能革命必须带来可衡量的商业价值;其二,开放协作的生态比封闭系统更具生命正的智能革命必须带来可衡量的商业价值;其二,开放协作的生态比封闭系统更具生命力;其三,人机协同进化的终极目标是解放而非替代人类创造力。力;其三,人机协同进化的终极目标是解放而非替代人类创造力。谨以此书,献给所有不甘于匀速前进的行业颠覆者。真正的超级动力,永远源自那些敢于重新定义速度的人。今年极客邦科技的年度主题也是“AI应用落地”,我们期待和所有心怀梦想,勇于挑战的朋友一起创造历史,见证历史!霍太稳 极客邦科技创始人 2
9、025年3月10日于北京 4 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 DeepSeek AI赛道的超级引擎赛道的超级引擎 5 AIAI前线前线|特刊特刊 DeepSeekDeepSeek崛起:大模型之战与应用未来崛起:大模型之战与应用未来 分享嘉宾:彭靖田 策划:极客时间 亮点内容亮点内容:DeepSeek持续爆火,背后到底是什么原因;DeepSeek基础模型核心架构DeepSeekMoE DeepSeek R1推理模型关键技术突破与原理解析 DeepSeek有什么应用场景和案例。中美大模型未来竞争格局分析 大家晚上好,我叫彭靖田,是Google出海创业加速器的
10、导师,也是Google AI开发者专家。今天我想重点分享几个问题。首先是DeepSeek和其他大模型相比,到底处于什么水平?它为什么突然火了起来?它的落地应用前景和挑战又是什么?最后,我想和大家探讨一下中美在大模型领域的竞争,这其实是一个长期的话题。在正式开始之前,我想先问大 6 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 家一个问题:你们是什么时候听说DeepSeek的?1月20日,也就是春节前一周左右,国务院总理李强主持了一场座谈会,深度求索的创始人梁文峰参与了此次座谈,并就政府工作报告的征求意见稿提出了建议。这一事件从顶层设计层面体现了中国对DeepSeek技
11、术突破的高度重视。那么,DeepSeek为何受到如此重视?它仅仅是中国人关注的对象,还是全球瞩目的焦点?数据或许能给出答案。通过Google搜索引擎的Google Trends来看,过去30天内,在美国IP属地的搜索数据中,我选取了三个关键词:DeepSeek、ChatGPT和LLaMA。1月11日时,LLaMA的搜索热度高于DeepSeek,但自1月20日起,DeepSeek的热度迅速攀升,仅用1到2天就超过了运营两年多、月活用户近10亿的ChatGPT。再看美国各地区对DeepSeek的关注情况。加州作为美国创新高地,对DeepSeek的关注度很高,但最初超过ChatGPT的那几天,华盛顿
12、特区的搜索热度更高。美国政府官员对DeepSeek表现出紧张情绪,甚至有官员宣称要禁止DeepSeek,还有人主张限制芯片出口中国。从过去30天的整体数据来看,不仅是加州、华盛顿特区,马萨诸塞州(美国高校聚集地,如哈佛大学所在地)和纽约(华尔街所在地)等地,整个美国都在密切关注DeepSeek的发展,DeepSeek并非仅仅是墙内开花的故事。7 AIAI前线前线|特刊特刊 从另一个角度也能看出DeepSeek的影响首当其冲的是ChatGPT。从流量和搜索相关问题来看,与DeepSeek相关的问题增长了50倍,而“DeepSeek是否优于ChatGPT”的问题增长了41倍。这表明,很多美国人开始
13、质疑DeepSeek是否比ChatGPT更强大。事实上,DeepSeek确实很厉害,美国一线专家如山姆奥特曼、杨立昆等都对其赞不绝口。再看全球范围内的趋势,不仅仅是美国,亚洲、欧洲等全世界范围内都呈现出类似的趋势。DeepSeek自1月底开始热度迅速上升,目前仍高于LLaMA。这令人深思,因为Meta在LLaMA上投入了大量资金。我们称DeepSeek为AI界的“拼多多”,其成本仅为LLaMA的1/10。通过这些数据可以看出,DeepSeek早已出圈,它不仅在中国受到关注,还在全 8 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 球范围内,无论是学术圈还是大众领域,都
14、受到了广泛关注。DeepSeek vs其他大模型其他大模型 DeepSeek与其他大模型相比,到底有什么独特之处。其实,大家现在谈论的DeepSeek更多的是指R1模型,也就是在2025年1月热度超过ChatGPT的那个版本。原因很简单,R1是一个与OpenAI的o1同等级别的模型,但o1非常昂贵且没有开源,而DeepSeek R1完全开源,大家可以免费享受到与o1同等水平的智能体验。在讲R1之前,我想先提一下DeepSeek V2版本。这个版本可以说是横空出世,它在2024年发布了多篇重要论文,包括V1、V2、V3、R1以及DeepSeek MOE等。其中,V2论文提出了多头潜在注意力机制(
15、MLA),这是对传统Transformer模型中多头注意力机制的重要改进。它能够显著降低算力和显存开销。此外,V2还提出了稀疏大模型架构DeepSeek MOE,这种架构在降低成本的同时,还能保持较高的性能。9 AIAI前线前线|特刊特刊 从效果来看,DeepSeek V2在2024年5月的开放测试中,与其他大模型相比,表现非常出色。在二维坐标系中,左上角代表性能最好,而V2的性能接近甚至超过了当时的一些顶尖模型,如Mixtral 822B。这表明,DeepSeek V2不仅成本低,性能也非常强大。通过MLA机制,DeepSeek V2的KV缓存需求仅为原来的6.7%,大大降低了算力需求,同时
16、提高了吞吐量。在推理任务和不同语言任务上,V2的表现也非常接近GPT-4的早期版本。10 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 紧接着,在2024年12月发布的DeepSeek V3更是让人震惊。V3不仅在性能上有了大幅提升,还能够与千问2.5 72B、LLaMA3.1 405B等大型模型相媲美,甚至在某些方面超过了GPT-4o。V3采用了混合专家模型(MOE)架构,这种架构的最大优势在于降低了训练和推理成本。V3的模型体量为6711亿参数,但在推理时只需激活370亿参数,大大降低了成本。与V2相比,V3将专家数量提升了一倍,参数总量提升了三倍,但激活值仅增加
17、了1.5倍。相比之下,千问和LLaMA等模型采用的是稠密架构,训练成本更高。到了2025年1月,DeepSeek R1的发布更是让整个行业为之震动。R1不仅赶超了OpenAI的o1模型,还通过强化学习实现了复杂的推理能力。R1的开源,为整个行业提供了新的方向。它证明了在不依赖昂贵标注数据的情况下,也能实现与o1相当甚至更好的效果。这无疑对OpenAI构成了巨大挑战,也让整个行业看到了DeepSeek的技术实力和创新潜力。11 AIAI前线前线|特刊特刊 DeepSeek为什么突然火了?为什么突然火了?在深入了解了DeepSeek从V2到R1的演进过程和其价值之后,我们再来看看DeepSeek到
18、底有哪些技术细节值得我们学习和了解。在探讨这些技术之前,我们不得不回到一个核心问题:DeepSeek为什么会火?从理性分析来看,任何技术的火爆必有其原因。一开始,DeepSeek在圈内人中传播,大家开始讨论它有多厉害。随后,国内的总理座谈会和自媒体的分享推动了其在国内的传播,而在国外,主要是技术领域的KOL在分享。那么,DeepSeek到底有多火呢?这需要量化来看。AI产品榜一直在记录这些数据。两年前,大家都认为互联网已经进入后半场,很难再出现像抖音、微信这样的平台级产品。然而,ChatGPT的出现打破了这一认知,它以最快的速度突破了百万用户和亿级用户。而DeepSeek的表现更为惊人,它仅用
19、了18天就达到了1500万的日活用户,这是ChatGPT的13倍增速。大家想象一下,一个APP每天有1500万用户在使用,服务器出现繁忙提示也就不足为奇了。因为DeepSeek没有那么多算力支持,它几乎是免费提供服务,用户量呈指数级增长,服务器压力自然巨大。更令人震惊的是,DeepSeek仅用了7天就达到了1亿用户,而ChatGPT用了两个月。两个月是60多天,相比之下,DeepSeek的增长速度简直令人难以置信。这两个数据足以说明DeepSeek的火爆程度。ChatGPT已经让华尔街和全球技术界为之疯狂,而DeepSeek则以13倍于ChatGPT的速度增长,仅用7天就达到1亿 12 Dee
20、pSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 用户,这无疑是AI界的一大奇迹。除了用户增长速度,DeepSeek被称为AI界的“拼多多”也值得关注。这是因为DeepSeek V3的训练成本仅为LLaMA 3.1的十分之一。LLaMA 3.1有不同尺寸的模型,如8B、70B和405B。DeepSeek V3虽然有6710亿参数,但激活时只有30多亿参数,远低于LLaMA 3.1的推理成本。从训练成本来看,LLaMA 3.1需要3084万GPU小时,而DeepSeek V3只需要270万GPU小时。即使不考虑GPU的购买成本和租赁成本,仅从训练所需的GPU小时数来看,DeepS
21、eek V3的成本仅为LLaMA 3.1的十分之一。这一成本优势是无可辩驳的。尽管有些媒体质疑DeepSeek的算法,但只要仔细阅读相关论文,就会发现DeepSeek的训练成本计算方法是标准且合理的。每家公司运营成本不同,我们只能公平地比较从零到一完成训练所需的GPU小时数。因此,DeepSeek V3的低训练成本是完全合理且令人信服的。DeepSeek如何做到便宜又好用如何做到便宜又好用?DeepSeek公司在过去一年中进行了多次模型迭代,取得了显著的技术创新和突破。V1模型主要验证了LLaMA的工作,并提出了超参数的幂律关系公式。这一公式涉及学习率的衰减问题,尤其是在微调训练中,如何根据模
22、型规模和数据规模灵活调整学习率。传统的余弦衰减方法虽然被广泛采用,但存在一定的局限性,而DeepSeek在V1阶段就开始探索更适合的衰减策略。V2模型则提出了多头潜在注意力机制(MLA)和DeepSeek MoE架 13 AIAI前线前线|特刊特刊 构。V3模型在网络架构上沿用了V2的设计,并引入了无辅助损失负载均衡策略与多Token预测(MTP)。这些改进进一步提升了模型的性能和效率。而R1模型则是全球首个基于强化学习训练的大模型,它不仅追平了OpenAI的o1模型,还实现了更复杂的推理能力,成为DeepSeek技术突破的标志性成果。重重点讲讲点讲讲MoEs技术技术 我们重点探讨两个技术点:
23、一是DeepSeek的MoE架构是如何发展而来的;二是R1模型如何通过强化学习实现推理能力的突破。V2模型的两个重要技术创新是MLA和DeepSeek MoE。MLA改变了标准Transformer中的注意力机制,而MoE架构则对全连接层进行了改造。MoE技术的核心在于将模型的不同部分分配给不同的“专家”来处理,从而实现并行化和高效训练。MoE技术的发展可以追溯到1991年,当时Hinton提出了自适应局部专家混合的概念。这一概念的核心是将不同的网络能力分配给不同的专家,并通过门控网络来决定输入数据应该由哪个专家处理。2013年,Ilya等人将深度学习与MoE思想相结合,提出了深度MoE(DM
24、oE)的概念,允许在深度神经网络的不同层中应用MoE。2017年,Hinton和Jeff Dean进一步探索了大规模MoE模型的可能性,引入了稀疏性概念,14 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 使得模型能够在不增加计算量的情况下扩大规模。MoEs与与 大模型结合后的技术发展大模型结合后的技术发展 MoE技术是一种将多个专家网络组合在一起的方法,每个专家负责处理输入数据的不同部分,从而实现更高效和更灵活的模型训练。这种技术在深度学习领域已经得到了广泛的应用,尤其是在大模型中。早在2017年,Google的Hinton和Jeff Dean团队就进行了一项重要的
25、研究,探索了在LSTM网络上应用MoE技术的可能性。当时,他们构建了一个拥有1370亿参数的MoE模型,这在当时是一个巨大的突破。然而,由于Transformer架构在2017年才刚刚被提出,因此他们的研究并没有在Transformer上进行实验。但到了2020年,Google的GShard项目进一步推动了MoE技术的发展,他们开始探索如何将MoE技术与Transformer架构相结合,以实现更高效的模型训练。GShard项目的一个重要目标是解决多语言翻译问题。在没有GPT-4之前,多语言翻译是一个非常复杂的任务。假设全球有100种常用语言,要实现这些语言之间的任意翻译,就需要大量的模型。具体
26、来说,如果每种语言对都需要一个单独的模型,那么就需要9900个模型来完成100种语言之间的任意翻译。这是一个非常庞大的数字。因此,Google提出了一个大胆的想法:是否可以用一个模型来完成所有这些翻译任务?这个想法最终在 15 AIAI前线前线|特刊特刊 GShard的后续论文中得到了验证。他们发现,只要模型足够大,即使训练数据很少,模型也能够学会进行多语言翻译。这一发现为DeepSeek的发展提供了重要的启示。除了理论上的探索,GShard在工程技术方面也进行了许多有意义的实验。他们发现,MoE技术非常适合用于分布式训练。在分布式训练中,模型的不同部分可以在不同的GPU卡上进行训练,从而提高
27、训练效率。GShard提出了一种“top-two gating”的方案,即在每次训练中只与两个最相关的专家进行通信。这种方法大大降低了通信成本,提高了训练效率。这一技术后来被许多其他研究团队所采用。然而,尽管MoE技术在理论和工程上都取得了显著的进展,但在实际应用中仍然存在一些挑战。例如,如何训练大量的专家,以及如何确保这些专家之间的差异性,都是需要解决的问题。DeepSeek在这些方面进行了深入的研究,并提出了一些创新的解决方案。他们通过细粒度的专家分割和设备限制路由等技术,成功地提高了模型的性能和效率。这些技术不仅降低了通信开销,还提高了模型的训练速度和质量。16 DeepSeekDeep
28、Seek:AIAI赛道的超级引擎赛道的超级引擎 在大模型领域,MoE技术的应用已经成为了一个重要的研究方向。许多团队都在尝试将MoE技术与大模型结合,以提高模型的性能和效率。其中,Mixture AI是一个非常有名的例子,它被称为欧洲的OpenAI。然而,尽管Mixture AI成功地将MoE技术应用于大语言模型的训练中,但他们在开源方面的尝试并没有持续下去,原因可能在于他们没有像DeepSeek那样进行更多的创新。17 AIAI前线前线|特刊特刊 DeepSeek在MoE技术上的创新主要体现在两个方面。首先,他们解决了如何训练大量专家的问题。在传统的MoE模型中,专家的数量通常不会太多,因为
29、训练大量的专家是非常困难的。这就好比一个老师带8个学生和带100个学生的要求完全不同,而且要求每个学生的成绩都好,难度可想而知。更重要的是,我们希望这100个学生各不相同,各有特长,这更是难上加难。DeepSeek通过细粒度的专家分割,成功地训练了160个路由专家,这些专家各有所长,能够处理不同的任务。同时,他们还引入了两个共享专家,这些共享专家负责处理一些常识性的知识,例如理解文本的含义。其次,DeepSeek在设备限制路由和负载均衡方面进行了优化。这些技术的引入主要是为了解决通信开销的问题。在分布式训练中,模型的不同部分通常会在不同的GPU卡上进行训练,这就需要在训练过程中进行大量的通信。
30、如果通信成本过高,就会严重影响训练效率。DeepSeek通过限制每个token最多访问3台设备,并采用三级平衡损失(专家级、设备级、通信级),成功地降低了通信开销。此外,他们还在训练框架和CUDA层面上进行了优化,进一步提高了训练效率。这些创新使得DeepSeek的MoE技术在性能和效率上都取得了显著的提升。与传统的MoE模型相比,DeepSeek的模型不仅能够处理更复杂的任务,而且训练成本也大幅降低。例如,他们的V3模型在参数激活稀疏性方面表现优异,每个token仅激活21B参数,总参数为236B,训练成本较DeepSeek 67B降低了42.5%。DeepSeek R1 Game Chan
31、ger DeepSeek的R1模型被称为“游戏规则改变者”,它通过一系列创新的训练方法和成果,彻底改变了大模型的训练和应用方式。R1模型的训练过程分为三个阶段。第一阶段,R1 Zero通过强化学习训练,无需监督微调(SFT),直接在基础模型上应用大规模强化学习。第二阶段,通过冷启动数据对V3模型进行微调,增强其推理能力。第三阶段,结合规则奖励和神经奖励模型,对齐人类偏好,进一步提升模型的性能。接下来,我将详细解释这三个阶段的训练过程及其背后的原理。第第一阶段:一阶段:R1 Zero的强化学习训练的强化学习训练 R1 Zero是R1模型的基础版本,它的训练过程完全依赖于强化学习,而没有使用传统的
32、监 18 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 督微调(SFT)。这一阶段的目标是让模型具备推理能力,即能够生成中间思考过程和最终结果。R1 Zero的训练方法如下。强化学习目标强化学习目标:R1 Zero的训练目标是准确率和格式奖励。格式奖励要求模型在生成结果时,必须包含中间思考过程(think)和最终结果。这种格式化的输出方式类似于Alpha Zero,后者通过自我学习而非学习人类棋谱来提升性能。训练方法训练方法:R1 Zero使用了GRPO(Group Relative Policy Optimization)算法,这是一种简化的强化学习方法,通过投票机
33、制解决价值估计问题。GRPO在海外引起了广泛关注,因为它简化了训练成本,提高了训练效率。成果成果:R1 Zero通过强化学习自主发展出了长链思维能力。模型发现,思考过程越长,准确率越高。这一发现是R1 Zero训练过程中的一个重要突破,标志着模型能够通过自我学习提升推理能力。第第二阶段:冷启动数据与推理能力增强二阶段:冷启动数据与推理能力增强 在第一阶段的基础上,R1 Zero生成了冷启动数据(cold start data),这些数据用于进一步增强模型的推理能力。这一阶段的训练过程如下。冷启动数据冷启动数据:R1 Zero生成的冷启动数据包含了中间思考过程和最终结果,这些数据被用来对V3模型
34、进行微调。通过这种方式,V3模型获得了更强的推理能力。19 AIAI前线前线|特刊特刊 强化学习训练强化学习训练:在微调后的V3模型基础上,R1 Zero再次进行强化学习训练,但这次训练中加入了语言一致性(consistency)的要求。这一要求确保模型在生成结果时不会混用不同语言,除非是专有名词。成果成果:通过冷启动数据和语言一致性的强化学习训练,R1 Zero生成了更高质量的推理数据。这些数据不仅避免了语言混用问题,还进一步优化了模型的推理能力。第第三阶段:最终的三阶段:最终的R1模型训练模型训练 在前两个阶段的基础上,R1模型的最终训练过程如下。SFT知识数据知识数据:除了推理数据,R1
35、模型还需要一些常识知识(knowledge)。这些知识数据来自V3模型的基础版本,通过模型生成而非人工标注。强化学习与规则验证强化学习与规则验证:R1模型在训练过程中结合了强化学习和规则验证(rule-based verification),通过拒绝采样等方法进一步提升模型的性能。成果成果:最终的R1模型不仅具备强大的推理能力,还能够生成高质量的中间思考过程和最终结果。这一模型的性能在多个基准测试中得到了验证,证明了其在推理任务上的优越性。20 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 蒸蒸馏模型馏模型 除了R1模型,DeepSeek还发布了一系列蒸馏模型。这些模
36、型通过使用R1生成的推理数据进行训练,显著提升了性能。具体来说:蒸馏过程蒸馏过程:R1生成了80万条推理数据,这些数据被用来对现有的开源模型(如LLaMA和千问)进行蒸馏训练。通过这种方式,这些模型的性能得到了显著提升。成果成果:经过R1推理数据蒸馏的模型在多个任务上的表现超过了原始版本。例如,经过蒸馏的LLaMA模型在某些基准测试中接近甚至超过了闭源模型的性能。在R1模型的最终论文中,DeepSeek团队不仅展示了其原理和成果,还分享了他们在研究过程中的一些尝试和经验教训。首先,R1 Zero的训练过程验证了在无监督场景下激励复杂推理行为的可行性。R1 Zero能够在没有任何监督微调(SFT
37、)数据的情况下,通过强化学习训练出具有推理能力的模型。这一过程中,R1 Zero能够生成长达数千个tokens的思考过程,这在以往的模型中是难以想象的。关键在于冷启动数据的使用,这些数据由R1 Zero生成,并用于训练V3基础模型,使其具备推理能力。随后,V3模型通过强化学习进一步训练,生成了更符合语言一致性的R1 Zero版本。最终,这些经过强化学习训练的R1 Zero模型能够生成高质量的、21 AIAI前线前线|特刊特刊 语言一致的推理数据,这些数据与知识数据结合,用于训练最终的R1模型。整个过程不仅展示了技术的创新,也体现了DeepSeek团队在模型训练上的巧妙设计和艺术性。DeepSe
38、ek团队也经历了一些失败的尝试。例如,他们尝试使用蒙特卡洛树搜索(MCTS)结合其他模型的方法来复现OpenAI的O1模型,但最终发现这种方法并不适用。DeepSeek团队以一种友善和中立的方式指出,他们尝试了这种方法但未能成功。此外,他们还尝试使用过程奖励模型(PRM)来训练模型,这种方法由OpenAI公开,涉及使用人工标注的过程奖励数据来训练模型。然而,DeepSeek发现,直接使用这些人工标注的中间思考步骤数据进行监督微调是不可行的。原因在于,人类很难准确地写出最优的中间思考步骤,这使得基于人工标注数据的训练方法存在局限性。DeepSeek通过实验发现,模型自身生成的推理数据比人工标注的
39、数据更能有效地提升模型的推理能力。DeepSeek在开源方面的表现非常出色,从第一代V1模型开始,就一直坚持开源策略。这不仅包括大家熟悉的R1等七个模型,还有像Prover、Code-V2、VL2等众多版本和相关代码。这种开放的态度体现了DeepSeek真正致力于开源的精神。如果要论及真正的“OpenAI”,DeepSeek无疑是强有力的候选者。它毫不保留地将研究成果第一时间公开,不仅分享成功的经验,也坦诚地告知哪些路径未能走通,为其他研究者提供了宝贵的参考。DeepSeek落地应用前景与挑战落地应用前景与挑战 DeepSeek的落地场景已经非常广泛,涵盖了各个行业和领域。如果你想知道它在某个
40、特定行业或地区的应用情况,只需在搜索引擎中输入“DeepSeek落地”并加上相应的行业或地区名称,就能找到大量相关信息。目前,几乎所有行业和高校都在围绕DeepSeek展开研究和应用探索。关于当前的技术局限和挑战,我认为这是一个非常有趣的话题。最近,我听到一个很有趣的现象,今年最出圈的一句话是“服务器繁忙,请稍后再试”。这虽然是一个现象,但显然不是DeepSeek真正的技术局限和挑战。大家应该把这当作一个玩笑,不要被一些自媒体为了博取流量而传播的不实信息所误导。就DeepSeek R1模型而言,我认为它可能面临以下技术局限和挑战:22 DeepSeekDeepSeek:AIAI赛道的超级引擎赛
41、道的超级引擎 1.R1模型发布得非常快,在V3发布后仅一个月就推出了。我相信DeepSeek内部肯定在迅速推进R2或其他版本的开发。从R1的训练过程来看,它是基于R1 Zero生成的COT数据和V3基础模型生成的知识数据进行监督微调得到的。然而,在这个过程中,V3模型如何更有效地生成这些数据,以及COT数据的质量是否可以进一步提高,从而增强R1模型的通用能力,这些都是未来可以继续优化的方向。此外,R1模型的输出格式也可能需要进一步调整。2.R1模型目前主要处理中英文,但随着DeepSeek的全球化发展,它可能需要支持更多语言,如韩语、日语、德语、法语和西班牙语等。这将是R1模型未来需要进一步提
42、升的方向。3.提示词的敏感性也是一个问题。需要设计更鲁棒的提示词工程方法,使模型在不同提示词下都能稳定输出高质量结果。4.推理能力蒸馏,需要进一步探索如何将推理能力蒸馏到更小的模型中。已经有公司在尝试替代Transformer架构,因为Transformer本身存在一些局限性。5.安全性也是一个重要问题。自从DeepSeek上线以来,就有很多人提出各种敏感问题。未来,DeepSeek可以在强化学习、监督微调或其他环节中增加安全性机制,以确保模型的输出既安全又无害。未未来中美大模型竞争的一些展望来中美大模型竞争的一些展望 展望中美大模型的未来,合作与竞争的关系是一个不可忽视的议题。尽管目前竞争激
43、烈,23 AIAI前线前线|特刊特刊 但我认为合作大于竞争。全球范围内的合作趋势正在形成,例如即将在法国举行的一场大会,所有大模型科技公司的高层都将出席。法国政府也在推动一项类似美国“星际之门”的上千亿欧元投资计划,以支持AI发展,并向DeepSeek伸出橄榄枝。这表明,全球性的合作是大势所趋。技术共享,尤其是开源技术,更是推动了这种合作。当然,商业层面的竞争不可避免。陆奇老师在2月11日的演讲中提到,大模型时代已经进入下半场,即推理驱动阶段。上半场,像OpenAI的GPT那样,通过知识驱动的方式,让模型吸收大量人类历史知识,从而能够回答各种问题。然而,下半场更注重推理能力,就像人类大脑的两种
44、思考方式:一种是快速且不假思索的,另一种是需要深思熟虑的。推理驱动的模型更接近后者的思考方式,这对于复杂任务如写小说或编写复杂代码至关重要。DeepSeek R1的出现,让开源社区真正进入了推理驱动的赛道,这是非常了不起的成就。对中国来说,这是一个巨大的机会。首先,DeepSeek诞生于中国,这表明非海归博士也能取得全球领先的成果。其次,中国拥有大量年轻人才,他们将成为未来十年的中坚力量。此外,国产AI算力生态和芯片平台正在快速迭代,有望迎头赶上。还有一个重要优势是中国用户对端侧智能和便利的接受度更高,这为大模型的推广提供了便利。因此,我希望大家保持乐观,积极拥抱新技术。大模型将影响众多行业,
45、其影响力甚至可能超过互联网。最后,我想分享DeepSeek R1输出的一句话:“意识不是一个二进制的开关,而是一个连续的光谱。”这句话非常优美,它提醒我们,意识并非非黑即白的存在,而是一个连续的过程。重要的是意识能带来什么,而非单纯讨论其是否存在。这同样适用于DeepSeek,我们应关注它能为我们带来什么,以及我们能用它做什么。24 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 纯强化学习的革命:纯强化学习的革命:DeepSeekDeepSeek技术路线揭技术路线揭秘秘 本文整理自InfoQ策划的DeepSeek系列直播第二期节目DeepSeek爆火背后爆火背后Dee
46、pSeek,纯强化学习路线到底有何不同,纯强化学习路线到底有何不同。在直播中,出门问问大模型团队前工程副总李维博士聚焦推理范式的创新,分析了R1 Zero对推理模型平民化的创新贡献。他提到,DeepSeek通过开源和透明化,证明了不需要过程监督,仅通过结果控制就能训练出优秀的推理模型,这大大颠覆了传统认知以及OpenAI所暗示的需要在每一步监督推理强化学习的观点。下文为直播部分内容精选,完整直播回放下文为直播部分内容精选,完整直播回放&最新直播预约可关注“最新直播预约可关注“AI前线视频号”查看。前线视频号”查看。25 AIAI前线前线|特刊特刊 DeepSeek的最大功绩在于将这一切透明化的
47、最大功绩在于将这一切透明化 InfoQ:“:“DeepSeek坚持纯强化学习路线,但业界常说坚持纯强化学习路线,但业界常说RL(强化学习)是(强化学习)是炼丹”炼丹”他们如何让这个过程可控和“平民化”?有什么他们如何让这个过程可控和“平民化”?有什么推理范式的创新推理范式的创新?李维博士李维博士:实际上,推理模型的强化学习一直是业界的难题。大约半年前,IIya等人宣称预训练时代已经结束,这意味着单纯依靠预训练模型的规模扩展来提高性能已经难以为继。GPT5迟迟不能上线也是预训练式微的一个迹象。因此,业界开始寻找新的增长道路,推理大模型在头部团队开始暗流涌动,直到Open AI发布全球第一个推理大
48、模型O1。紧接着就是DeepSeek的R1出圈,这就是deepseek爆火的背景。从 神神秘秘、据传引发了OpenAI宫斗的Q-Star项目开始到o1大模型的推出,推理大模型被AI主流广泛公认为新的范式。这种范式的核心是开启模型的“慢思考”能力,即所谓System 2,利用强化学习提升模型在复杂任务中的智能程度。然而,这一切都是闭源的,OpenAI甚至故意制造了一些神秘感,遮掩其思维链的内容。除了少数头部玩家如Google和Anthropic在背后悄悄探索追踪外,其他团队对这一领域知之甚少。DeepSeek的最大功绩在于将这一切透明化。它的模型和详尽的技术论文全部开源,甚至最大功绩在于将这一切
49、透明化。它的模型和详尽的技术论文全部开源,甚至也不怕露怯,在系统里公开了思维链的所有内容也不怕露怯,在系统里公开了思维链的所有内容。它通过纯粹强化学习,证明了即使没有过程控制数据,仅通过结果控制也能达到头部推理大模型的水平。这就好像是捅破了一层窗户纸,让业界看到了强化学习平民化的道路。InfoQ:推理范式的创新听起来很抽象,能否举个例子?:推理范式的创新听起来很抽象,能否举个例子?李维博士李维博士:DeepSeek的R1论文非常出色,堪称大模型领域中的一篇佳作。论文分为两部分:一部分是关于一部分是关于Zero的研究的研究,这是纯粹的强化学习推理方向的成果,非常精彩;另一另一部分则是基于部分则是
50、基于Zero研究成果的实用系统研究成果的实用系统R1,这是一个真正上线的头部推理大模型。在开发R1时,需要考虑实用性,包括综合性能、安全性以及各种实用考量等,因此论文中详细介绍了四阶段训练的最佳实践(best practice),帮助其他团队理解和复制这一成果。论文最精彩的部分还是Zero的研究。Zero的研究证明了一个颠覆性的观点:与传统认知与传统认知(或(或OpenAI所暗示的需要在每一步监督推理强化学习的观点)不同,实际上并不需要过所暗示的需要在每一步监督推理强化学习的观点)不同,实际上并不需要过 26 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 程监督程监督
51、。仅通过最终结果(即“黄金标准”)作为监督信号,就能训练出推理大模型所需的“慢思考”过程。这是Zero的最大亮点,也是其名称的由来它借鉴了AlphaZero的精神。AlphaZero在人工智能历史上开创性地完全不依赖人类棋谱或经验学习,而是通过自我对弈的再生的过程数据(即:棋局状态+落子+评分的三元组步骤数据),实现了零人类监督的强化学习,并最终完全碾压了人类顶尖棋手。DeepSeek的Zero研究也是如此,它表明在推理任务中,模型可以自主生成内部的过程数据,即思维链(CoT,Chain of Thought)序列,而无需人类标注。具体来说,推理模型最初以数学和代码为对象,因为这些领域本身就存
52、在标准答案。从宏观上看,这其实是一种典型的端到端监督学习,因为输入端(数学题或代码题)和输出端(答案或代码运行结果)都是固定的、已知的。然而,从输入到输出的过程非常复杂,信息差很大,这就需要一个“思维链”作为桥梁。就像人类遇到难题时需要分解问题、逐步思考一样,模型也需要这样的过程。DeepSeek的研究发现,模型本身具有自主学习这种深度思考过程的能力,只要给予足够的时间和空间。如果没有这个空间,模型就只能直接从问题跳到答案,信息鸿沟大,随机性就强,成绩好不了。DeepSeek的解决方案是通过设计一个简单模板引导模型进行思考的解决方案是通过设计一个简单模板引导模型进行思考。具体说,就是在传统的监
53、督数据question+answer里面人为增加了一个标签think:question+think+answer,通过强化学习的方式,模型会自主填空,再生过程数据question+cot+answer,以此迭代学习,cot中就自动出现了反思、自我校正等过程。这表明,只要给予模型思考的空间,它就能自主生成思维链。非常奇妙!给模型留够充分的自主学习空间给模型留够充分的自主学习空间 InfoQ:动态推理路径听起来像:动态推理路径听起来像AI自己“画思维导图”自己“画思维导图”但如何避免它中途跑偏?比如但如何避免它中途跑偏?比如写代码时突然开始写诗?写代码时突然开始写诗?李维博士李维博士:从目前的情况
54、来看,这种可能性几乎不存在,或者概率极低,可以忽略不计。在deepseek公布他们的结果和研究细节之前,大家确实对这一点感到困惑:只靠结果监督,没有过程监督,深度思维不会乱套吗。在没有真正进行大规模强化学习实验之前,27 AIAI前线前线|特刊特刊 这确实是一个很大的疑问。就好比放风筝,你只牵着一根线,让风筝在天上自由飞翔,你会担心它会不会一头栽到地上。现在看来是过虑了。它不会走偏的原因在于,所有这些推理的强化学习,包括自主生成的推理思维链的数据,实际上都是建立在原有的头部大模型(如V3)的基础上的。这些大模型在海量数据的学习过程中,已经很好地掌握了如何把话说得顺溜。这种“顺溜”的背后是条理性
55、。虽然不能说它完全等同于逻辑性,但至少不会偏离到完全不合理的情况。就像一个人说话很顺畅,背后的思想相对来说也是有条理的。所以,模型在原有大模型的基础上生成数据,经过筛选和强化学习迭代,会越来越条理模型在原有大模型的基础上生成数据,经过筛选和强化学习迭代,会越来越条理化化。这种思考方式本身是由大模型自然生成的,再加上有选择机制在不断强化过程中让它越来越符合条理地导向正确答案。话说回来,在研究人员真正做出成果之前,大家心里还是充满了怀疑和疑问,不知道让机器模拟学习人类的高阶智能这条路是否真的能走通。如果是一个能力弱的小模型,这条路是否能走通就很难说了。但V3本身是一个很强大的基座模型,在此基础上让
56、模型自己生成思维链,虽然这些思维链并不总是很有条理,但并不影响最终结果。因为这是一个以结果为导向的强化学习过程,只要坚持用正确和错误的结果来控制强化学习过程,即使思维链中有时会出现一些偏差,但总体目标是一致的,最终还是能学到推理高难度题目的能力。再从更大的角度来看,我们发现当大模型发展到一定程度时,日常人类的数据已经基本用尽,高品质的数据也所剩无几。要进一步提升能力,就必须依靠模型自己生成数据。说到底,AI发展到现在,需要发展到现在,需要AI自己反哺自己才能进一步提升自己反哺自己才能进一步提升。在过去很长一段时间里,很多人对这一点存在疑问,担心模型自己教自己会导致退化,或者即使是一个好的模型教
57、一个差的模型,也会有天花板。但现在回过头来看,再生数再生数据的重要性越来越大据的重要性越来越大。不仅是推理模型,就连多模态大模型也是如此。以Sora为例,我们知道视频和语言之间的自然对齐数据非常少,很难找到大量对视频情节进行详细讲解的数据。为了实现视频和语言的对齐,Sora选择了再生数据的道路,用自己的模型对整个的视频训练数据集进行了非常详细的标注。再生数据助力,Sora成为了第一个爆款的视频大模型。如今,国内的视频大模型也已经迎头赶上,如快手的可灵和字节的即梦,28 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 甚至比Sora还要更强一些,这背后也离不开再生数据的作
58、用。InfoQ:另一方面,与:另一方面,与OpenAI的的o1相比,相比,DeepSeek R1还有一个显著亮点是将推理思维链还有一个显著亮点是将推理思维链应用到了语言文字的创作和风格模仿能力上,这一点可以详细介绍一下吗?应用到了语言文字的创作和风格模仿能力上,这一点可以详细介绍一下吗?李维博士李维博士:o1出来时,大家都知道它在数学和代码能力上有了显著提升,因为标准测试显示它达到了一个更高的水平。但大家没有意识到的是,这种推理能力,或者说“慢思维”能力,不仅仅在需要严格逻辑推理的领域表现出色,它在传统的语言文字创作方面同样可以大放异彩。传统上,语言文字能力一直是大模型的强项,大家都知道大模型
59、生成的语言非常流畅。到了像4o或V3,它们写文章已经很顺了,似乎提升空间不大。然而,当要求模型写一篇古典诗歌,或者模仿鲁迅的文风时,之前的模型还做不到。直到R1推出,这些问题都得到了解决。从社会效应来看,这其实是非常厉害的。老实说,真正关心数学或代码的人并不多,虽然我们知道代码是今后几年的一个大方向,自动编程能改变世界。所有IT方面的东西归根结底都是软件,数字世界是由软件构成的。如果软件能力可以从手工编写变成模型辅助,甚至模型自主编写,这将极大地提高我们的生产力。这是大家都能看到的,但对普通老百姓来说却没有那么直观,因为他们面对的更多是写文章如何出彩这类任务。当当R1的文科能力被大家发现后,不
60、仅仅是极客或者做软件应用的人看到了推理模型的好的文科能力被大家发现后,不仅仅是极客或者做软件应用的人看到了推理模型的好处,普通人也为之奔走相告处,普通人也为之奔走相告。一旦上手,任何人都可以成为诗人、文学家、哲学家,这种震撼是非常大的。在o1出来时,大家没有这种感觉,可能是因为OpenAI没有意识到,或者至少没有聚焦这一点。但DeepSeek在做代码和数学推理时,内部肯定已经意识到,这种“慢思维”在文字能力方面也可以提升一大步,尤其是在中文领域。大家都知道,中文的数据相对没有英文那么丰富,所以之前大模型写英文诗可以写得很漂亮,但写唐诗就不够好。这可能是因为中文数据要么量不够,要么品质不够,导致
61、模型学习得不够到位。我们一直觉得这是一个遗憾,模型写诗有时押韵,有时不押韵,有时多一个字,少一个字,更不用说平仄,总是有问题。DeepSeek在这方面肯定下了功夫,其数据品质一定比行业标准更高、更好。29 AIAI前线前线|特刊特刊 但大模型光有数据还不够,另一条腿是推理时间的计算量另一条腿是推理时间的计算量。在用户实际使用时,增加计算量和思考时间,我们发现模型的文字能力显著提升了层次,这给大家的震撼非常大。思维链是模型“慢思考”的一个特征。一开始,我们可能想当然地认为,逻辑思维是它的核心,思维链就是要非常严谨地符合逻辑的每个步骤,以确保在数理化和代码中表现出色。但我们根本没想到,在文学创作这
62、种领域,并不需要严谨的逻辑思维,它更多的是要有想象力,需要反复斟酌和修改。比如你要写一篇非常漂亮的文章,或者模仿一种风格,你需要考虑的方面很多,写古风诗词要考虑押韵、平仄、用词,考虑如何用古典文字表达现代概念等。为了写出一篇好文章,你需要周密地计划,这本质上是一种“planning”,而不仅仅是狭义的“reasoning”。可见,慢思维背后的真正价值在于为可见,慢思维背后的真正价值在于为最终结果做铺垫,制定计划和反复修正。最终结果做铺垫,制定计划和反复修正。无论任务是文科还是理科,只要是高难度的任务,都需要这种“planning”的时间,就像我们打草稿、反复校改一样,这些都是思维链的用武之地。
63、InfoQ:思维链机制具体是如何产生的?:思维链机制具体是如何产生的?李维博士李维博士:DeepSeek之所以能够产生复杂的思维链,背后是因为它是基于头部大模型V3训练的,而V3所涵盖的知识比我们任何个体所了解的都要广博得多得多。在这基础上,关键点是要给模型留下空间,让它有自主学习的机会。作为设计者或开发者,需要设计出这样的空间,让模型自己去填补、去学习。DeepSeek就是这样实现的。它设计了一种格式,在输入问题question和输出答案answer之间,它留下了一个“思考”的空间,用标签think来标记:question+think+answer。这个think标签就是准备要学思维链(co
64、t)的,虽然开始为空,Zero的research表明:只要留下think的标签,就给LLM自主填补cot留下了空间。此后他们“啊哈”地惊喜发现,越来越条理化的cot居然在GRPO组内选优的强化学习迭代算法的指引下,就自主学出来了。啥也不用做,模型就是自己要思考,而且能思考。LLM really wants/tends to think and think deep if given a chance.比如,它可能会在推理过程中发现自己前面的某个结论与已知事实不符,于是就会自我纠正,说:“不对,这里可能有偏差。”这种反思和自我纠正的能力,是模型在学习过程中自然形成的。可以想像研究者当时的兴奋之情
65、,简直就是上帝给他们面授了天机。不但他们 30 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 “啊哈”,我们读论文追踪他们的人也感觉开了天目,不可思议,但it just works。Zero research的美丽就是没有人工的过程数据的任何干预,完完全全的纯强化出来的奇迹。从信息论的角度来说,思维链降低了困惑度(perplexity),搭建了从难题到答案之间的桥梁,使得得出正确结论的可能性增大,从而提高了模型的智能。推推理模型已经进入“平民化”时代理模型已经进入“平民化”时代 InfoQ:如果让您给程序员推荐一个:如果让您给程序员推荐一个最值得复现的最值得复现的De
66、epSeek模块,会是哪个?比如各种模块,会是哪个?比如各种声称几十美元复制声称几十美元复制R1的的Aha moment?李维博士李维博士:如果让我推荐程序员群体最值得复现的DeepSeek模块,大概会是与Zero研究研究相关的部分相关的部分。这种复现并不是从全面能力上,而是证实了Zero研究中揭示的关键点机器确实能够自主学到反思能力或慢思维推理。这是OpenAI一直遮掩不让人知道的,也许他们早就悟出来了,但就是不公开。现在,我们看到至少有五六组不同的团队,用很少的资源就复现出了R1的这种反思能力。这不仅是一个有趣的实验,更关键的是,它标志着推理推理模型已经进入“平民化”时代模型已经进入“平民
67、化”时代。以前,大家不知道推理模型是如何工作的,只知道需要大量的过程数据,模型才能学会慢思维。这被认为是一个难以跨越的门槛,因为过程数据很难获取,而且强化学习的不稳定性高、对数据要求也高,所以很多程序员觉得这条路很难走。但现在,我们知道可以绕过这个最繁难的过程数据,通过有限的资源复现这种“Aha moment”,证明慢思维能力是可以让模型自主学出来的。基于这个前提,如果你是一个行业专家(domain expert),在自己的项目或应用领域中,你会想:是否可以用这些技术在你的领域实现大幅提升?这是完全可能的。因为即使是最强大的大模型(如V3或4o),在具体场景中如果不经过优化,也只能达到60%7
68、0%的正确率,而在real life应用场景中,经验告诉我们没有80%或85%以上的正确率,根本无法上线一个真正有价值的系统。从大模型的“开箱即用”(out-of-box)结果到真正能投入应用并产生价值,中间存在一个差距。以前,我们想到的唯一方法是收集领域数据进行微调。但现在,我们多了一条路:顺着推理模型的思路,让系统充分发挥推理阶段的慢思维能力,从而提升数据质量顺着推理模型的思路,让系统充分发挥推理阶段的慢思维能力,从而提升数据质量 31 AIAI前线前线|特刊特刊 到可接受甚至出彩的程度到可接受甚至出彩的程度。这条路似乎已经打通了。不过,我的码农朋友告诉我,他做了一个微调(SFT)与dee
69、pseek式强化学习(RL)的对比实验,发现RL的确强过SFT,但RL训练目前的计算代价还是远远大于SFT。效果好于SFT可以理解,因为SFT的数据总是非常有限的,而RL自主再生的数据成功强化的话,会远远大于SFT数据。仔细看R1的设计,它是一个实用系统,不像Zero那么纯粹。Zero是一个研究项目,旨在证明可以排除人类干预来构建推理模型。但R1是为了实际应用,所以它结合了微调和强化学习:遵循他们自己创新的SFT+RL+SFT+RL的四阶段训练的pipeline。它在第一阶段是微调,使用了2,000条左右的人类过程数据来提高效率,他们称为“冷启动”。强化学习之后,又加入了微调和最后的偏好强化学
70、习,以确保合适的数据配比和能力平衡,以及与人类偏好的对齐。这种设计是经过深思熟虑,可能经过了很多尝试和调整,最终呈现出的一个最佳实践。虽不好说R1的这种设计一定就是绝对的最佳方案,但它确实提供了一个很好的思路:现现在我们有两个工具在我们有两个工具SFT和和RL。如果能够将这两个工具很好地结合起来,互相补充,那么在实际应用场景中,我们就能构建出更好的系统。从更广泛的意义上说,DeepSeek的出现不仅是因为各种原因而短暂火爆,它更重要的作它更重要的作用是极大地加速了大模型向应用领域发展的速度用是极大地加速了大模型向应用领域发展的速度。这对整个行业来说是一个巨大的利好刺激。InfoQ:有人说大模型
71、是“暴力美学”,但:有人说大模型是“暴力美学”,但OpenAI的前首席科学家、联合创始人的前首席科学家、联合创始人IIya说预说预训练到头了,怎么讲?推理模型出现的背景就是增加了又一个暴力美学的训练到头了,怎么讲?推理模型出现的背景就是增加了又一个暴力美学的scaling law吗?吗?李维博士李维博士:这更像是技术聚焦点的转移和技术创新的范式转变。大模型涉及三大块:首首先是预训练先是预训练,这是大模型的基础能力,从海量数据中学习基本规律;其次是后训练其次是后训练,最初主要是微调,OpenAI早期也用了一些强化学习(如RLHF)来对齐人类偏好,但到了Meta时,他们甚至放弃了典型的RLHF,代
72、之以更简单的DPO,因为与很多人一样,他们玩不转。最后是推理阶段的工作最后是推理阶段的工作,即模型上线后与用户交互的阶段。32 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 这三个阶段理论上都可能找到资源投入与性能提升之间的正相关S曲线,即scaling laws的某种表现函数。在过去,预训练是最受重视的部分,大家认为只要数据量不断加大、模型规模足够大,能力就一定持续提升。LLM Scaling的底层逻辑是什么?为什么到了千亿tokens这种以前难以想象的数据规模,大模型依然显得吃不饱?为什么从千亿扩展到万亿tokens,scaling law依然有效?这个现象的关键
73、在于LLM是序列学习(编码)和序列推理(解码)的系统。序列本身是一维的,但序列中蕴含的patterns和规律性却是高维的。举个例子:即使是简单的猫追老鼠这样的序列,背后可能涉及物种关系、捕食行为、空间运动等多个维度的知识。这种多维知识表现在序列层面,就会发生天然的组合爆炸。对大数据的大胃口正是应对这种组合爆炸的有效策略。然而,人类自然产生的高质量数据是有限的。预训练已经几乎吃尽了现有的高质量自然数据。业界开始意识到数据增长的困扰,性能提升也变得困难。GPT-5难产,据传投入大量算力却收效有限,这表明预训练可能遭遇了瓶颈预训练可能遭遇了瓶颈。于是,业界开始探索另外的AI智能增长曲线。强化学习的推
74、理模型就是在这种背景下走到主流舞台的中心:应该在后训练中加入纯粹的强化学习在后训练中加入纯粹的强化学习。以前的强化学习依赖人类偏好,但这次是让模型在得出答案之前有更多思考时间,学习背后的规律。V3已经做得很好,但当时除了业界并没有在社会上引起太大轰动。直到R1出现,deepseek才真出圈了,成了春节后最受关注的大众话题,在海外也引发了热议和震惊。R1代表了一种新的范式。在R1之前,只有OpenAI出了o1这种推理模型,给人一种高不可攀的感觉,大家不知道如何跟进。然而,R1不仅复现了o1的能力,还更加透明、清晰。这种反差进一步凸显了R1作为开源大模型引领者的重要性。未未来脑洞来脑洞 InfoQ
75、:DeepSeek乍看乍看就是工程上的极致化,为什么会引起全世界的轰动?它的获客速就是工程上的极致化,为什么会引起全世界的轰动?它的获客速度(一周上亿)超过了度(一周上亿)超过了ChatGPT核爆的时候?它的历史地位到底如何?核爆的时候?它的历史地位到底如何?李维博士李维博士:从我个人的体会和感受来说,大模型的发展历程中,ChatGPT的爆火是一个标志性事件。其实我们业内人在ChatGPT出现之前就开始关注大模型了,至少从GPT-3开 33 AIAI前线前线|特刊特刊 始吧。当时GPT-3的Playground出现,我们乐在其中,就已经感觉到一场风暴要来了。但从整个社会的感知来看,真正引发全社
76、会震动的还是ChatGPT的出现,它像核爆一样震撼了我们,超出了所有人的预期。ChatGPT出来,我们就陷入了一种痴迷的状态。R1的出现,我认为是继ChatGPT之后的第二个重大震撼。当然,在ChatGPT和R1之间也出现了一些有影响力的大模型,比如4o,它也是一个了不起的里程碑。我们当时觉得ChatGPT已经很好了,3.5版本已经很出色了,但4o的出现证明了它还可以更好。我们一直在案头使用它。再后来出现了Sora,这种视频大模型也给人带来了震撼。我个人还特别喜欢一个叫Suno的音乐模型,它在音乐创作方面表现出色,让我觉得自己仿佛一夜之间就能成为音乐家,想写什么歌就写什么歌,还能配上自己的视频
77、。这些模型都给人带来了不同阶段的震撼,但都没有R1这么强烈。如果让我排序的话,我认为R1的震撼力仅次于ChatGPT,甚至超过了4o和Sora所创造的轰动效应。R1的震撼感有点类似于当年ChatGPT刚出现时的感觉,让人痴迷。ChatGPT是开天辟地的大模型,R1总体上是一个追随者,尽管它有很多创新亮点,有些方面甚至超越了之前的模型,比如在古典诗词创作和文风模仿方面。作为追随者,能在太平洋两岸乃至全球引起如此大轰动,是奇迹般的成就。从实际效果来看,R1的产品化非常成功。它在一周内就获得了上亿客户,远远打破了ChatGPT所创造的记录,提升了整个社会对AI的感知度。此外,从地缘政治对技术应用的影
78、响来看,国内很多用户一直渴望使用全世界最先进的大模型,比如GPT系列、Claude或Gemini,但常常够不着。而R1的出现,让人们不用担心国内外的限制。这些也都是促成R1快速普及的因素。InfoQ:您理想中:您理想中AI编程的终极形态是什么?是程序员对编程的终极形态是什么?是程序员对着着AI说“给我做个抖音”,它就说“给我做个抖音”,它就直接输出可部署的代码直接输出可部署的代码+运维方案吗运维方案吗 李维博士:总是有两类人李维博士:总是有两类人:怀疑派和乐观派怀疑派和乐观派。像Ilya这样的人,认为通用人工智能(AGI)已经迫在眉睫,超级智能(ASI)也在不远的未来,所以现在最大的问题是确保
79、超级智所以现在最大的问题是确保超级智能的安全性能的安全性。Anthropic的CEO预计,在未来3到5年内,大模型将实现真正的突破,不仅仅是目前让我 34 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 们震撼的表现和demos,而是真正能在生产力上对整个社会带来革命性的改变。他们所说的,归根结底就是AI能规模化平替人类的体力劳动和脑力劳动能规模化平替人类的体力劳动和脑力劳动。目前大模型虽然很热闹,但在社会生活中的实际应用还远未达到上一代移动互联网平台的水平。上一代的super apps,比如美团、滴滴、小红书、抖音等,它们改变了我们日常生后的主要方面,无论吃穿住行还是
80、通信和娱乐,它们最大程度缩短了供应商和客户之间的距离,这些价值我们每天都能感受到。而玩大模型虽然有趣,但在生活层面的实际价值还不明显,应用层面还处于爆发的前夕。值得指出的是,DeepSeek的出现降低了大模型应用门槛,为应用铺平了道路,虽然目前我们还没有进入应用真正爆发的时代。未来,当AI应用真正爆发时,会是什么时候、什么样子呢?我认为,最终目标是AI在脑力劳动和体力劳动中全面代替人类。大模型对白领阶层的冲击,迹象已经很明显,甚至连程序员群体都难幸免。体力劳动方面,具身智能发展也很快,无论是人形机器人还是机械手,都在逐步代替人类的体力劳动。当然,这也会带来副作用,比如大量工作岗位消失,社会如何
81、适应这种生产力大发展但缺乏工作岗位的状态,是另一个层面的讨论。但从AI本性和最终目标来看,AI的发展可的发展可以有两个里程碑:一是何时能替代人类以有两个里程碑:一是何时能替代人类50%的工作的工作,让社会只需要一半人工作,剩下的人通过基本收入保障(UBI)等方式维持一个体面的自由生活,在我看来这就是AGI到老的标志;二是何时能替代二是何时能替代90%的人类工作的人类工作,这可能算是所谓的超级智能(ASI)出现的时候,某种意义上的技术共产主义。35 AIAI前线前线|特刊特刊 DeepSeekDeepSeek的组织文化:创新与商业化的平的组织文化:创新与商业化的平衡衡 本文整理自InfoQ策划的
82、DeepSeek系列直播第三期节目。在直播中,极客邦科技创始人&CEO霍太稳对话了整数智能创始人&CEO、TGO鲲鹏会会员林群书,HyperspaceOS创始人&CEO杨超,以及心芯相栖联合创始人&CEO吴昊潜,深入探讨了DeepSeek爆火背后,浙大系创业者是如何理解和践行创新型组织文化的。大家认为,技术人应该充分投入到技术创新和商业化当中,他们往往更清楚技术的边界,能够更准确地判断哪些技术适合商业化以及为了实现商业化技术需要做到什么程度。比如,DeepSeek创始人梁文峰如今仍然会亲自参与代码建设,这种“创始人模式”(Founder Mode)非常值得创业公司借鉴。下文为直播部分内容精选,
83、完整直播回放下文为直播部分内容精选,完整直播回放&最新直播预约可关注“最新直播预约可关注“AI前线视频号”查看。前线视频号”查看。36 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 DeepSeek等“六小龙”出现在杭州是偶然吗?等“六小龙”出现在杭州是偶然吗?InfoQ:你所了解的:你所了解的DeepSeek组织文化长什么样?它对于组织文化长什么样?它对于DeepSeek的成功有哪些影响?的成功有哪些影响?林群书林群书:此前我们也与DeepSeek的伙伴们有过交流,可以肯定的是,他们的成功背后,组织文化起到了关键作用。比如,DeepSeek创始人梁文峰会亲自参与代码
84、建设创始人梁文峰会亲自参与代码建设,这种“创始人模式”(Founder Mode)非常值得借鉴。创始人冲在前线,亲自解决问题,了解每个岗位的需求,从而更高效地配置资源。这不仅能快速解决问题,还能为公司争取更多资源,解决其他同事难以应对的难题。此外,团队成员需要能够独当一面,完成阶段性成果的交付,这也是他们文化的重要组成部分。InfoQ:杭州“六小龙”中:杭州“六小龙”中DeepSeek、云深处科技和群核科技的创始人都毕业于浙江大、云深处科技和群核科技的创始人都毕业于浙江大学,同为浙大系创业者,可以分享一下浙大哪些文化基因对你们的影响最大?各位所在学,同为浙大系创业者,可以分享一下浙大哪些文化基
85、因对你们的影响最大?各位所在的企业有什么相似的组织文化吗?的企业有什么相似的组织文化吗?林群书林群书:浙大系创业企业的组织文化有一些共通之处,其中最显著的是“求是创新”中最显著的是“求是创新”的精神。与众多浙大创始人交流后,我们能感受到大家对“什么是重要的事情”以及“如何做对这些事情”的深刻思考。以我们公司(整数智能)为例,我们专注于做正确的事情,并将其做好。比如在智能驾驶数据标注领域,当行业还在比拼工具先进性或价格时,我们就开始思考如何从根本上改变行业。于是,我们研发了行业领先的4D标注工具,将数据处理效率提升了百倍以上。这正是我们落地组织文化的一个体现。在实践这种组织文化时,创始人需要具备
86、强大的学习能力。例如,大模型的出现带来了新的数据需求,创始人需要快速学习最新的算法技术和数据需求。像reasoning能力的推出,对数据集的构造提出了新的要求,创始人需要了解如何构建适合的多模态和代码生成数据集,以提升模型能力。这种快速学习和抓住本质的能力,是创始人在推动组织文化落地时的关键。吴昊潜吴昊潜:浙江大学的“求是创新”精神对我也影响很大。创业的动机有很多种,有些人可能是为了追求名利,或者享受创业过程中的高光时刻。但如果遵循“求是创新”的精神,我们在创业和做产品时,就会更多地思考自己是否为世界带来了真正的、客观的积更多地思考自己是否为世界带来了真正的、客观的积极影响极影响。这种动力不是
87、来自于外界的认可或赞美,而是来自于实实在在地为社会和世界 37 AIAI前线前线|特刊特刊 做出贡献。比如,我们希望让人们的生活变得更开心,哪怕在经济不景气的时候,也能通过我们的产品感受到快乐。这种追求更实在、更有意义。比如,对于心芯相栖来说,我们更倾向于专注于产品本身,关注用户的体验,而不是在意外界的评价或行业的看法。大家可以看到,DeepSeek此前也一直比较低调。我确实觉得这种风格是浙江大学文化基因对我们的影响。InfoQ:杭州和其他地区的相比,创业氛围有何不同?为什么能够培养出那么多创新创:杭州和其他地区的相比,创业氛围有何不同?为什么能够培养出那么多创新创业者?国内和海外(如硅谷)的
88、文化又有什么不同?业者?国内和海外(如硅谷)的文化又有什么不同?林群书林群书:很多人都在探讨,为什么有些地方没有像杭州那样孕育出“六小龙”。我觉得现在大家可能有点过于焦虑了,因为这些企业的诞生其实也有一定的偶然性。但从杭州的角度来看,它确实有几个做得非常出色的地方。科技行业的竞争,归根结底还是看人才密度和资金的支持科技行业的竞争,归根结底还是看人才密度和资金的支持。比如硅谷,初创企业能蓬勃发展。这主要得益于两点:一是当地强大的投融资网络,企业创始人能拿到优质的融资资源,融资条款对创始人也非常友好,这使得硅谷的创业者数量明显多于其他地方;二是硅谷的人才密度极高,开车十几分钟就能遇到各领域的顶尖人
89、物,甚至教科书上的人物。在斯坦福和硅谷,你很容易在活动中见到这些大佬,他们也很亲切,没有距离感。这两点良好的投融资环境和高人才密度对创业者来说非常重要。杭州在这方面也做得很好。浙商资本丰富,融资环境良好浙商资本丰富,融资环境良好,企业能有不少拿到资金支持的机会。此外,杭州政府出台了很多贴心的人才政策,比如小到刚来求职的年轻人可以申请七天免费住宿。这些细节让杭州在吸引人才方面很有竞争力。另外,浙大和其他高校的相比,它的休学创业政策也非常灵活浙大和其他高校的相比,它的休学创业政策也非常灵活。我是2020年开始休学创业的,和其他创始人交流时发现,他们所在的学校大多没有浙大这样灵活的政策。他们要么是读
90、完书后再创业,但这样会错过很多机会;要么是直接辍学创业,但风险很大。而浙大允许我们先休学,保留学业,随时可以回去继续读书。这种政策让我们可以全身心投入到创业中,因为即使失败了,还有机会重新回到学校。而且,我们的第一笔资金也是来自浙大。当时我们参加了全国许多创业比赛,第一年攒下的奖金就有100多万。浙大不仅提供了丰富的创业经验分享和知识库,还有许多创业成功的师兄师姐回校分享 38 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 经验。比如浙大的“求是强鹰”组织,每年都会邀请杰出浙商导师指导学生,带他们了解成熟公司的运作模式,与其他浙商交流学习。浙大的创业支持体系非常完善,
91、历届创业成功的师兄师姐也会关照后辈。我们在融资时,很容易在浙大校友圈里找到合适的资本。这些都体现了浙大在创业教育和创业支持方面的独特优势。杨超杨超:前段时间我也去了硅谷交流,感受非常震撼,主要来自几个方面。首先,硅谷与我们中国当前的经济情况形成了鲜明对比。我跟当地一位律师交流时了解到,当地有1万家初创公司拿到融资,而他服务的客户就有100家。这与我们当前中国的资本市场形成了强烈对比,那边的资金尤其充裕,尤其是在AI领域,大部分公司都能获得大量投资。我在硅谷的一位学姐在一家投资公司担任合伙人。她告诉我,如果在硅谷,一家以产品驱动的AI相关公司,只要营收超过100万美元,估值就能达到50到100倍
92、的市销率,这意味着公司估值可以达到1亿美元。所以,我觉得硅谷目前仍然是全球最适合年轻人从事AI创业的地方。创创新和商业化注定“水火不容”吗?新和商业化注定“水火不容”吗?InfoQ:接:接下来,我们来谈谈创新和商业化相关的话题,很多人认为创业、商业化和技下来,我们来谈谈创新和商业化相关的话题,很多人认为创业、商业化和技术之间是相互制约的关系,大家对这个问题怎么看?商业化是不是技术人创业的短板?术之间是相互制约的关系,大家对这个问题怎么看?商业化是不是技术人创业的短板?吴昊潜吴昊潜:我认为创新和商业化之间并不矛盾。创新本身包括产品创新、技术创新以及商业模式创新。当出现新的技术变量时,我们其实有机
93、会在商业模式上进行创新。比如,我们现在做虚拟陪伴AI产品。当大家都在做AI,尤其是长期陪伴类产品时,这就意味着存在新的商业化机会。以前常见的商业化手段是广告、电商等互联网模式,但当产品转向AI驱动的陪伴型应用时,互联网的商业模式就不再适用了。比如,虚拟陪伴产品无法简单地插入广告或电商。这时,就需要探索新的商业模式。比如,虚拟陪伴可以积累更丰富的用户数据,从而更懂用户,这种“懂你”的能力本身就具有商业价值。但如何将这种价值转化为商业收益,就需要进一步探索和设计。所以,创新能力体现在产品创新、技术创新和商业模式创新三个方面,它们并不矛盾。不过,技术人员是否具备商业能力确实是个问题。如果纯从技术背景
94、出发,可能在商业 39 AIAI前线前线|特刊特刊 理解上会存在短板。要真正理解商业,可能需要接触更多商业案例,甚至在投资机构工作过一段时间。比如,理解商业壁垒这类问题,从技术和产品角度出发可能缺乏足够的视角和能力,这些短板可以在后续通过学习和实践来弥补。林群书林群书:现在我遇到很多大区的CEO,他们本身也是技术出身。其实,做技术的人往往做技术的人往往更清楚技术的边界,能够更准确地判断哪些技术适合商业化,以及为了实现商业化,技更清楚技术的边界,能够更准确地判断哪些技术适合商业化,以及为了实现商业化,技术需要达到何种程度术需要达到何种程度。因为如果持续投入技术研究,而忽略其他方面,可能会导致投入
95、产出比并不理想。所以,技术背景的人需要把握一个合适的时间节点或投入节点,比如将第一版产品推向市场,获得正面反馈和现金流后,再将收益投入到第二期研发中。以我们自己做数据工程平台为例,在判断哪些工具或功能需要开发,以及哪些是下一阶段的核心竞争力时,技术背景会让我们更容易做出准确判断。此外,只有当我们开发出独一无二的产品时,才能避免低质量的价格竞争。因为客户只能从我们这里获得这些独特的工具,所以在价格上他们也不会过于苛求。“赛马机制”在赛马机制”在AI时代失效了吗?时代失效了吗?InfoQ:AI领域人才非常关键,领域人才非常关键,DeepSeek同样聚焦了大量顶尖人才,那么,目前大家究同样聚焦了大量
96、顶尖人才,那么,目前大家究竟需要什么样的人才,又是如何吸引和培养所需的人才的?竟需要什么样的人才,又是如何吸引和培养所需的人才的?林群书林群书:顶尖人才对技术创新至关重要。目前,既懂人工智能又懂行业属性的复合型人才稀缺。我们倾向于招聘有行业背景的人才,并通过深度培训,将其培养成兼具行业属性和人工智能技术能力的人才。创业者需要思考如何吸引和培养顶尖人才。比如,DeepSeek以AGI为目标,吸引了追求解决世界级难题的人才。我们也在内部鼓励员工参与世界级项目,这对有技术追求的人才极具吸引力。杨超杨超:我认为在AI时代最重要的品质是持续学习的精神和对学术的钻研追求。我们之前招聘过很多人,包括不少名校
97、毕业的实习生。我发现,面试中虽然可以通过做题来考察能力,但这并不能完全体现一个人的潜力。有些人在面试中表现出色,但入职后成长缓慢;而另一些人则能快速进步。那些善于自我学习、对AI充满热情的人,进步尤其快。所以,我们更倾向于招聘对AI真正感兴趣、具备钻研和学习能力的人。比如,我们曾招过一个特别喜欢数学的人,他的微信号大概是“沉醉于数学”之类的,每天都在自我提 40 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 升,进步非常快,所以很快从实习生逐渐成长为某个领域的专家。我们非常希望找到这样的人。InfoQ:过去,互联网大厂基本非常信奉“赛马机制”,因为他们拥有大量的人才冗
98、余,:过去,互联网大厂基本非常信奉“赛马机制”,因为他们拥有大量的人才冗余,可以通过“赛马机制”来筛选和激励人才。但对于创业公司来说,“赛马机制”可能并可以通过“赛马机制”来筛选和激励人才。但对于创业公司来说,“赛马机制”可能并不适用,比如,像不适用,比如,像DeepSeek这样的团队就更注重团队的协作和凝聚力。那么,站在不同这样的团队就更注重团队的协作和凝聚力。那么,站在不同的公司规模和发展阶段,管理上应该分别注重什么样的事情?的公司规模和发展阶段,管理上应该分别注重什么样的事情?杨超杨超:我认为这可能与不同公司的创始人、发展阶段和商业模式都有关系。在我看来,如果创始人本身很懂技术,且公司是
99、技术驱动的,比如像DeepSeek团队或ChatGPT早期团队,他们的成功主要依赖于硬核科技,而非单纯的产品设计,那么这种情况下就不需要“赛马机制”。因为创始人能够很好地判断哪些人才是最适合的,并围绕这些人才构建公司、团队和文化。只要方向正确,人才到位,就可以朝着明确的目标前进。对于很多商业模式来说,竞争可能并不完全依赖于硬核科技,而是更多地体现在产品创新上,比如用户更喜欢短视频向上滑还是向左滑,这种主观的用户体验很难用单一指标评判。在这种情况下,公司老板可能很难仅凭直觉判断哪个团队的想法更好,因此可能公司老板可能很难仅凭直觉判断哪个团队的想法更好,因此可能会引入“赛马机制”会引入“赛马机制”
100、。但如果老板懂技术,能够明确判断方向,那么与其分散资源,不如集中资源全力支持一个团队,这样效率会更高。吴昊潜吴昊潜:我们肯定不会采用“赛马机制”即使公司发展到很大规模也不会。我认为,只只要创始人还愿意参与业务,“赛马机制”就不是最佳选择要创始人还愿意参与业务,“赛马机制”就不是最佳选择。首先,赛马会导致公司资源分散,至少要把资源分成几份。其次,赛马团队可能缺乏足够的勇气去冒险。在我看来,其次,赛马团队可能缺乏足够的勇气去冒险。在我看来,一家公司可能只有创始人愿意承担这种风险和责任一家公司可能只有创始人愿意承担这种风险和责任。如果采用赛马机制,其他人很难有动力和勇气去承担巨大风险,去做真正有创意
101、的事情。在产品设计方面,一些细节可以通过A/B测试来优化,比如交互方式或按钮位置。但在做更重要的、根本性的产品设计或业务方向判断时,就需要依靠创始人的直觉,并通过科学方法去验证这种直觉。但谁来负责、谁来组织?我认为这肯定要由创始人来主导,否则其他人既没有足够的动力,也没有相应的责任和能力范围去推动这件事。我很难想象一个创始人什么都不做。在我的理解中,一家正常的创业公司就应该由创始 41 AIAI前线前线|特刊特刊 人亲自把握方向,甚至参与其中。除非他把自己当作老板,而不是创始人,仅仅提供资源,让其他人去做决策和执行。但如果他真的把公司当作一家创业公司,想做一件伟大且创新的事情,那就不可能采用那
102、种模式,而是要亲自参与和引领方向。如如何在何在AI时代不被淘汰?时代不被淘汰?InfoQ:对于普通人来说,如何快速适应人工智能时代?:对于普通人来说,如何快速适应人工智能时代?杨超杨超:对于普通人来说,最简单的方法就是先从使用最简单的方法就是先从使用DeepSeek这类工具开始这类工具开始。因为在使用过程中,你会自然地发现它能为你带来许多以前难以想象的便利。比如,我经常用它来写文章,这只是一个很简单的应用。更重要的是,我还会用它辅助思考问题我可以把一个问题抛给它,现在的Deepseek、ChatGPT等工具已经具备了相当高的智能,有点像我的朋友或助手。它可以和我对话,帮助我进行头脑风暴,这也是
103、一个很好的方式。当然,市面上还有很多其他工具,比如帮你做PPT、处理各种事务的工具。如果你使用的AI工具比同龄人、竞争对手或职位上其他人更多,那么你就已经在被AI赋能了。你可以被视为一个“升级版”的自己。这会让你的工作效率大幅提升,并且在这个持续进步的过程中,你还会学到新的技能。就像运动一样,如果你经常打球,你的技术自然会变好。同样,如果你多使用这些工具,就会形成一种条件反射,让你在未来的生活、学习和工作中,更自然地考虑用这种方式来提高效率、提升生活质量,同时节省时间,把更多精力投入到更有意义的事情上。InfoQ:有人说,打败你的不是:有人说,打败你的不是AI,而是那些善,而是那些善于使用于使
104、用AI的同事。如果你还在犹豫,你的的同事。如果你还在犹豫,你的同事可能已经借助同事可能已经借助AI超越了你。那你们在日常工作中用到了哪些与超越了你。那你们在日常工作中用到了哪些与AI相关的工具?有没相关的工具?有没有什么使用小技巧可以跟大家分享?有什么使用小技巧可以跟大家分享?吴昊潜吴昊潜:我的工作状态可以从几个方面反映出来。首先,在编程时我会用到在编程时我会用到AI工具工具。比如我会先将需求告诉ChatGPT,它会帮我搭建一个框架。而在实际编码时,我会使用cursor,因为它是一个交互性更好的AI代码编辑器。我们公司会给所有员工开通cursor账号,大家都用它来写代码。42 DeepSeek
105、DeepSeek:AIAI赛道的超级引擎赛道的超级引擎 其次,在产品设计阶段,我也会让ChatGPT参与进来。有时候我们在思考问题时比较粗略,需要具体的案例和细节,这时我会让ChatGPT帮忙完善这些内容,甚至在搭建AI工作流的Prompt时,也会用另一个模型来协助我。另外,在公司战略思考时,一个人的效率可能较低,我会通过对话式的方式借助AI工具来帮助自己梳理思路。现在,Deepseek用得会更多一些。林群书林群书:我们最近在拓展营销方面的工作,拓展营销方面的工作,SEO优化时需要大量行业内干货和博客内容优化时需要大量行业内干货和博客内容。以前这些内容都靠人工撰写,速度较慢,而且遇到不熟悉的领
106、域还得自己去研究。现在有了DeepSeek这样的大模型,内容不仅写得快,而且更有深度,有时甚至比我们自己研究半天写出来的效果更好。所以现在我们在做SEO优化博客文章时,基本都会直接借助大模型的能力,这是我们目前用得比较多的场景。另外,在编程方面,大模型也帮助我们节省了不少时间。为了让大家更好地利用AI提升效率,我们在团队内部搭建了一个方便使用的环境,让大家都能直接使用这些AI能力。后来我们发现,不同部门可能需要不同的最佳实践方法,所以我们开始组织分享会。每个部门会派一个人分享他们在岗位上如何利用大模型提升工作产出或成果。通过这样的分享,大家能自然而然地找到适合自己部门的最佳实践方法。InfoQ
107、:对于广大技术从业者,在:对于广大技术从业者,在AI时代又如何保持较高的竞争力?时代又如何保持较高的竞争力?吴昊潜吴昊潜:我认为在公司内卷中获胜的根本性策略是离开内卷环境,去创业公司。我建议大家多使用一些AI工具。AI工具确实能大幅提升生产力。过去大家可能还在做AI基础设施的铺垫,但今年已经有很多非常好用的AI工具,比如用于编程和多模态视觉图像生成的工具。举个例子,我们现在在游戏开发中,很多视觉美术设计和生图都是通过AI生成的,我鼓励大家广泛使用这些工具。林群书林群书:我很认同昊潜刚才的观点,加入加入AI创业公司是最好的选择创业公司是最好的选择。因为在这样的环境中,你置身于一个复杂多变的场景,
108、每天都要面对各种不同的挑战。这种环境会促使你主动去挑选最适合的AI工具,并将其与自己的工作流程相结合,想尽办法利用AI的能力提升工作效率。只有在不断的实践中,通过挑选和熟悉各种AI工具,将它们融入到你的 43 AIAI前线前线|特刊特刊 工作工具箱中,你的竞争力才会在日常积累中自然提升。杨超杨超:上次我去拜访DeepSeek团队时,他们告诉我,梁文峰现在还亲自写代码。我听了之后很受触动,他们的公司已经做得这么大了,创始人依然亲自写代码。这让我有点汗颜,我觉得我们这些技术从业者也应该多写代码,而且要聪明地写代码技术从业者也应该多写代码,而且要聪明地写代码。现在有很多好用的代码工具,都可以尝试。比
109、如我这次去硅谷,用了一个初创公司的代码辅助工具,过年期间我用它写了几天代码,感觉非常爽。它不仅能读取一页代码帮你优化,还能读取整个项目,优化效率大幅提升。以前写代码很痛苦,现在却变成了一种享受。我觉得大家还是要多写代码,多学习新知识。比如可以多看看极客时间上这些优质的学习材料,不断进步。44 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 AIAI开源新趋势:开源新趋势:DeepSeekDeepSeek的决策与影响的决策与影响 作者:王闻宇 此前,Meta首席人工智能科学家杨立昆(Yann LeCun)表示,DeepSeek的成功带来的最大启示是保持AI模型开源的重要性
110、,这样每个人都能从中受益。他表示,这并不是中国的人工智能“超越美国”,而是“开源模型战胜了专有模型”。那么,事实确实如此吗?本文整理自InfoQ策划的DeepSeek系列直播第四期节目。在直播中,极客邦科技创始人&CEO霍太稳对话PPIO派欧云联合创始人&CTO、TGO鲲鹏会学员王闻宇,深入探讨了DeepSeek爆火背后,开源策略对AI企业商业模式的影响,以及开源与闭源路线带来的思考。在王闻宇看来,除了在模型训练算法和工程层面的突破外,DeepSeek在AI基础设施方面的重要创新,使得许多AI基础设施公司能够探索降低成本和提升性能的方法。而推 45 AIAI前线前线|特刊特刊 理成本的降低将使
111、得AI大规模应用的门槛变低。当AI推理成本实现十倍、百倍甚至千倍的降低时,AI应用将迎来爆发式增长。下文为直播部分内容精选,完整直播回放下文为直播部分内容精选,完整直播回放&最新直播预约可关注“最新直播预约可关注“AI前线视频号”查看。前线视频号”查看。以下为王闻宇的分享实录部分(经编辑):以下为王闻宇的分享实录部分(经编辑):我们先来回顾一下DeepSeek爆火的原因。在过去两个月,DeepSeek发布了V3和R1两个模型。V3模型对标了OpenAI最强的多模态模型4o,而R1则对标了OpenAI的深度思考模型o1。DeepSeek的这两个模型不仅在性能上与OpenAI相媲美,甚至在某些场景
112、下表现更优,比如在经典问题“3.11和3.9哪个更大”上,DeepSeek能答对,而OpenAI的模型却会答错。总结DeepSeek成功的原因,主要有三点:1.DeepSeek的模型在评测数据集上的表现非常出色,V3和R1的评分都超过了OpenAI的对应模型。这证明了其技术实力与OpenAI相当。2.DeepSeek的成本极低。从训练角度看,其论文显示总训练成本约为500万美元,相当于Meta一位高管的年薪。相比之下,OpenAI的模型成本要高得多。在推理成本上,DeepSeek的R1模型仅为OpenAI的1/30,V3模型为4o的1/10。即使OpenAI在DeepSeek发布后紧急推出了O
113、3 mini模型,但成本依然高于DeepSeek。3.最后,DeepSeek的开源策略是其备受关注的真正原因。它不仅对标了OpenAI的王牌模型,还通过开源“解密”了OpenAI的核心技术。DeepSeek在开源中展现了诸多创新,例如混合质量模型Moe、多头潜在注意力机制MLA,以及强化学习中的GRPO算法,这些都优于OpenAI所使用的PPO算法。此外,DeepSeek还开发了MTP多token预测机制,进一步优化了性能。这些技术不仅揭示了OpenAI的技术思路,还在此基础上进行了核心优化。我认为,DeepSeek成功的最大原因并非单纯的效果媲美OpenAI或成本更低,而是它通过开源将这些技
114、术公之于众。如果DeepSeek没有开源,它可能不会引起全球如此广泛的关注。开源不仅让技术更加透明,还推动了整个行业的技术进步。46 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 开开源与闭源的思考源与闭源的思考 有些公司专注于开源,而有些公司则选择闭源。在我看来,大语言模型的开源与传统开源项目有很大不同。传统开源本质上是一种工程师之间的协作方式,但大语言模型的开源则不然。首先,大语言模型开源的核心是模型权重。其次,开源内容还包括技术论文、训练细节以及部分工程代码,这些可以让开发者复现模型。在模型开发过程中,大语言模型往往由单一公司主导,不存在协作机制。只有在开源后,
115、社区才会参与推理、再训练和微调(fine-tuning)。因此,大语言模型的开源性质与传统开源存在显著差异,这种差异也决定了它们的发展方向。从2023年LLaMA发布开始,开源模型一直在追赶闭源模型。随着时间推移,开源模型的表现逐渐逼近闭源模型。截至2024年7月,开源模型的表现已经与闭源模型非常接近,差距正在缩小,未来这种差距会更小。47 AIAI前线前线|特刊特刊 DeepSeek的出现让其它巨头陷入焦虑。OpenAI紧急发布了O3 mini,并公布了GPT 4.5和GPT 5的路线图,承诺在2025年发布GPT 5。Meta也从犹豫是否开源LLaMA 4转变为确定在2025年上半年开源,
116、并成立了四个“作战工作室”,专门应对中国模型的挑战。百度也宣布下一代模型将开源。2月18日,埃隆马斯克将发布Grok 3。如今,各大公司都在加速发展,意识到开源带来的竞争压力。开开源带来的价值源带来的价值 开源对于整个社会和开发者来说,带来了诸多好处:第一,开源能够快速降低推理成本第一,开源能够快速降低推理成本。一旦模型向社会开放,众多公司就会参与研究如何部署和优化,从而降低人工成本、提升模型性能,进而迅速拉低处理成本。第二,开源赋予了开发者更大的灵活性第二,开源赋予了开发者更大的灵活性。开发者可以选择在公有云、专有服务器或内网环境中部署模型,不用担心性能限制或数据安全问题,能够更加放心地使用
117、。第三,开源还具备很强的可玩性第三,开源还具备很强的可玩性。开发者可以使用自己的特色数据进行微调(fine-tuning)或再训练,从而创建出个性化的模型。第四,社区的贡献也不容忽视第四,社区的贡献也不容忽视。开源项目发布后,会迅速吸引大量开发者参与,他们利 48 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 用各种数据集进行微调或模型蒸馏(distillation),创造出适用于不同场景的模型供他人选择。开源的最大价值在于,它将原本只有头部企业(如OpenAI)才能参与的技术平民化,让更多人能够参与到其中。开源大模型推动了技术平权。随着更多人参与、更多需求被满足以及
118、不断的迭代优化,开源项目逐渐形成了一个正向循环,其影响力也越来越大。开源项目的核心优势不在于技术壁垒,而在于生态的开放性和包容性。这种开放性吸引了大量参与者,构建了强大的生态壁垒。因此,我预测在2025年,会有更多更好的开源模型出现。开源项目的成功依赖于其开放性和生态建设,最终能够胜出的开源大模型一定是极度开最终能够胜出的开源大模型一定是极度开放和包容的,并且能够构建起强大的生态壁垒放和包容的,并且能够构建起强大的生态壁垒。最终,开源大模型可能只会剩下少数几个,甚至只有1-2个,就像服务器操作系统的Linux、移动操作系统的Android一样,因为生态的壁垒,不可能容纳很多家。对对AI Inf
119、ra的影响的影响 DeepSeek的爆火对AI基础设施(AI Infra)的影响非常显著。在1月17日,英伟达的股价出现了单日17%的最大跌幅。当时有消息显示,从DeepSeek公开的资料看、训练所用显卡数量极少,成本也极低。这使得投资者意识到,原来训练大模型并不需要堆积大量的显卡,这一认知瞬间改变了市场对英伟达未来预期的判断。49 AIAI前线前线|特刊特刊 除了在模型训练算法和工程层面的突破外,DeepSeek在AI基础设施方面也有重要创新。例如,DeepSeek在某些算子中直接用PTX(Parallel Thread Execution,可以简单理解为GPU的汇编语言)进行编程来提高性能
120、。之前网上有文章称DeepSeek绕开了CUDA,其实这种说法并不准确,因为PTX也是Cuda生态的一部份。这充分说明了DeepSeek把性能做到了极致。此外,DeepSeek在训练过程中大量使用了FP8精度浮点数,这大大加快了训练速度,减少了GPU数量的需求。这种高效的训练方式为AI基础设施领域带来了新的思路。50 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 开源模型的出现,使得许多AI基础设施公司能够探索降低成本和提升性能的方法。比如我们公司,PPIO派欧云,就可以通过研究开源的模型权重,代码,论文,可以尝试各种推理优化方案,做各种各样的优化实验,最终几乎都能找
121、到无损且效果良好的解决方案。但如果是闭源项目,就只有模型公司自己来优化性能。这种模式下,不同公司会根据自身需求选择不同的部署方案:有些追求高性能,用贵的卡,跑较少的Batch Size,价格可能较高;反之,有些则追求低成本,用廉价的卡,跑较高的Batch Size,性能相对较低。这种多样化的选择为开发者提供了灵活性,也促使各公司相互竞争,进一步降低推理成本。相比之下,闭源公司在这方面可能缺乏动力,这也是开源生态带来的优势之一。以我们PPIO派欧云公司为例,我们上线了DeepSeek满血版的API,采用全参数,未进行INT8量化,以确保性能无损。此外,我们还推出了专属的DeepSeek容器服务,
122、用户只需一键操作,即可快速启动GPU,并部署专属模式,给出专属于开发者的API接口。另外对于普通用户,低代码开发者,我们已经接入了多个应用(如Dify,FastGPT,Chatbox,Cher-ryStudio等),用户可以在设置模型参数时选择PPIO派欧云的API服务。近期,我们还推出了邀请码活动,新用户将获得5000万token(用我的邀请码MWMLW8),5000w的token足够开发者能享受我们的API服务较长时间了。应应用和新趋势用和新趋势 最近,DeepSeek的应用趋势正在发生变化。微信正在内灰度测试接入DeepSeek,百度地图也上线了基于地理位置的深度思考搜索。这些应用主动接
123、入DeepSeek的背后,核心原因之一在于其推理成本的大幅下降。51 AIAI前线前线|特刊特刊 我之前提过AI推理第一性原理:AI单位需求的推理成本,当实现了10倍/100倍/1000倍优化后,带来AI推理应用的爆发。推理成本的降低必然解锁更多AI应用个场景,而无需担心成本问题。从经济学角度看,永恒的规律,“Affordability is all you need”(便宜就是你所要的),就像移动互联网时代,大部分APP都是免费的,这吸引了大量用户,而开发这些App的企业则通过广告模式盈利。随着AI推理成本的下降,未来会有更多AI应用采用免费模式,而非订阅模式。这种模式将因为用户的大规模看广
124、告的方来,获得收入来实现盈利,这才是互联网应有的形态。我认为,免费的免费的AI时代即将到来时代即将到来。随着用户数量的激增和应用场景的不断拓展,推理的用量将很快超过训练。据TIRISARearch预测,到2026或2027年,推理市场的规模可能会达到训练市场的20倍。开源技术的结合和私有部署的普及,将为应用市场带来巨大的进步。总总结结 总而言之,回顾一下我的所有观点:DeepSeek的成功源于效果、成本和开源三者的结合。52 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 开源与闭源之间的差距正在缩小,未来可能会进一步减小。开源不仅加速了AI基础设施技术的发展,还推动了
125、性能提升和成本降低。当推理成本降至足够低时,AI应用将进入免费时代。推理算力的用量也将远超训练算力的开销。以下为对话实录部分(经编辑):以下为对话实录部分(经编辑):InfoQ:当前主流开源模型的推理性能表现如何,尤其是在延迟、吞吐量和准确性这些:当前主流开源模型的推理性能表现如何,尤其是在延迟、吞吐量和准确性这些关键指标上,与闭源模型相比,差异是否显著?关键指标上,与闭源模型相比,差异是否显著?王闻宇王闻宇:模型性能的差异并不完全取决于开源或闭源,而更多决定于,选择的GPU,并发参数,还有推理优化技术所共同决定。这里说得并发参数,例如Batch Size。在部署推理的时候,往往需要在Batc
126、h Size和性能指标(延迟,吞掉)之间寻找平衡。如果Batch Size过高,总Token数吐得更多,Token单价便宜,但是单用户体验会变差,推理速度也会变慢。相反,如果Batch Size过高,虽然用户体验会更好,但总Token数吐得慢,导致Token单价上升。闭源模型也存在类似平衡问题,所以这点不是决定开源和闭源的区别。这里,真正的区别在于,部署方式和推理优化技术的方案选择上,首先,推理优化技术首先,推理优化技术对模型性能的影响非常关键对模型性能的影响非常关键,特别是开源模型,任何人都可以去研究,无论是之前LLaMa还是最近DeepSeek,如果未经优化,性能都不会达到最优。通过采用无
127、损优化技术、PD分离、投机采样、并行方案如EP,DP,PP管道并行等方法,模型性能可以大幅提升,甚至有10倍的优化空间。以DeepSeek为例,其性能优化的关键在于几个技术点:首先是其性能优化的关键在于几个技术点:首先是PD分离分离,具体来说,如果不做PD分离,模型的Profile阶段和Decode阶段耗时不是一样的,大量的Profile操作完成后,需要排队等待Decode,从而导致推理效率低下。根据官方的建议,这种情况下Profile和Decode的配置在H800下建议在1:10。换句话说,如果使用一张GPU卡进行Profile,那么搭配10张GPU来进行Decode,是比较推荐。这是H80
128、0下的建议,如果GPU不是H800,53 AIAI前线前线|特刊特刊 我们时间下来不是1:10是最好的。其次,其次,DeepSeek采用了采用了MLA(Multi-head Latent Atten-tion)技术,)技术,MTP(Multi-token Prediction)机制也是性能提升的关键)机制也是性能提升的关键。如果这些优化措施不到位,模型的吞吐量和性能都会受到严重影响。因此,模型的最终性能取决于优化的基础和方法。还有做好DP(Data Parallelism,数据并行),EP(Expert Parallelism,专家并行),PP(Pipeline Parallelism,流水线
129、并行)等并行方案,也有不小的提升。对于闭源模型,优化可能仅限于模型公司内部,但对于开源模型,全球的开发者都可以参与优化,探索优化方案,降低成本从而降低Token价格,推动整个行业的发展。InfoQ:在硬件(如:在硬件(如GPU)以及软件推理框架和编译器等层面,究竟有哪些因素限制了开)以及软件推理框架和编译器等层面,究竟有哪些因素限制了开源模型的推理效率?同时,如何解决模型规模与推理资源之间的矛盾?源模型的推理效率?同时,如何解决模型规模与推理资源之间的矛盾?王闻宇王闻宇:从硬件角度看,要分GPU和TPU来看,另外编译器和硬件是紧密关联。以DeepSeek为例,现在要部署满血版DeepSeek模
130、型,拥有671亿参数。如果使用单台H100的8卡配置,或者单台H20的8卡配置,在不做任何有损优化(比如压缩或量化)的情况下,单台机器是无法运行的,需要两台机器并联才能满足需求。这是因为模型参数量巨大,单台机器的内存和计算速度不足以支撑其运行。但如果使用H200或MI300,一台8卡机器就可以运行。因此,制约模型运行的并非开源与否,而是模型参数量和优化技术。如果在不损失精度的前提下保留参数量,并为上下文和缓存留出空间,那么确实需要更强的算力来支持。但是部份场景更适合于选择专用硬件,比如TPU,其设计原理与GPU有所不同。例如,Groq使用了大量的SRAM(高速缓存存储器)替代HBM(高带宽、堆
131、叠式存储器),这使得其成本大幅上升,但吞吐速度也显著提高。这种硬件适合对成本不敏感、但对性能要求极高的场景,更适合选择Groq这类TPU。然而,专用硬件的最大问题是随着模型的快速迭代(AI领域变化迅速,模型架构不断更新),硬件的固化设计可能无法适应新的模型架构,比如将来如果Transformer算法有大的迭代的时候,可能就不能适应了。我认为,未来对于通用场景,未来对于通用场景,GPU仍将是主流选择,因为其灵活性和通用性能够适应快仍将是主流选择,因为其灵活性和通用性能够适应快速变化的模型需求。而对于一些特定的、垂直需求的场景,专用速变化的模型需求。而对于一些特定的、垂直需求的场景,专用硬件如硬件
132、如NPU/TPU会逐渐会逐渐占据一定市场份额占据一定市场份额。54 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 InfoQ:我们之前也讨论过硬件和软件方面的限制,这些因素影响了开源模型推理的效:我们之前也讨论过硬件和软件方面的限制,这些因素影响了开源模型推理的效率。你在率。你在Infra领域积累了很多经验,能否为我们介绍一下目前比较成熟的一些成本优化领域积累了很多经验,能否为我们介绍一下目前比较成熟的一些成本优化技术?技术?王闻宇王闻宇:当前以GPU为主的硬件主要有三个瓶颈,分别是算力、显存带宽、显存容量,通过三类技术进行解决。无损加速技术无损加速技术 这一类技术致
133、力于通过优化计算过程,减少不必要的计算和I/O,提升算力利用率。一个典型的技术是FlashAttention,它通过对Q/K/V(查询、键、值)的切块和数学优化,将原本需要三次循环的矩阵计算压缩为一次循环,从而有效提高计算和访存效率。同时,FlashAttention还通过算子融合技术,将旋转位置编码、MASK等计算逻辑融合到单个ker-nel中,进一步减少了不必要的GPU访存,优化了计算性能。除FlashAttention外,PageAttention、Chunked Prefill在保证不影响模型精度前提下,提升了推理性能。有损加速技术有损加速技术 这一类技术通常会牺牲一定的精度来换取性能
134、提升,包括量化、稀疏化、KV Cache压缩等技术。对于大模型推理中的Decode阶段,显存带宽成为瓶颈所在,主要表现在GPU的全局内存和共享内存的数据交换过程中。此时,量化 和KV压缩这样的技术可以显著减轻I/O压力。例如,常见的KV Cache通常采用BF16格式存储,每个数据占用16个二进制位。如果将其压缩为FP8格式,每个数据仅占8个二进制位,这不仅能减少Decode阶段的GPU I/O开销,还能减少GPU内存占用,提高处理并行度,进一步提升推理性能。系统架构优化系统架构优化 系统层面的架构优化,通过合理调度、缓存和并行计算等技术,减少无效开销,提升硬件资源利用效率。常见的架构优化技术
135、包括PD分离、投机采样、Constrained Decoding和Prefix Cache等。推理过程大致可分为Prefill和Decode两个阶段,其中Prefill阶段瓶颈是计算,Decode阶段瓶颈是显存访问。实际硬件中,很难同时解决这这两个瓶颈问题,因此对应的优化技术应运而生。PD分离是将Prefill和Decode分离到不同的机器上,通过分布式处理技术实现算力利用率最大化。同时,投机采样通过使用草稿模型提高Decode并行 55 AIAI前线前线|特刊特刊 度,有效减轻I/O访存压力。Constrained Decoding和Prefix Cache等技术则能减少重复计算,降低无效t
136、oken的计算量。此外,引擎中的队列调度、优先级策略和网络传输优化等技术,也能在不同程度上提升推理性能。这些优化技术在学术界和工业界都得到了广泛应用,不断有新的研究成果出现。LLM推理的降本空间很大,即使模型和硬件不变,通过优化也能显著降低成本。这也是Infra公司的核心价值所在。InfoQ:有一位直播观众提出了一个很有趣的问题,他想知道:有一位直播观众提出了一个很有趣的问题,他想知道DeepSeek的的API后面会不会后面会不会涨价。涨价。王闻宇王闻宇:最近确实有消息称DeepSeek的API价格上涨了3倍,但这并非单纯的涨价行为。DeepSeek在上线初期就明确发布了价格策略,并且在2月8
137、日调整了价格。DeepSeek团队早在发布第一天就表示,为了推广服务,初期会以V2的价格进行促销,而2月8日之后将恢复原价。因此,这次的价格调整是基于既定的价格策略,并非突发的涨价。DeepSeek背后拥有强大的技术团队,他们在量化交易领域有着丰富的经验,尤其在毫秒级延迟优化方面非常擅长。其团队对硬件优化非常有心得,利用PTX和CUDA深度优化提升性能。因此,DeepSeek的价格调整是基于成本核算和市场策略的综合考虑。此外,DeepSeek采用NSA(Native Sparse Attention)技术)技术,这一技术通过稀疏注意力算法将64k长文本的推理速度提升了11.6倍倍。这一成果表明
138、,通过模型结构的优化,DeepSeek可以显著降低推理成本。相比传统的Softmax Attention技术,Sparse Attention、Linear Attention和Tensor Product Attention等技术在推理时的计算成本优势非常明显。此外,DeepSeek的开源特性开源特性也使得其他公司和开发者可以根据需求探索不同的算法来进一步降低成本。虽然DeepSeek的官方价格可能会让部分用户感到压力,但随着技术的不断进步和新型算力解决方案的出现(例如B100等新芯片的发布),推理成本有望进一步降低。因此,未来DeepSeek的价格不仅不太可能上涨,反而可能会随着技术的发展
139、和市场竞争的加剧逐渐降低。56 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 InfoQ:PPIO的的DeepSeek大模型在第三方评测中的准确率排名第一,你们是怎么做到的?大模型在第三方评测中的准确率排名第一,你们是怎么做到的?王闻宇王闻宇:这个评测是由一个比较著名的独立第三方评测机构SuperClue进行的。他们在评测准入页面上提到,评测是基于其内部封闭的数据集进行的。网上有些资料暗示他们可能拥有很多数据,但这些数据集并未公开,因此我们也不清楚具体内容。评测过程是让模型回答问题,然后判断答案是否正确。我们之所以能在评测中排名第一,我认为主要有两个原因。首先,我们的
140、模型是真正的“满血版”,保留了所有参数,没有进行INT8/INT4量化,而是以原始的FP8精度运行推理。FP8提供了更大的动态范围,相比INT8和INT4,它能够更好地保留原始数值信息,从而避免了由于量化带来的精度损失。从行业情况来看,很多公司使用了INT8等低精度量化,因为国产GPU在硬件层面不支持FP8,这可能是其他公司在评测中表现稍逊一筹的原因。其次,我们的模型上线流程非常严格,公司在出海时已经做了大量模型托管服务,所以有一套严格的商业流程。在上线每个模型之前,我们会使用多种数据集进行评测,包括公司内部的专有数据集以及公开数据集(如GSM8K)。此外,我们还会进行人工评估以确保模型的性能
141、和质量。我们会确保评测结果与官方数据或第三方数据相近,才会正式上线模型。我们对模型的严格要求和无损处理,让我们在SuperCLUE数据集上的表现非常出色。InfoQ:你觉得你觉得DeepSeek这一波是不是代表了这一波是不是代表了AIGC应用和普及的一个拐点?应用和普及的一个拐点?王闻宇王闻宇:在中国,DeepSeek的出现确实是一个重要的拐点。从市场推广角度看,除了DeepSeek之外,许多公司并没有真正将核心能力开源,而是通过开源小型项目模型来吸引关注和客户,随后再推广其闭源的大型模型。这种策略更多是将开源作为一种市场推广手段,而非真正开放核心技术。而DeepSeek则是唯一一家真正将最核
142、心能力开源的公司,尤其是其V3版本,不仅开源,还达到了与OpenAI媲美的效果。对于国内市场而言,DeepSeek的开源还解决了数据管控的问题。由于国内对内容管控的要求较高,许多国际开源模型(如LLaMA等)的数据结果不可控,容易被下架。57 AIAI前线前线|特刊特刊 DeepSeek的开源使得国内企业无需翻墙,极大地降低了使用门槛。此外,DeepSeek的成本远低于OpenAI,这使得更多的企业能够负担得起,从而推动了AIGC应用的普及。从资本角度看,DeepSeek的成功也改变了全球对中国AI技术的信心。此前,全球资本对中国AI持悲观态度,认为中国只能追赶OpenAI等国际巨头。然而,D
143、eepSeek的出现证明了中国公司能够开发出具有国际竞争力的AI模型,这不仅提升了中国AI技术的全球地位,也吸引了更多海外资本的关注。这种信心的提升也反映在股市上,特别是港股市场的整体上涨,部分原因可以归结于DeepSeek带来的积极影响。海外投资者,尤其是中东、新加坡和欧洲的资本,开始对中国AI技术表现出更大的兴趣,这为国内创业者提供了更多的资金支持。此外,我认为DeepSeek的出现不仅推动了技术的普及,还可能开启了新的一波ToC创业窗口。就像当年移动互联网时代一样。我最近刚从美国湾区回来,感觉那边的ToC创业窗口已经开启,我相信中国这边很快也会打开。因此,DeepSeek的出现可能会引领
144、我们的出现可能会引领我们进入一个新的创业者黄金时代进入一个新的创业者黄金时代,这不仅对开发者来说是一个利好消息,也对整个行业的发展具有深远意义。58 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 AIAI时代的百万年薪:时代的百万年薪:DeepSeekDeepSeek与全球人才与全球人才争夺战争夺战 作者:柴云鹏 近期,一则有关DeepSeek百万年薪招聘人才的消息引发了热议。据消息,DeepSeek开出最高98万元年薪招聘UI设计师。网友们进一步挖掘之后发现,这家公司正在以极具竞争力的薪资招聘各种工程师,即便是非算法岗,也提供令人瞩目的待遇,最高月薪9万(合年薪12
145、6万)。特别是核心系统研发工程师,甚至包括了“校招应届生”这一范畴。百万年薪招揽人才的故事是否还会在AI时代继续上演?什么样的人才才有可能吃上这波红利?本文整理自InfoQ策划的DeepSeek系列直播第五期节目。在直播中,极客邦科技创始人&CEO霍太稳对话中国人民大学信息学院院长、计算机系教授柴云鹏,深入探讨了DeepSeek爆火背后,高薪招聘是否会长期持续,以及从业者如何在AI时代保持 59 AIAI前线前线|特刊特刊 学习和成长。下文为直播部分内容精选,完整直播回放下文为直播部分内容精选,完整直播回放&最新直播预约可关注“最新直播预约可关注“AI前线视频号”查看。前线视频号”查看。以下为
146、柴云鹏院长的分享实录部分(经编辑)以下为柴云鹏院长的分享实录部分(经编辑):从ChatGPT到今年DeepSeek的爆火,AI的发展进程正如多年前的预测一样,正在加速推进。这也给我们的教育和人才培养带来了机遇与挑战。AI的热度不断攀升,尤其是DeepSeek百万年薪招聘人才的新闻引发了广泛讨论。从更长的时间维度来看,AI的发展始于2013年至2014年的深度学习技术突破。当时,AlexNet在ImageNet比赛中夺冠,其性能提升令人震惊,但许多人仍对CNN的潜力持怀疑态度。然而,仅一年多后,深度学习便成为AI领域的主流方向,大量研究人员纷纷转向这一领域。AI领域高薪是必然,但可能不会长期持续
147、领域高薪是必然,但可能不会长期持续 在随后的几年中,AI的薪资水平也经历了起伏。算法岗位曾因稀缺性和高需求而薪资高涨,但其稳定性较差。由于互联网业务的复杂性,深度学习和机器学习的应用效果并不总是理想,导致算法岗位的人员流动较大。许多人中途转向系统、安全等其他方向,薪资水平也因此波动。相比之下,系统岗位和研发岗位因稳定性更高而受到青睐。随着ChatGPT的出现和大模型时代的到来,AI的能力和影响力实现了质的飞跃。机器学习时代,AI的应用落地较为有限,主要集中在视频、安防和娱乐等少数领域,企业营收和薪资水平也难以持续高涨。但大模型技术的突破使大模型技术的突破使AI真正“破圈”,不再局限于少数赛真正
148、“破圈”,不再局限于少数赛道,而是广泛应用于普通人的生活和工作中道,而是广泛应用于普通人的生活和工作中。例如,深圳已经开始尝试使用“AI公务公务员员”,仅用几天时间就能完成过去几十天的工作量,这引发了人们对职业未来的广泛焦虑和对AI的学习热潮。如今,AI已成为高阶工具,在多个领域展现出强大的生产力,推动薪资水平不断上升。在北京等头部高校,在北京等头部高校,AI相关专业的毕业生薪资已相关专业的毕业生薪资已远超百万,甚至刚毕业的博士生也能拿远超百万,甚至刚毕业的博士生也能拿到到200万、万、300万甚至更高的年薪万甚至更高的年薪。DeepSeek等头部企业之所以能开出如此高的薪资,一方面是因为AI
149、技术解决了更多问题,为企业带来了可观的收入;另一方面,AI领域的供需失衡导致人才稀缺,企业为了在激烈的市场竞争中占据优势,不惜重金吸引核心人才。60 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 从宏观角度看,AI的发展带来了巨大的市场需求,尤其是对核心技术和大模型训练、推的发展带来了巨大的市场需求,尤其是对核心技术和大模型训练、推理以及系统级加速设计等方面的专业人才理以及系统级加速设计等方面的专业人才。这些岗位薪资极高,也带动了相关岗位的薪资上涨。然而,这种高薪现象可能不会长期持续这种高薪现象可能不会长期持续,随着AI技术的逐渐普及和人才供给的增加,薪资水平可能会有
150、所回落,但仍可能保持在较高水平。AI发展需要人才基数,更需要核心技术人才发展需要人才基数,更需要核心技术人才 从国际视角来看,AI领域的人才现状呈现出明显的两极分化。目前,中美两国在基础研究投入、企业创新程度、算力资源和人才储备等方面处于领先地位,其他国家与之相比仍存在较大差距。这种格局颇为耐人寻味。过去,我们曾反思中美在科研领域的激烈竞争,批评这种过度追逐热点、竞争激烈的模式,认为这种风格过于浮躁。相比之下,欧洲和日本的科研风格似乎更“佛系”,尤其是欧洲的教授们,他们似乎更注重舒适的研究环境,但即便如此,他们在企业和高校中也做出了许多扎实且高质量的研究成果。然而,在当前AI技术快速突破的背景
151、下,中美两国这种相对激进的科研策略反而取得了显著成效,成为了全球AI领域的主要竞争者。在国内,过去20年计算机人才的培养质量不断提升。以前,清华大学计算机专业的优秀学生大多选择出国深造,但近年来,越来越多的顶尖学生选择留在国内近年来,越来越多的顶尖学生选择留在国内,甚至竞争导师资源。这表明国内高校的水平已经与美国顶尖高校具有相当的可比性。从全球范围来看,中国的人才储备整体具有优势,发展态势健康。当然,与美国最顶尖的高校相比,国内部分高校仍有差距,但正在快速提升。AI领域的快速发展使得人才需求和培养面临巨大挑战。AI人才并非一个单一概念,而是高度细分的领域。在AI领域,人才培养的重要性不言而喻。
152、这就好比足球比赛,虽然需要11名球员组成完整的队伍,但真正决定比赛胜负的往往是少数关键球员。同样,在在AI领域,尽管需要大量的人才基数作为支撑,但那些少数具备核心技术和创新领域,尽管需要大量的人才基数作为支撑,但那些少数具备核心技术和创新能力的关键人才才是推动技术突破和发展的决定性力量能力的关键人才才是推动技术突破和发展的决定性力量。在未来,随着AI技术的不断演进,人才的重要性将愈发凸显,而薪资体系的差异也将进一步扩大。那些能够掌握核心技术、引领创新的关键人才,将获得更高的回报。61 AIAI前线前线|特刊特刊 AI领域需要多维度人才画像领域需要多维度人才画像 AI领域的人才画像可以从多个维度
153、来分析。首先,对于专业人才而言对于专业人才而言,良好的数学和统计学基础是必不可少的,同时还需要扎实的计算机和编程能力,包括对数据结构、算法以及计算机系统的基本理解。此外,掌握基础的机器学习、深度学习和大模型技术,以及大数据相关技术,也是硬核技能的重要组成部分。如果专注于特定领域,如计算机视觉等,还需要具备相关的专业知识。软技能方面软技能方面,AI行业变化迅速,从业者需要能够跟上快速发展的技术节奏,例如及时了解最新的研究论文和技术动态,并善于利用AI工具提升学习和解决问题的能力。沟通能力和团队协作能力也是必备的,同时创新精神尤为重要。目前,尽管AI的能力已经很强,但大多数人仍未充分掌握如何高效利
154、用AI提升工作效率,尤其是在商业和产品开发中。因此,创新精神、想象力、执行力以及对工作的热情都是推动AI应用落地的关键因素。在教育背景方面教育背景方面,顶尖公司通常更倾向于招聘具有优秀教育背景、专业背景的人才,尤其是来自知名高校或海外院校的毕业生。这是因为AI领域相对较新,目前大部分人才供给来自新毕业的学生,而企业内部有经验的人才相对较少。随着AI人才的积累,未来企业对教育背景的要求可能会逐渐放宽,尤其是在有丰富相关经验的情况下。62 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 从能力体系来看,AI时代的人才画像与传统计算机人才培养体系有所不同。核心是大模型技术,其
155、支撑包括计算机系统的高效计算能力(如软硬件协同、芯片算力、分布式网络等)。数据是AI能力的关键,尤其是高质量、独特的数据集对于模型的优化至关重要。同时,安全可信也是重要领域,因为大模型存在幻觉、合规性和安全隐患等问题,需要专业的解决方案。未来,大部分人才将集中在利用AI解决各行业垂直领域的具体应用,这也是时代的主旋律。对于AI专业人才而言,除了掌握大模型技术外,还需要在以下至少一个方面形成专长:强大的数学功底和对模型的深入理解;数据处理和分析能力;系统设计和软硬件结合能力;或者安全和软件工程能力。仅仅停留在对大模型的熟悉和应用层面是不够的,因为这样的技术路线容易被替代。相反,具备独特专长的人才
156、才能在竞争中站稳脚跟具备独特专长的人才才能在竞争中站稳脚跟。每每个人都有机会借助个人都有机会借助AI实现创新和突破实现创新和突破 非AI领域的人其实也有很大的机会参与到AI的浪潮中。首先,大家需要积极拥抱AI技术,即使不是理科生,学习和使用AI也并不难。计算机行业一直致力于将技术变得更易用、更“傻瓜化”,而AI时代的到来进一步降低了门槛。过去,我们使用电脑需要通过命令行(shell),后来有了图形用户界面(GUI)和鼠标操作,再后来智能手机的触控屏让操作更加便捷,甚至小孩和老人都能轻松上手。如今,随着ChatGPT和大模型技术的出 63 AIAI前线前线|特刊特刊 现,我们只需要通过自然语言交
157、流,就能与AI深度互动,完成复杂任务。这使得AI的应用范围更广、深度更强,即使零基础的人也能通过自然语言的描述进行游戏开发、软件设计等工作。实际上,AI的学习途径非常丰富,关键在于持续学习、锻炼接受新事物的能力以及培养创新精神。AI的真正爆发将发生在众多垂直领域和具体应用场景中,而非仅仅局限于AI技术本身。像DeepSeek这样的专业公司或大厂,在AI核心技术研发方面需要少量顶尖人才,但整体而言,AI的应用和推广需要大量跨领域的人才。在这些领域,AI的使用门槛并不高,每个人都有机会通过AI颠覆传统领域,实现创新和突破。总而言之,AI领域的人才前景依然广阔,无论是否是计算机或AI专业出身,每个人
158、都有机会在这场浪潮中找到自己的位置。然而,如果不能适应变化,被替代也是不可避免的。为了避免被淘汰,首先需要积极拥抱AI,学会熟练运用AI工具,这样才能在竞争中脱颖而出。随着AI的发展,一些岗位可能会被替代,但同时也会涌现出新的方向,而能否率先把握这些新机会,取决于我们是否具备主动学习和适应的意识。从人才和薪资的发展趋势来看,目前AI领域正处于一个火爆的阶段,但未来必然会经历起伏,薪资水平也会随着市场供需关系的变化而有所调整。尽管如此,AI的发展无疑将的发展无疑将带来前所未有的社会变革和生产力提升带来前所未有的社会变革和生产力提升,整个行业的发展方向是向上的。不过,AI时代的人才需求变得不再像过
159、去那样明确。在没有AI的时代,知识和技能的需求是清晰的,能力越高,薪资也越高。但现在,随着AI的发展,一些原本由人类完成的工作正在被AI所取代。这就要求我们必须不断提升自己,找到新的立足点,才能在AI的浪潮中生存下来。而生存下来,就意味着有更大的机会去追求更好的发展。因此,我们应该以更积极的态度去拥抱AI,主动实践和学习。不必过于恐慌,因为AI的普及和替代是一个缓慢的过程,那些热爱学习、不断进取的人,最终都会在这个时代找到自己的位置。以下为对话实录部分(经编辑)以下为对话实录部分(经编辑):InfoQ:2月月17日,埃隆马斯克旗下的日,埃隆马斯克旗下的xAI公司正式发布了其最新的人工智能模型公
160、司正式发布了其最新的人工智能模型Grok-3,64 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 并称其为“地球上最聪明的人工智能”。对于科研人员、并称其为“地球上最聪明的人工智能”。对于科研人员、IT从业者以及企业员工来说,从业者以及企业员工来说,AI到底替代不了哪些领域?到底替代不了哪些领域?柴云鹏柴云鹏:目前我还没有总结出一个特别完美的模式,但可以反过来思考:AI能做什么?能做什么?AI拥有人类最大的知识库,因此它在横向关联能力上特别强,能够实现跨学科、跨方向实现跨学科、跨方向的应用的应用。比如,即使你对游戏开发一窍不通,但只要掌握一点编程知识,借助AI的帮助,
161、你就可以生成代码并制作出一个3D游戏。这种跨领域的学习能力使得AI的应用范围非常广泛,且成本较低。然而,在任何特定领域,在任何特定领域,AI的能力都有其局限性的能力都有其局限性。以游戏开发为例,虽然AI可以替代部分美工工作,生成图像,但如果整个游戏完全由AI生成,其质量肯定是有限的。在绘画领域,如果你的绘画技巧非常高超,那么你可能仍然比AI更出色,因为AI生成的图像可能还需要依赖你提供的高质量素材。在研究和系统开发中,AI可以生成一些基本方案,但很难解决那些最复杂、最困难的问题。换句话说,如果你的工作内容相对简单,就像站在一座低矮的山上,即使你爬到了山顶,也很容易被AI替代。但如果你所在的领域
162、本身复杂且难度较高,你可以在这个领域内不断向上攀登,那么AI就不太容易替代你。AI好比洪水模型,它会横扫各个领域中水平较低的部分,这种判断是基于宏观逻辑的。当然,也有些也有些领域领域AI可能无法替代人类,比如可能无法替代人类,比如艺术、感性表达,或者需要与人沟通、提供帮助和娱乐的领域艺术、感性表达,或者需要与人沟通、提供帮助和娱乐的领域。这些领域中,人类的某些能力是AI难以替代的,因此这些领域仍然具有很大的价值。之前一些看似复杂的专业领域,比如金融和投资决策,虽然看起来很厉害,但实际上它们的工作内容相对单一,主要是做决策,而且这些决策大多是数字化的。这样的工作很容易被AI替代,但顶尖的投资决策
163、可能仍然需要人类的参与。目前,AI可能还无法完全实现量化投资,而是需要人类与机器协同工作。总之,在任何一个领域,只有不断向纵深发展,才能在AI时代保持竞争力。InfoQ:我们发现,:我们发现,DeepSeek招聘主要针对应届毕业生,包括本科生、硕士生,甚至实招聘主要针对应届毕业生,包括本科生、硕士生,甚至实习生,似乎很少从市场上招聘有经验的专业人士。从您的角度来看,背后的原因是什么?习生,似乎很少从市场上招聘有经验的专业人士。从您的角度来看,背后的原因是什么?柴云鹏柴云鹏:实际上,在计算机领域,尤其是工科,很多人的创造力最活跃的时期是在20多 65 AIAI前线前线|特刊特刊 岁到30出头。这
164、个年龄段的人学习能力强,也有一定的经验。但到了40岁左右,学习能力可能会变慢,整体节奏也会放慢。特别是在AI时代,适应新事物的能力会变弱,而AI团队需要快速响应,一旦有新的思路,就要争分夺秒地去实施。加班能力也很重要,而年轻人在这方面更有优势。从这个角度看,吸引刚毕业或工作没几年的年轻人是比较划算的。比如,我们人大信息学院的进人策略也是这样,主要精力放在引进年轻人。我们只需要少量有经验的人来带领团队。比如,一个有经验的人带领十几个年轻人,这样的战斗力可能是最强的,性价比也很高。从头培养年轻人有很多好处,比如增强归属感和协同沟通能力。理想的创新团队年龄结构不能太大理想的创新团队年龄结构不能太大。
165、从这个角度看,DeepSeek的策略是合理的。此外,AI领域与其他领域不同,它本身就很新,资深人士的经验作用并不大,甚至可能因为固定的思维方式而产生阻力。InfoQ:高校培养出来的:高校培养出来的AI人才和培训机构培养出来的人才和培训机构培养出来的AI人才有什么区别?人才有什么区别?柴云鹏柴云鹏:实际上,人与人之间的差异更大,不能简单地一概而论。但从宏观上看,这有点像我们当年上学时的情况。比如,学计算机的人会问:软件工程和计算机科学有什么区别?软件工程的课程比较务实,注重各种开发环境的实践;而计算机科学的课程则更偏向底层知识,比如计算机组成原理、操作系统、编译原理等。高校培养的计算机专业人才,
166、基础课程体系更完善,数学和计算机底层基础打得更扎实。这种教育模式有助于学生形成对计算机和AI技术的完整认知,即使有些知识在实际工作中不一定用到,但对理解问题的深度和广度很有帮助。学生在工作岗位上仍需自学新知识,但高校教育锻炼了他们的学习能力。相比之下,培训机构的课程更加直接和务实,注重实战技能的培养,适合那些已经在职场中、时间有限的人。他们很难像高校学生那样全身心投入学习,因此培训机构的课程更注重实用性。如果你通过培训发现自己对某个领域感兴趣且有能力,可以进一步深入学习更基础的内容,比如数学和计算机底层知识。如今,无论是基础课程还是实战应用,都有大量资源可供选择,包括培训课程、慕课、国外开放课