• 首页 >  人工智能 >  AI产业
  • InfoQ:2025年DeepSeek:AI 赛道的超级引擎|AI前线特刊(159页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《InfoQ:2025年DeepSeek:AI 赛道的超级引擎|AI前线特刊(159页).pdf》由会员分享,可在线阅读,更多相关《InfoQ:2025年DeepSeek:AI 赛道的超级引擎|AI前线特刊(159页).pdf(159页珍藏版)》请在薪酬报告网上搜索。

    1、 目录目录 开篇词.1 DeepSeek崛起:大模型之战与应用未来.5 纯强化学习的革命:DeepSeek技术路线揭秘.24 DeepSeek的组织文化:创新与商业化的平衡.35 AI开源新趋势:DeepSeek的决策与影响.44 AI时代的百万年薪:DeepSeek与全球人才争夺战.58 RAG技术前沿:DeepSeek模型的应用与突破.70 DeepSeek如何重塑AI商业化格局?.93 从提示词到变现:DeepSeek如何赋能用户.105 全球AI新格局:DeepSeek带来的生态机会.114 AI的能力边界:DeepSeek能否重新分配生产力?.128 AI领域的下一个里程碑:Deep

    2、Seek的预测与机遇.139 让天下没有难做的AI交付,DeepSeek服务交付联盟是个什么组织?.149 AIAI前线前线|特刊特刊 开篇词开篇词 各位开发者朋友:当你们翻开这本电子书时,我们正站在人工智能革命的临界点。过去十年,AI技术从实验室走向产业应用;未来十年,这场革命将以前所未有的深度重塑人类社会的每个角落。作为这场变革的见证者和参与者,InfoQ极客传媒联合极客时间、TGO鲲鹏会等兄弟单位,联袂多名专家第一时间对DeepSeek这一革命性技术进行深度解读,获得众多开发者朋友和企业的广泛认可。今天我们怀着敬畏与期待,将DeepSeek探索人工智能边界的故事凝结成册,希望通过这些沉淀

    3、继续影响更多的朋友一起见证历史。这本电子书不是简单的技术汇编,而是一个创新组织在AI浪潮中劈波斩浪的完整叙事。从大模型底层架构的革命性突破,到开源生态的战略抉择;从纯强化学习的技术攻坚,到百万年薪人才争夺战中展现的组织智慧我们试图通过九个维度的深度剖析,向大家展示:在算法红利与商业化压力的双重作用下,一家在算法红利与商业化压力的双重作用下,一家AI企业如何保持技术创新定力,企业如何保持技术创新定力,同时构建可持续发展的商业闭环。同时构建可持续发展的商业闭环。这本电子书记录的不仅是DeepSeek成功背后的故事,更是一部关于“如何成为时代引擎”的方法论。超超级引擎的轰鸣:技术突破即行业加速器级引

    4、擎的轰鸣:技术突破即行业加速器 如果说算力是AI时代的石油,那么DeepSeek正在重新定义内燃机的构造当行业还在监督学习的线性轨道上匀速前行时,DeepSeek通过自主进化系统让模型实现指数级成长。这种技术路径的颠覆性,正如从蒸汽机到火箭引擎的跨越:它不追求单一任务的极致优化,而是构建可自适应环境、持续突破性能极限的“智能推进器”。每一个技术突破的爆震声,都在为行业校准新的速度阈值。DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 动动力系统的秘密:组织文化的聚变反应力系统的秘密:组织文化的聚变反应 超级引擎的持久运转,依赖内部精密的能量转化机制。DeepSeek独特的

    5、组织哲学保持了研发团队与商业化团队之间的创造性张力,既不让短期盈利目标束缚技术想象力,也避免陷入技术乌托邦的陷阱。这种戴着镣铐跳舞的智慧,体现在工程师与产品经理每周的认知碰撞会中,也体现在允许20%资源投入高风险探索项目的制度设计里。正如硅谷教父杰弗里摩尔所言:跨越技术采纳鸿沟的关键,在于建立创新与市场的对话机制。传传动轴的革新:开源生态重构动轴的革新:开源生态重构AI产业产业 真正的超级引擎从不独行,它需要重新定义传动的规则。在有关AI开源新趋势的交流中,我们讨论了DeepSeek开源决策背后的战略考量。不同于某些企业将开源视为市场防御手段,DeepSeek的开源实践始终秉持生态共建的初心。

    6、通过开放模型中间层接口,既降低了开发者的准入门槛,又在产业上下游催生出200余个创新应用案例。这种利他即利己的生态思维,正在改写AI时代的价值分配规则。核核心部件的进化:人才飞轮突破性能极限心部件的进化:人才飞轮突破性能极限 当行业用薪酬数字粗暴比拼“马力”时,DeepSeek更关注人才的“推重比”。当“百万年薪”成为行业热议话题,我们更应注意人才争夺背后的深层逻辑。在DeepSeek的实践中,顶尖人才的价值不仅体现在代码能力,更在于其构建认知飞轮的能力那些能同时理解技术本质与商业规律,在模型优化与用户体验之间找到平衡点的人才,才是驱动AI落地的关键齿轮。为此,其建立起独特的双轨道培养体系,让

    7、技术天才与产品极客能在碰撞中实现认知升级。输输出功率的质变:商业化重塑价值坐标系出功率的质变:商业化重塑价值坐标系 超级引擎的真正价值,体现在它如何重新定义“速度”。AI商业化绝非简单的技术变现。当电商企业将提示词响应速度从3秒降至0.5秒时,带来的不仅是效率提升,更是用户决策模式的根本改变。这种价值重构要求企业具备技术穿透力既能洞察算法瓶颈,又能感知用户体验的细微痛点。DeepSeek在金融、教育、医疗等领域的成功实践证明:AI商业化的天花板,取决于技术团队对产业Know-How的理解深度。AIAI前线前线|特刊特刊 站在2025年的技术拐点上,我们清晰地看到:大模型正在从技术奇观走向产业基

    8、础设施,AI竞争进入应用深水区。在这个过程中,DeepSeek始终秉持三个核心信念:其一,真其一,真正的智能革命必须带来可衡量的商业价值;其二,开放协作的生态比封闭系统更具生命正的智能革命必须带来可衡量的商业价值;其二,开放协作的生态比封闭系统更具生命力;其三,人机协同进化的终极目标是解放而非替代人类创造力。力;其三,人机协同进化的终极目标是解放而非替代人类创造力。谨以此书,献给所有不甘于匀速前进的行业颠覆者。真正的超级动力,永远源自那些敢于重新定义速度的人。今年极客邦科技的年度主题也是“AI应用落地”,我们期待和所有心怀梦想,勇于挑战的朋友一起创造历史,见证历史!霍太稳 极客邦科技创始人 2

    9、025年3月10日于北京 4 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 DeepSeek AI赛道的超级引擎赛道的超级引擎 5 AIAI前线前线|特刊特刊 DeepSeekDeepSeek崛起:大模型之战与应用未来崛起:大模型之战与应用未来 分享嘉宾:彭靖田 策划:极客时间 亮点内容亮点内容:DeepSeek持续爆火,背后到底是什么原因;DeepSeek基础模型核心架构DeepSeekMoE DeepSeek R1推理模型关键技术突破与原理解析 DeepSeek有什么应用场景和案例。中美大模型未来竞争格局分析 大家晚上好,我叫彭靖田,是Google出海创业加速器的

    10、导师,也是Google AI开发者专家。今天我想重点分享几个问题。首先是DeepSeek和其他大模型相比,到底处于什么水平?它为什么突然火了起来?它的落地应用前景和挑战又是什么?最后,我想和大家探讨一下中美在大模型领域的竞争,这其实是一个长期的话题。在正式开始之前,我想先问大 6 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 家一个问题:你们是什么时候听说DeepSeek的?1月20日,也就是春节前一周左右,国务院总理李强主持了一场座谈会,深度求索的创始人梁文峰参与了此次座谈,并就政府工作报告的征求意见稿提出了建议。这一事件从顶层设计层面体现了中国对DeepSeek技

    11、术突破的高度重视。那么,DeepSeek为何受到如此重视?它仅仅是中国人关注的对象,还是全球瞩目的焦点?数据或许能给出答案。通过Google搜索引擎的Google Trends来看,过去30天内,在美国IP属地的搜索数据中,我选取了三个关键词:DeepSeek、ChatGPT和LLaMA。1月11日时,LLaMA的搜索热度高于DeepSeek,但自1月20日起,DeepSeek的热度迅速攀升,仅用1到2天就超过了运营两年多、月活用户近10亿的ChatGPT。再看美国各地区对DeepSeek的关注情况。加州作为美国创新高地,对DeepSeek的关注度很高,但最初超过ChatGPT的那几天,华盛顿

    12、特区的搜索热度更高。美国政府官员对DeepSeek表现出紧张情绪,甚至有官员宣称要禁止DeepSeek,还有人主张限制芯片出口中国。从过去30天的整体数据来看,不仅是加州、华盛顿特区,马萨诸塞州(美国高校聚集地,如哈佛大学所在地)和纽约(华尔街所在地)等地,整个美国都在密切关注DeepSeek的发展,DeepSeek并非仅仅是墙内开花的故事。7 AIAI前线前线|特刊特刊 从另一个角度也能看出DeepSeek的影响首当其冲的是ChatGPT。从流量和搜索相关问题来看,与DeepSeek相关的问题增长了50倍,而“DeepSeek是否优于ChatGPT”的问题增长了41倍。这表明,很多美国人开始

    13、质疑DeepSeek是否比ChatGPT更强大。事实上,DeepSeek确实很厉害,美国一线专家如山姆奥特曼、杨立昆等都对其赞不绝口。再看全球范围内的趋势,不仅仅是美国,亚洲、欧洲等全世界范围内都呈现出类似的趋势。DeepSeek自1月底开始热度迅速上升,目前仍高于LLaMA。这令人深思,因为Meta在LLaMA上投入了大量资金。我们称DeepSeek为AI界的“拼多多”,其成本仅为LLaMA的1/10。通过这些数据可以看出,DeepSeek早已出圈,它不仅在中国受到关注,还在全 8 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 球范围内,无论是学术圈还是大众领域,都

    14、受到了广泛关注。DeepSeek vs其他大模型其他大模型 DeepSeek与其他大模型相比,到底有什么独特之处。其实,大家现在谈论的DeepSeek更多的是指R1模型,也就是在2025年1月热度超过ChatGPT的那个版本。原因很简单,R1是一个与OpenAI的o1同等级别的模型,但o1非常昂贵且没有开源,而DeepSeek R1完全开源,大家可以免费享受到与o1同等水平的智能体验。在讲R1之前,我想先提一下DeepSeek V2版本。这个版本可以说是横空出世,它在2024年发布了多篇重要论文,包括V1、V2、V3、R1以及DeepSeek MOE等。其中,V2论文提出了多头潜在注意力机制(

    15、MLA),这是对传统Transformer模型中多头注意力机制的重要改进。它能够显著降低算力和显存开销。此外,V2还提出了稀疏大模型架构DeepSeek MOE,这种架构在降低成本的同时,还能保持较高的性能。9 AIAI前线前线|特刊特刊 从效果来看,DeepSeek V2在2024年5月的开放测试中,与其他大模型相比,表现非常出色。在二维坐标系中,左上角代表性能最好,而V2的性能接近甚至超过了当时的一些顶尖模型,如Mixtral 822B。这表明,DeepSeek V2不仅成本低,性能也非常强大。通过MLA机制,DeepSeek V2的KV缓存需求仅为原来的6.7%,大大降低了算力需求,同时

    16、提高了吞吐量。在推理任务和不同语言任务上,V2的表现也非常接近GPT-4的早期版本。10 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 紧接着,在2024年12月发布的DeepSeek V3更是让人震惊。V3不仅在性能上有了大幅提升,还能够与千问2.5 72B、LLaMA3.1 405B等大型模型相媲美,甚至在某些方面超过了GPT-4o。V3采用了混合专家模型(MOE)架构,这种架构的最大优势在于降低了训练和推理成本。V3的模型体量为6711亿参数,但在推理时只需激活370亿参数,大大降低了成本。与V2相比,V3将专家数量提升了一倍,参数总量提升了三倍,但激活值仅增加

    17、了1.5倍。相比之下,千问和LLaMA等模型采用的是稠密架构,训练成本更高。到了2025年1月,DeepSeek R1的发布更是让整个行业为之震动。R1不仅赶超了OpenAI的o1模型,还通过强化学习实现了复杂的推理能力。R1的开源,为整个行业提供了新的方向。它证明了在不依赖昂贵标注数据的情况下,也能实现与o1相当甚至更好的效果。这无疑对OpenAI构成了巨大挑战,也让整个行业看到了DeepSeek的技术实力和创新潜力。11 AIAI前线前线|特刊特刊 DeepSeek为什么突然火了?为什么突然火了?在深入了解了DeepSeek从V2到R1的演进过程和其价值之后,我们再来看看DeepSeek到

    18、底有哪些技术细节值得我们学习和了解。在探讨这些技术之前,我们不得不回到一个核心问题:DeepSeek为什么会火?从理性分析来看,任何技术的火爆必有其原因。一开始,DeepSeek在圈内人中传播,大家开始讨论它有多厉害。随后,国内的总理座谈会和自媒体的分享推动了其在国内的传播,而在国外,主要是技术领域的KOL在分享。那么,DeepSeek到底有多火呢?这需要量化来看。AI产品榜一直在记录这些数据。两年前,大家都认为互联网已经进入后半场,很难再出现像抖音、微信这样的平台级产品。然而,ChatGPT的出现打破了这一认知,它以最快的速度突破了百万用户和亿级用户。而DeepSeek的表现更为惊人,它仅用

    19、了18天就达到了1500万的日活用户,这是ChatGPT的13倍增速。大家想象一下,一个APP每天有1500万用户在使用,服务器出现繁忙提示也就不足为奇了。因为DeepSeek没有那么多算力支持,它几乎是免费提供服务,用户量呈指数级增长,服务器压力自然巨大。更令人震惊的是,DeepSeek仅用了7天就达到了1亿用户,而ChatGPT用了两个月。两个月是60多天,相比之下,DeepSeek的增长速度简直令人难以置信。这两个数据足以说明DeepSeek的火爆程度。ChatGPT已经让华尔街和全球技术界为之疯狂,而DeepSeek则以13倍于ChatGPT的速度增长,仅用7天就达到1亿 12 Dee

    20、pSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 用户,这无疑是AI界的一大奇迹。除了用户增长速度,DeepSeek被称为AI界的“拼多多”也值得关注。这是因为DeepSeek V3的训练成本仅为LLaMA 3.1的十分之一。LLaMA 3.1有不同尺寸的模型,如8B、70B和405B。DeepSeek V3虽然有6710亿参数,但激活时只有30多亿参数,远低于LLaMA 3.1的推理成本。从训练成本来看,LLaMA 3.1需要3084万GPU小时,而DeepSeek V3只需要270万GPU小时。即使不考虑GPU的购买成本和租赁成本,仅从训练所需的GPU小时数来看,DeepS

    21、eek V3的成本仅为LLaMA 3.1的十分之一。这一成本优势是无可辩驳的。尽管有些媒体质疑DeepSeek的算法,但只要仔细阅读相关论文,就会发现DeepSeek的训练成本计算方法是标准且合理的。每家公司运营成本不同,我们只能公平地比较从零到一完成训练所需的GPU小时数。因此,DeepSeek V3的低训练成本是完全合理且令人信服的。DeepSeek如何做到便宜又好用如何做到便宜又好用?DeepSeek公司在过去一年中进行了多次模型迭代,取得了显著的技术创新和突破。V1模型主要验证了LLaMA的工作,并提出了超参数的幂律关系公式。这一公式涉及学习率的衰减问题,尤其是在微调训练中,如何根据模

    22、型规模和数据规模灵活调整学习率。传统的余弦衰减方法虽然被广泛采用,但存在一定的局限性,而DeepSeek在V1阶段就开始探索更适合的衰减策略。V2模型则提出了多头潜在注意力机制(MLA)和DeepSeek MoE架 13 AIAI前线前线|特刊特刊 构。V3模型在网络架构上沿用了V2的设计,并引入了无辅助损失负载均衡策略与多Token预测(MTP)。这些改进进一步提升了模型的性能和效率。而R1模型则是全球首个基于强化学习训练的大模型,它不仅追平了OpenAI的o1模型,还实现了更复杂的推理能力,成为DeepSeek技术突破的标志性成果。重重点讲讲点讲讲MoEs技术技术 我们重点探讨两个技术点:

    23、一是DeepSeek的MoE架构是如何发展而来的;二是R1模型如何通过强化学习实现推理能力的突破。V2模型的两个重要技术创新是MLA和DeepSeek MoE。MLA改变了标准Transformer中的注意力机制,而MoE架构则对全连接层进行了改造。MoE技术的核心在于将模型的不同部分分配给不同的“专家”来处理,从而实现并行化和高效训练。MoE技术的发展可以追溯到1991年,当时Hinton提出了自适应局部专家混合的概念。这一概念的核心是将不同的网络能力分配给不同的专家,并通过门控网络来决定输入数据应该由哪个专家处理。2013年,Ilya等人将深度学习与MoE思想相结合,提出了深度MoE(DM

    24、oE)的概念,允许在深度神经网络的不同层中应用MoE。2017年,Hinton和Jeff Dean进一步探索了大规模MoE模型的可能性,引入了稀疏性概念,14 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 使得模型能够在不增加计算量的情况下扩大规模。MoEs与与 大模型结合后的技术发展大模型结合后的技术发展 MoE技术是一种将多个专家网络组合在一起的方法,每个专家负责处理输入数据的不同部分,从而实现更高效和更灵活的模型训练。这种技术在深度学习领域已经得到了广泛的应用,尤其是在大模型中。早在2017年,Google的Hinton和Jeff Dean团队就进行了一项重要的

    25、研究,探索了在LSTM网络上应用MoE技术的可能性。当时,他们构建了一个拥有1370亿参数的MoE模型,这在当时是一个巨大的突破。然而,由于Transformer架构在2017年才刚刚被提出,因此他们的研究并没有在Transformer上进行实验。但到了2020年,Google的GShard项目进一步推动了MoE技术的发展,他们开始探索如何将MoE技术与Transformer架构相结合,以实现更高效的模型训练。GShard项目的一个重要目标是解决多语言翻译问题。在没有GPT-4之前,多语言翻译是一个非常复杂的任务。假设全球有100种常用语言,要实现这些语言之间的任意翻译,就需要大量的模型。具体

    26、来说,如果每种语言对都需要一个单独的模型,那么就需要9900个模型来完成100种语言之间的任意翻译。这是一个非常庞大的数字。因此,Google提出了一个大胆的想法:是否可以用一个模型来完成所有这些翻译任务?这个想法最终在 15 AIAI前线前线|特刊特刊 GShard的后续论文中得到了验证。他们发现,只要模型足够大,即使训练数据很少,模型也能够学会进行多语言翻译。这一发现为DeepSeek的发展提供了重要的启示。除了理论上的探索,GShard在工程技术方面也进行了许多有意义的实验。他们发现,MoE技术非常适合用于分布式训练。在分布式训练中,模型的不同部分可以在不同的GPU卡上进行训练,从而提高

    27、训练效率。GShard提出了一种“top-two gating”的方案,即在每次训练中只与两个最相关的专家进行通信。这种方法大大降低了通信成本,提高了训练效率。这一技术后来被许多其他研究团队所采用。然而,尽管MoE技术在理论和工程上都取得了显著的进展,但在实际应用中仍然存在一些挑战。例如,如何训练大量的专家,以及如何确保这些专家之间的差异性,都是需要解决的问题。DeepSeek在这些方面进行了深入的研究,并提出了一些创新的解决方案。他们通过细粒度的专家分割和设备限制路由等技术,成功地提高了模型的性能和效率。这些技术不仅降低了通信开销,还提高了模型的训练速度和质量。16 DeepSeekDeep

    28、Seek:AIAI赛道的超级引擎赛道的超级引擎 在大模型领域,MoE技术的应用已经成为了一个重要的研究方向。许多团队都在尝试将MoE技术与大模型结合,以提高模型的性能和效率。其中,Mixture AI是一个非常有名的例子,它被称为欧洲的OpenAI。然而,尽管Mixture AI成功地将MoE技术应用于大语言模型的训练中,但他们在开源方面的尝试并没有持续下去,原因可能在于他们没有像DeepSeek那样进行更多的创新。17 AIAI前线前线|特刊特刊 DeepSeek在MoE技术上的创新主要体现在两个方面。首先,他们解决了如何训练大量专家的问题。在传统的MoE模型中,专家的数量通常不会太多,因为

    29、训练大量的专家是非常困难的。这就好比一个老师带8个学生和带100个学生的要求完全不同,而且要求每个学生的成绩都好,难度可想而知。更重要的是,我们希望这100个学生各不相同,各有特长,这更是难上加难。DeepSeek通过细粒度的专家分割,成功地训练了160个路由专家,这些专家各有所长,能够处理不同的任务。同时,他们还引入了两个共享专家,这些共享专家负责处理一些常识性的知识,例如理解文本的含义。其次,DeepSeek在设备限制路由和负载均衡方面进行了优化。这些技术的引入主要是为了解决通信开销的问题。在分布式训练中,模型的不同部分通常会在不同的GPU卡上进行训练,这就需要在训练过程中进行大量的通信。

    30、如果通信成本过高,就会严重影响训练效率。DeepSeek通过限制每个token最多访问3台设备,并采用三级平衡损失(专家级、设备级、通信级),成功地降低了通信开销。此外,他们还在训练框架和CUDA层面上进行了优化,进一步提高了训练效率。这些创新使得DeepSeek的MoE技术在性能和效率上都取得了显著的提升。与传统的MoE模型相比,DeepSeek的模型不仅能够处理更复杂的任务,而且训练成本也大幅降低。例如,他们的V3模型在参数激活稀疏性方面表现优异,每个token仅激活21B参数,总参数为236B,训练成本较DeepSeek 67B降低了42.5%。DeepSeek R1 Game Chan

    31、ger DeepSeek的R1模型被称为“游戏规则改变者”,它通过一系列创新的训练方法和成果,彻底改变了大模型的训练和应用方式。R1模型的训练过程分为三个阶段。第一阶段,R1 Zero通过强化学习训练,无需监督微调(SFT),直接在基础模型上应用大规模强化学习。第二阶段,通过冷启动数据对V3模型进行微调,增强其推理能力。第三阶段,结合规则奖励和神经奖励模型,对齐人类偏好,进一步提升模型的性能。接下来,我将详细解释这三个阶段的训练过程及其背后的原理。第第一阶段:一阶段:R1 Zero的强化学习训练的强化学习训练 R1 Zero是R1模型的基础版本,它的训练过程完全依赖于强化学习,而没有使用传统的

    32、监 18 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 督微调(SFT)。这一阶段的目标是让模型具备推理能力,即能够生成中间思考过程和最终结果。R1 Zero的训练方法如下。强化学习目标强化学习目标:R1 Zero的训练目标是准确率和格式奖励。格式奖励要求模型在生成结果时,必须包含中间思考过程(think)和最终结果。这种格式化的输出方式类似于Alpha Zero,后者通过自我学习而非学习人类棋谱来提升性能。训练方法训练方法:R1 Zero使用了GRPO(Group Relative Policy Optimization)算法,这是一种简化的强化学习方法,通过投票机

    33、制解决价值估计问题。GRPO在海外引起了广泛关注,因为它简化了训练成本,提高了训练效率。成果成果:R1 Zero通过强化学习自主发展出了长链思维能力。模型发现,思考过程越长,准确率越高。这一发现是R1 Zero训练过程中的一个重要突破,标志着模型能够通过自我学习提升推理能力。第第二阶段:冷启动数据与推理能力增强二阶段:冷启动数据与推理能力增强 在第一阶段的基础上,R1 Zero生成了冷启动数据(cold start data),这些数据用于进一步增强模型的推理能力。这一阶段的训练过程如下。冷启动数据冷启动数据:R1 Zero生成的冷启动数据包含了中间思考过程和最终结果,这些数据被用来对V3模型

    34、进行微调。通过这种方式,V3模型获得了更强的推理能力。19 AIAI前线前线|特刊特刊 强化学习训练强化学习训练:在微调后的V3模型基础上,R1 Zero再次进行强化学习训练,但这次训练中加入了语言一致性(consistency)的要求。这一要求确保模型在生成结果时不会混用不同语言,除非是专有名词。成果成果:通过冷启动数据和语言一致性的强化学习训练,R1 Zero生成了更高质量的推理数据。这些数据不仅避免了语言混用问题,还进一步优化了模型的推理能力。第第三阶段:最终的三阶段:最终的R1模型训练模型训练 在前两个阶段的基础上,R1模型的最终训练过程如下。SFT知识数据知识数据:除了推理数据,R1

    35、模型还需要一些常识知识(knowledge)。这些知识数据来自V3模型的基础版本,通过模型生成而非人工标注。强化学习与规则验证强化学习与规则验证:R1模型在训练过程中结合了强化学习和规则验证(rule-based verification),通过拒绝采样等方法进一步提升模型的性能。成果成果:最终的R1模型不仅具备强大的推理能力,还能够生成高质量的中间思考过程和最终结果。这一模型的性能在多个基准测试中得到了验证,证明了其在推理任务上的优越性。20 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 蒸蒸馏模型馏模型 除了R1模型,DeepSeek还发布了一系列蒸馏模型。这些模

    36、型通过使用R1生成的推理数据进行训练,显著提升了性能。具体来说:蒸馏过程蒸馏过程:R1生成了80万条推理数据,这些数据被用来对现有的开源模型(如LLaMA和千问)进行蒸馏训练。通过这种方式,这些模型的性能得到了显著提升。成果成果:经过R1推理数据蒸馏的模型在多个任务上的表现超过了原始版本。例如,经过蒸馏的LLaMA模型在某些基准测试中接近甚至超过了闭源模型的性能。在R1模型的最终论文中,DeepSeek团队不仅展示了其原理和成果,还分享了他们在研究过程中的一些尝试和经验教训。首先,R1 Zero的训练过程验证了在无监督场景下激励复杂推理行为的可行性。R1 Zero能够在没有任何监督微调(SFT

    37、)数据的情况下,通过强化学习训练出具有推理能力的模型。这一过程中,R1 Zero能够生成长达数千个tokens的思考过程,这在以往的模型中是难以想象的。关键在于冷启动数据的使用,这些数据由R1 Zero生成,并用于训练V3基础模型,使其具备推理能力。随后,V3模型通过强化学习进一步训练,生成了更符合语言一致性的R1 Zero版本。最终,这些经过强化学习训练的R1 Zero模型能够生成高质量的、21 AIAI前线前线|特刊特刊 语言一致的推理数据,这些数据与知识数据结合,用于训练最终的R1模型。整个过程不仅展示了技术的创新,也体现了DeepSeek团队在模型训练上的巧妙设计和艺术性。DeepSe

    38、ek团队也经历了一些失败的尝试。例如,他们尝试使用蒙特卡洛树搜索(MCTS)结合其他模型的方法来复现OpenAI的O1模型,但最终发现这种方法并不适用。DeepSeek团队以一种友善和中立的方式指出,他们尝试了这种方法但未能成功。此外,他们还尝试使用过程奖励模型(PRM)来训练模型,这种方法由OpenAI公开,涉及使用人工标注的过程奖励数据来训练模型。然而,DeepSeek发现,直接使用这些人工标注的中间思考步骤数据进行监督微调是不可行的。原因在于,人类很难准确地写出最优的中间思考步骤,这使得基于人工标注数据的训练方法存在局限性。DeepSeek通过实验发现,模型自身生成的推理数据比人工标注的

    39、数据更能有效地提升模型的推理能力。DeepSeek在开源方面的表现非常出色,从第一代V1模型开始,就一直坚持开源策略。这不仅包括大家熟悉的R1等七个模型,还有像Prover、Code-V2、VL2等众多版本和相关代码。这种开放的态度体现了DeepSeek真正致力于开源的精神。如果要论及真正的“OpenAI”,DeepSeek无疑是强有力的候选者。它毫不保留地将研究成果第一时间公开,不仅分享成功的经验,也坦诚地告知哪些路径未能走通,为其他研究者提供了宝贵的参考。DeepSeek落地应用前景与挑战落地应用前景与挑战 DeepSeek的落地场景已经非常广泛,涵盖了各个行业和领域。如果你想知道它在某个

    40、特定行业或地区的应用情况,只需在搜索引擎中输入“DeepSeek落地”并加上相应的行业或地区名称,就能找到大量相关信息。目前,几乎所有行业和高校都在围绕DeepSeek展开研究和应用探索。关于当前的技术局限和挑战,我认为这是一个非常有趣的话题。最近,我听到一个很有趣的现象,今年最出圈的一句话是“服务器繁忙,请稍后再试”。这虽然是一个现象,但显然不是DeepSeek真正的技术局限和挑战。大家应该把这当作一个玩笑,不要被一些自媒体为了博取流量而传播的不实信息所误导。就DeepSeek R1模型而言,我认为它可能面临以下技术局限和挑战:22 DeepSeekDeepSeek:AIAI赛道的超级引擎赛

    41、道的超级引擎 1.R1模型发布得非常快,在V3发布后仅一个月就推出了。我相信DeepSeek内部肯定在迅速推进R2或其他版本的开发。从R1的训练过程来看,它是基于R1 Zero生成的COT数据和V3基础模型生成的知识数据进行监督微调得到的。然而,在这个过程中,V3模型如何更有效地生成这些数据,以及COT数据的质量是否可以进一步提高,从而增强R1模型的通用能力,这些都是未来可以继续优化的方向。此外,R1模型的输出格式也可能需要进一步调整。2.R1模型目前主要处理中英文,但随着DeepSeek的全球化发展,它可能需要支持更多语言,如韩语、日语、德语、法语和西班牙语等。这将是R1模型未来需要进一步提

    42、升的方向。3.提示词的敏感性也是一个问题。需要设计更鲁棒的提示词工程方法,使模型在不同提示词下都能稳定输出高质量结果。4.推理能力蒸馏,需要进一步探索如何将推理能力蒸馏到更小的模型中。已经有公司在尝试替代Transformer架构,因为Transformer本身存在一些局限性。5.安全性也是一个重要问题。自从DeepSeek上线以来,就有很多人提出各种敏感问题。未来,DeepSeek可以在强化学习、监督微调或其他环节中增加安全性机制,以确保模型的输出既安全又无害。未未来中美大模型竞争的一些展望来中美大模型竞争的一些展望 展望中美大模型的未来,合作与竞争的关系是一个不可忽视的议题。尽管目前竞争激

    43、烈,23 AIAI前线前线|特刊特刊 但我认为合作大于竞争。全球范围内的合作趋势正在形成,例如即将在法国举行的一场大会,所有大模型科技公司的高层都将出席。法国政府也在推动一项类似美国“星际之门”的上千亿欧元投资计划,以支持AI发展,并向DeepSeek伸出橄榄枝。这表明,全球性的合作是大势所趋。技术共享,尤其是开源技术,更是推动了这种合作。当然,商业层面的竞争不可避免。陆奇老师在2月11日的演讲中提到,大模型时代已经进入下半场,即推理驱动阶段。上半场,像OpenAI的GPT那样,通过知识驱动的方式,让模型吸收大量人类历史知识,从而能够回答各种问题。然而,下半场更注重推理能力,就像人类大脑的两种

    44、思考方式:一种是快速且不假思索的,另一种是需要深思熟虑的。推理驱动的模型更接近后者的思考方式,这对于复杂任务如写小说或编写复杂代码至关重要。DeepSeek R1的出现,让开源社区真正进入了推理驱动的赛道,这是非常了不起的成就。对中国来说,这是一个巨大的机会。首先,DeepSeek诞生于中国,这表明非海归博士也能取得全球领先的成果。其次,中国拥有大量年轻人才,他们将成为未来十年的中坚力量。此外,国产AI算力生态和芯片平台正在快速迭代,有望迎头赶上。还有一个重要优势是中国用户对端侧智能和便利的接受度更高,这为大模型的推广提供了便利。因此,我希望大家保持乐观,积极拥抱新技术。大模型将影响众多行业,

    45、其影响力甚至可能超过互联网。最后,我想分享DeepSeek R1输出的一句话:“意识不是一个二进制的开关,而是一个连续的光谱。”这句话非常优美,它提醒我们,意识并非非黑即白的存在,而是一个连续的过程。重要的是意识能带来什么,而非单纯讨论其是否存在。这同样适用于DeepSeek,我们应关注它能为我们带来什么,以及我们能用它做什么。24 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 纯强化学习的革命:纯强化学习的革命:DeepSeekDeepSeek技术路线揭技术路线揭秘秘 本文整理自InfoQ策划的DeepSeek系列直播第二期节目DeepSeek爆火背后爆火背后Dee

    46、pSeek,纯强化学习路线到底有何不同,纯强化学习路线到底有何不同。在直播中,出门问问大模型团队前工程副总李维博士聚焦推理范式的创新,分析了R1 Zero对推理模型平民化的创新贡献。他提到,DeepSeek通过开源和透明化,证明了不需要过程监督,仅通过结果控制就能训练出优秀的推理模型,这大大颠覆了传统认知以及OpenAI所暗示的需要在每一步监督推理强化学习的观点。下文为直播部分内容精选,完整直播回放下文为直播部分内容精选,完整直播回放&最新直播预约可关注“最新直播预约可关注“AI前线视频号”查看。前线视频号”查看。25 AIAI前线前线|特刊特刊 DeepSeek的最大功绩在于将这一切透明化的

    47、最大功绩在于将这一切透明化 InfoQ:“:“DeepSeek坚持纯强化学习路线,但业界常说坚持纯强化学习路线,但业界常说RL(强化学习)是(强化学习)是炼丹”炼丹”他们如何让这个过程可控和“平民化”?有什么他们如何让这个过程可控和“平民化”?有什么推理范式的创新推理范式的创新?李维博士李维博士:实际上,推理模型的强化学习一直是业界的难题。大约半年前,IIya等人宣称预训练时代已经结束,这意味着单纯依靠预训练模型的规模扩展来提高性能已经难以为继。GPT5迟迟不能上线也是预训练式微的一个迹象。因此,业界开始寻找新的增长道路,推理大模型在头部团队开始暗流涌动,直到Open AI发布全球第一个推理大

    48、模型O1。紧接着就是DeepSeek的R1出圈,这就是deepseek爆火的背景。从 神神秘秘、据传引发了OpenAI宫斗的Q-Star项目开始到o1大模型的推出,推理大模型被AI主流广泛公认为新的范式。这种范式的核心是开启模型的“慢思考”能力,即所谓System 2,利用强化学习提升模型在复杂任务中的智能程度。然而,这一切都是闭源的,OpenAI甚至故意制造了一些神秘感,遮掩其思维链的内容。除了少数头部玩家如Google和Anthropic在背后悄悄探索追踪外,其他团队对这一领域知之甚少。DeepSeek的最大功绩在于将这一切透明化。它的模型和详尽的技术论文全部开源,甚至最大功绩在于将这一切

    49、透明化。它的模型和详尽的技术论文全部开源,甚至也不怕露怯,在系统里公开了思维链的所有内容也不怕露怯,在系统里公开了思维链的所有内容。它通过纯粹强化学习,证明了即使没有过程控制数据,仅通过结果控制也能达到头部推理大模型的水平。这就好像是捅破了一层窗户纸,让业界看到了强化学习平民化的道路。InfoQ:推理范式的创新听起来很抽象,能否举个例子?:推理范式的创新听起来很抽象,能否举个例子?李维博士李维博士:DeepSeek的R1论文非常出色,堪称大模型领域中的一篇佳作。论文分为两部分:一部分是关于一部分是关于Zero的研究的研究,这是纯粹的强化学习推理方向的成果,非常精彩;另一另一部分则是基于部分则是

    50、基于Zero研究成果的实用系统研究成果的实用系统R1,这是一个真正上线的头部推理大模型。在开发R1时,需要考虑实用性,包括综合性能、安全性以及各种实用考量等,因此论文中详细介绍了四阶段训练的最佳实践(best practice),帮助其他团队理解和复制这一成果。论文最精彩的部分还是Zero的研究。Zero的研究证明了一个颠覆性的观点:与传统认知与传统认知(或(或OpenAI所暗示的需要在每一步监督推理强化学习的观点)不同,实际上并不需要过所暗示的需要在每一步监督推理强化学习的观点)不同,实际上并不需要过 26 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 程监督程监督

    51、。仅通过最终结果(即“黄金标准”)作为监督信号,就能训练出推理大模型所需的“慢思考”过程。这是Zero的最大亮点,也是其名称的由来它借鉴了AlphaZero的精神。AlphaZero在人工智能历史上开创性地完全不依赖人类棋谱或经验学习,而是通过自我对弈的再生的过程数据(即:棋局状态+落子+评分的三元组步骤数据),实现了零人类监督的强化学习,并最终完全碾压了人类顶尖棋手。DeepSeek的Zero研究也是如此,它表明在推理任务中,模型可以自主生成内部的过程数据,即思维链(CoT,Chain of Thought)序列,而无需人类标注。具体来说,推理模型最初以数学和代码为对象,因为这些领域本身就存

    52、在标准答案。从宏观上看,这其实是一种典型的端到端监督学习,因为输入端(数学题或代码题)和输出端(答案或代码运行结果)都是固定的、已知的。然而,从输入到输出的过程非常复杂,信息差很大,这就需要一个“思维链”作为桥梁。就像人类遇到难题时需要分解问题、逐步思考一样,模型也需要这样的过程。DeepSeek的研究发现,模型本身具有自主学习这种深度思考过程的能力,只要给予足够的时间和空间。如果没有这个空间,模型就只能直接从问题跳到答案,信息鸿沟大,随机性就强,成绩好不了。DeepSeek的解决方案是通过设计一个简单模板引导模型进行思考的解决方案是通过设计一个简单模板引导模型进行思考。具体说,就是在传统的监

    53、督数据question+answer里面人为增加了一个标签think:question+think+answer,通过强化学习的方式,模型会自主填空,再生过程数据question+cot+answer,以此迭代学习,cot中就自动出现了反思、自我校正等过程。这表明,只要给予模型思考的空间,它就能自主生成思维链。非常奇妙!给模型留够充分的自主学习空间给模型留够充分的自主学习空间 InfoQ:动态推理路径听起来像:动态推理路径听起来像AI自己“画思维导图”自己“画思维导图”但如何避免它中途跑偏?比如但如何避免它中途跑偏?比如写代码时突然开始写诗?写代码时突然开始写诗?李维博士李维博士:从目前的情况

    54、来看,这种可能性几乎不存在,或者概率极低,可以忽略不计。在deepseek公布他们的结果和研究细节之前,大家确实对这一点感到困惑:只靠结果监督,没有过程监督,深度思维不会乱套吗。在没有真正进行大规模强化学习实验之前,27 AIAI前线前线|特刊特刊 这确实是一个很大的疑问。就好比放风筝,你只牵着一根线,让风筝在天上自由飞翔,你会担心它会不会一头栽到地上。现在看来是过虑了。它不会走偏的原因在于,所有这些推理的强化学习,包括自主生成的推理思维链的数据,实际上都是建立在原有的头部大模型(如V3)的基础上的。这些大模型在海量数据的学习过程中,已经很好地掌握了如何把话说得顺溜。这种“顺溜”的背后是条理性

    55、。虽然不能说它完全等同于逻辑性,但至少不会偏离到完全不合理的情况。就像一个人说话很顺畅,背后的思想相对来说也是有条理的。所以,模型在原有大模型的基础上生成数据,经过筛选和强化学习迭代,会越来越条理模型在原有大模型的基础上生成数据,经过筛选和强化学习迭代,会越来越条理化化。这种思考方式本身是由大模型自然生成的,再加上有选择机制在不断强化过程中让它越来越符合条理地导向正确答案。话说回来,在研究人员真正做出成果之前,大家心里还是充满了怀疑和疑问,不知道让机器模拟学习人类的高阶智能这条路是否真的能走通。如果是一个能力弱的小模型,这条路是否能走通就很难说了。但V3本身是一个很强大的基座模型,在此基础上让

    56、模型自己生成思维链,虽然这些思维链并不总是很有条理,但并不影响最终结果。因为这是一个以结果为导向的强化学习过程,只要坚持用正确和错误的结果来控制强化学习过程,即使思维链中有时会出现一些偏差,但总体目标是一致的,最终还是能学到推理高难度题目的能力。再从更大的角度来看,我们发现当大模型发展到一定程度时,日常人类的数据已经基本用尽,高品质的数据也所剩无几。要进一步提升能力,就必须依靠模型自己生成数据。说到底,AI发展到现在,需要发展到现在,需要AI自己反哺自己才能进一步提升自己反哺自己才能进一步提升。在过去很长一段时间里,很多人对这一点存在疑问,担心模型自己教自己会导致退化,或者即使是一个好的模型教

    57、一个差的模型,也会有天花板。但现在回过头来看,再生数再生数据的重要性越来越大据的重要性越来越大。不仅是推理模型,就连多模态大模型也是如此。以Sora为例,我们知道视频和语言之间的自然对齐数据非常少,很难找到大量对视频情节进行详细讲解的数据。为了实现视频和语言的对齐,Sora选择了再生数据的道路,用自己的模型对整个的视频训练数据集进行了非常详细的标注。再生数据助力,Sora成为了第一个爆款的视频大模型。如今,国内的视频大模型也已经迎头赶上,如快手的可灵和字节的即梦,28 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 甚至比Sora还要更强一些,这背后也离不开再生数据的作

    58、用。InfoQ:另一方面,与:另一方面,与OpenAI的的o1相比,相比,DeepSeek R1还有一个显著亮点是将推理思维链还有一个显著亮点是将推理思维链应用到了语言文字的创作和风格模仿能力上,这一点可以详细介绍一下吗?应用到了语言文字的创作和风格模仿能力上,这一点可以详细介绍一下吗?李维博士李维博士:o1出来时,大家都知道它在数学和代码能力上有了显著提升,因为标准测试显示它达到了一个更高的水平。但大家没有意识到的是,这种推理能力,或者说“慢思维”能力,不仅仅在需要严格逻辑推理的领域表现出色,它在传统的语言文字创作方面同样可以大放异彩。传统上,语言文字能力一直是大模型的强项,大家都知道大模型

    59、生成的语言非常流畅。到了像4o或V3,它们写文章已经很顺了,似乎提升空间不大。然而,当要求模型写一篇古典诗歌,或者模仿鲁迅的文风时,之前的模型还做不到。直到R1推出,这些问题都得到了解决。从社会效应来看,这其实是非常厉害的。老实说,真正关心数学或代码的人并不多,虽然我们知道代码是今后几年的一个大方向,自动编程能改变世界。所有IT方面的东西归根结底都是软件,数字世界是由软件构成的。如果软件能力可以从手工编写变成模型辅助,甚至模型自主编写,这将极大地提高我们的生产力。这是大家都能看到的,但对普通老百姓来说却没有那么直观,因为他们面对的更多是写文章如何出彩这类任务。当当R1的文科能力被大家发现后,不

    60、仅仅是极客或者做软件应用的人看到了推理模型的好的文科能力被大家发现后,不仅仅是极客或者做软件应用的人看到了推理模型的好处,普通人也为之奔走相告处,普通人也为之奔走相告。一旦上手,任何人都可以成为诗人、文学家、哲学家,这种震撼是非常大的。在o1出来时,大家没有这种感觉,可能是因为OpenAI没有意识到,或者至少没有聚焦这一点。但DeepSeek在做代码和数学推理时,内部肯定已经意识到,这种“慢思维”在文字能力方面也可以提升一大步,尤其是在中文领域。大家都知道,中文的数据相对没有英文那么丰富,所以之前大模型写英文诗可以写得很漂亮,但写唐诗就不够好。这可能是因为中文数据要么量不够,要么品质不够,导致

    61、模型学习得不够到位。我们一直觉得这是一个遗憾,模型写诗有时押韵,有时不押韵,有时多一个字,少一个字,更不用说平仄,总是有问题。DeepSeek在这方面肯定下了功夫,其数据品质一定比行业标准更高、更好。29 AIAI前线前线|特刊特刊 但大模型光有数据还不够,另一条腿是推理时间的计算量另一条腿是推理时间的计算量。在用户实际使用时,增加计算量和思考时间,我们发现模型的文字能力显著提升了层次,这给大家的震撼非常大。思维链是模型“慢思考”的一个特征。一开始,我们可能想当然地认为,逻辑思维是它的核心,思维链就是要非常严谨地符合逻辑的每个步骤,以确保在数理化和代码中表现出色。但我们根本没想到,在文学创作这

    62、种领域,并不需要严谨的逻辑思维,它更多的是要有想象力,需要反复斟酌和修改。比如你要写一篇非常漂亮的文章,或者模仿一种风格,你需要考虑的方面很多,写古风诗词要考虑押韵、平仄、用词,考虑如何用古典文字表达现代概念等。为了写出一篇好文章,你需要周密地计划,这本质上是一种“planning”,而不仅仅是狭义的“reasoning”。可见,慢思维背后的真正价值在于为可见,慢思维背后的真正价值在于为最终结果做铺垫,制定计划和反复修正。最终结果做铺垫,制定计划和反复修正。无论任务是文科还是理科,只要是高难度的任务,都需要这种“planning”的时间,就像我们打草稿、反复校改一样,这些都是思维链的用武之地。

    63、InfoQ:思维链机制具体是如何产生的?:思维链机制具体是如何产生的?李维博士李维博士:DeepSeek之所以能够产生复杂的思维链,背后是因为它是基于头部大模型V3训练的,而V3所涵盖的知识比我们任何个体所了解的都要广博得多得多。在这基础上,关键点是要给模型留下空间,让它有自主学习的机会。作为设计者或开发者,需要设计出这样的空间,让模型自己去填补、去学习。DeepSeek就是这样实现的。它设计了一种格式,在输入问题question和输出答案answer之间,它留下了一个“思考”的空间,用标签think来标记:question+think+answer。这个think标签就是准备要学思维链(co

    64、t)的,虽然开始为空,Zero的research表明:只要留下think的标签,就给LLM自主填补cot留下了空间。此后他们“啊哈”地惊喜发现,越来越条理化的cot居然在GRPO组内选优的强化学习迭代算法的指引下,就自主学出来了。啥也不用做,模型就是自己要思考,而且能思考。LLM really wants/tends to think and think deep if given a chance.比如,它可能会在推理过程中发现自己前面的某个结论与已知事实不符,于是就会自我纠正,说:“不对,这里可能有偏差。”这种反思和自我纠正的能力,是模型在学习过程中自然形成的。可以想像研究者当时的兴奋之情

    65、,简直就是上帝给他们面授了天机。不但他们 30 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 “啊哈”,我们读论文追踪他们的人也感觉开了天目,不可思议,但it just works。Zero research的美丽就是没有人工的过程数据的任何干预,完完全全的纯强化出来的奇迹。从信息论的角度来说,思维链降低了困惑度(perplexity),搭建了从难题到答案之间的桥梁,使得得出正确结论的可能性增大,从而提高了模型的智能。推推理模型已经进入“平民化”时代理模型已经进入“平民化”时代 InfoQ:如果让您给程序员推荐一个:如果让您给程序员推荐一个最值得复现的最值得复现的De

    66、epSeek模块,会是哪个?比如各种模块,会是哪个?比如各种声称几十美元复制声称几十美元复制R1的的Aha moment?李维博士李维博士:如果让我推荐程序员群体最值得复现的DeepSeek模块,大概会是与Zero研究研究相关的部分相关的部分。这种复现并不是从全面能力上,而是证实了Zero研究中揭示的关键点机器确实能够自主学到反思能力或慢思维推理。这是OpenAI一直遮掩不让人知道的,也许他们早就悟出来了,但就是不公开。现在,我们看到至少有五六组不同的团队,用很少的资源就复现出了R1的这种反思能力。这不仅是一个有趣的实验,更关键的是,它标志着推理推理模型已经进入“平民化”时代模型已经进入“平民

    67、化”时代。以前,大家不知道推理模型是如何工作的,只知道需要大量的过程数据,模型才能学会慢思维。这被认为是一个难以跨越的门槛,因为过程数据很难获取,而且强化学习的不稳定性高、对数据要求也高,所以很多程序员觉得这条路很难走。但现在,我们知道可以绕过这个最繁难的过程数据,通过有限的资源复现这种“Aha moment”,证明慢思维能力是可以让模型自主学出来的。基于这个前提,如果你是一个行业专家(domain expert),在自己的项目或应用领域中,你会想:是否可以用这些技术在你的领域实现大幅提升?这是完全可能的。因为即使是最强大的大模型(如V3或4o),在具体场景中如果不经过优化,也只能达到60%7

    68、0%的正确率,而在real life应用场景中,经验告诉我们没有80%或85%以上的正确率,根本无法上线一个真正有价值的系统。从大模型的“开箱即用”(out-of-box)结果到真正能投入应用并产生价值,中间存在一个差距。以前,我们想到的唯一方法是收集领域数据进行微调。但现在,我们多了一条路:顺着推理模型的思路,让系统充分发挥推理阶段的慢思维能力,从而提升数据质量顺着推理模型的思路,让系统充分发挥推理阶段的慢思维能力,从而提升数据质量 31 AIAI前线前线|特刊特刊 到可接受甚至出彩的程度到可接受甚至出彩的程度。这条路似乎已经打通了。不过,我的码农朋友告诉我,他做了一个微调(SFT)与dee

    69、pseek式强化学习(RL)的对比实验,发现RL的确强过SFT,但RL训练目前的计算代价还是远远大于SFT。效果好于SFT可以理解,因为SFT的数据总是非常有限的,而RL自主再生的数据成功强化的话,会远远大于SFT数据。仔细看R1的设计,它是一个实用系统,不像Zero那么纯粹。Zero是一个研究项目,旨在证明可以排除人类干预来构建推理模型。但R1是为了实际应用,所以它结合了微调和强化学习:遵循他们自己创新的SFT+RL+SFT+RL的四阶段训练的pipeline。它在第一阶段是微调,使用了2,000条左右的人类过程数据来提高效率,他们称为“冷启动”。强化学习之后,又加入了微调和最后的偏好强化学

    70、习,以确保合适的数据配比和能力平衡,以及与人类偏好的对齐。这种设计是经过深思熟虑,可能经过了很多尝试和调整,最终呈现出的一个最佳实践。虽不好说R1的这种设计一定就是绝对的最佳方案,但它确实提供了一个很好的思路:现现在我们有两个工具在我们有两个工具SFT和和RL。如果能够将这两个工具很好地结合起来,互相补充,那么在实际应用场景中,我们就能构建出更好的系统。从更广泛的意义上说,DeepSeek的出现不仅是因为各种原因而短暂火爆,它更重要的作它更重要的作用是极大地加速了大模型向应用领域发展的速度用是极大地加速了大模型向应用领域发展的速度。这对整个行业来说是一个巨大的利好刺激。InfoQ:有人说大模型

    71、是“暴力美学”,但:有人说大模型是“暴力美学”,但OpenAI的前首席科学家、联合创始人的前首席科学家、联合创始人IIya说预说预训练到头了,怎么讲?推理模型出现的背景就是增加了又一个暴力美学的训练到头了,怎么讲?推理模型出现的背景就是增加了又一个暴力美学的scaling law吗?吗?李维博士李维博士:这更像是技术聚焦点的转移和技术创新的范式转变。大模型涉及三大块:首首先是预训练先是预训练,这是大模型的基础能力,从海量数据中学习基本规律;其次是后训练其次是后训练,最初主要是微调,OpenAI早期也用了一些强化学习(如RLHF)来对齐人类偏好,但到了Meta时,他们甚至放弃了典型的RLHF,代

    72、之以更简单的DPO,因为与很多人一样,他们玩不转。最后是推理阶段的工作最后是推理阶段的工作,即模型上线后与用户交互的阶段。32 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 这三个阶段理论上都可能找到资源投入与性能提升之间的正相关S曲线,即scaling laws的某种表现函数。在过去,预训练是最受重视的部分,大家认为只要数据量不断加大、模型规模足够大,能力就一定持续提升。LLM Scaling的底层逻辑是什么?为什么到了千亿tokens这种以前难以想象的数据规模,大模型依然显得吃不饱?为什么从千亿扩展到万亿tokens,scaling law依然有效?这个现象的关键

    73、在于LLM是序列学习(编码)和序列推理(解码)的系统。序列本身是一维的,但序列中蕴含的patterns和规律性却是高维的。举个例子:即使是简单的猫追老鼠这样的序列,背后可能涉及物种关系、捕食行为、空间运动等多个维度的知识。这种多维知识表现在序列层面,就会发生天然的组合爆炸。对大数据的大胃口正是应对这种组合爆炸的有效策略。然而,人类自然产生的高质量数据是有限的。预训练已经几乎吃尽了现有的高质量自然数据。业界开始意识到数据增长的困扰,性能提升也变得困难。GPT-5难产,据传投入大量算力却收效有限,这表明预训练可能遭遇了瓶颈预训练可能遭遇了瓶颈。于是,业界开始探索另外的AI智能增长曲线。强化学习的推

    74、理模型就是在这种背景下走到主流舞台的中心:应该在后训练中加入纯粹的强化学习在后训练中加入纯粹的强化学习。以前的强化学习依赖人类偏好,但这次是让模型在得出答案之前有更多思考时间,学习背后的规律。V3已经做得很好,但当时除了业界并没有在社会上引起太大轰动。直到R1出现,deepseek才真出圈了,成了春节后最受关注的大众话题,在海外也引发了热议和震惊。R1代表了一种新的范式。在R1之前,只有OpenAI出了o1这种推理模型,给人一种高不可攀的感觉,大家不知道如何跟进。然而,R1不仅复现了o1的能力,还更加透明、清晰。这种反差进一步凸显了R1作为开源大模型引领者的重要性。未未来脑洞来脑洞 InfoQ

    75、:DeepSeek乍看乍看就是工程上的极致化,为什么会引起全世界的轰动?它的获客速就是工程上的极致化,为什么会引起全世界的轰动?它的获客速度(一周上亿)超过了度(一周上亿)超过了ChatGPT核爆的时候?它的历史地位到底如何?核爆的时候?它的历史地位到底如何?李维博士李维博士:从我个人的体会和感受来说,大模型的发展历程中,ChatGPT的爆火是一个标志性事件。其实我们业内人在ChatGPT出现之前就开始关注大模型了,至少从GPT-3开 33 AIAI前线前线|特刊特刊 始吧。当时GPT-3的Playground出现,我们乐在其中,就已经感觉到一场风暴要来了。但从整个社会的感知来看,真正引发全社

    76、会震动的还是ChatGPT的出现,它像核爆一样震撼了我们,超出了所有人的预期。ChatGPT出来,我们就陷入了一种痴迷的状态。R1的出现,我认为是继ChatGPT之后的第二个重大震撼。当然,在ChatGPT和R1之间也出现了一些有影响力的大模型,比如4o,它也是一个了不起的里程碑。我们当时觉得ChatGPT已经很好了,3.5版本已经很出色了,但4o的出现证明了它还可以更好。我们一直在案头使用它。再后来出现了Sora,这种视频大模型也给人带来了震撼。我个人还特别喜欢一个叫Suno的音乐模型,它在音乐创作方面表现出色,让我觉得自己仿佛一夜之间就能成为音乐家,想写什么歌就写什么歌,还能配上自己的视频

    77、。这些模型都给人带来了不同阶段的震撼,但都没有R1这么强烈。如果让我排序的话,我认为R1的震撼力仅次于ChatGPT,甚至超过了4o和Sora所创造的轰动效应。R1的震撼感有点类似于当年ChatGPT刚出现时的感觉,让人痴迷。ChatGPT是开天辟地的大模型,R1总体上是一个追随者,尽管它有很多创新亮点,有些方面甚至超越了之前的模型,比如在古典诗词创作和文风模仿方面。作为追随者,能在太平洋两岸乃至全球引起如此大轰动,是奇迹般的成就。从实际效果来看,R1的产品化非常成功。它在一周内就获得了上亿客户,远远打破了ChatGPT所创造的记录,提升了整个社会对AI的感知度。此外,从地缘政治对技术应用的影

    78、响来看,国内很多用户一直渴望使用全世界最先进的大模型,比如GPT系列、Claude或Gemini,但常常够不着。而R1的出现,让人们不用担心国内外的限制。这些也都是促成R1快速普及的因素。InfoQ:您理想中:您理想中AI编程的终极形态是什么?是程序员对编程的终极形态是什么?是程序员对着着AI说“给我做个抖音”,它就说“给我做个抖音”,它就直接输出可部署的代码直接输出可部署的代码+运维方案吗运维方案吗 李维博士:总是有两类人李维博士:总是有两类人:怀疑派和乐观派怀疑派和乐观派。像Ilya这样的人,认为通用人工智能(AGI)已经迫在眉睫,超级智能(ASI)也在不远的未来,所以现在最大的问题是确保

    79、超级智所以现在最大的问题是确保超级智能的安全性能的安全性。Anthropic的CEO预计,在未来3到5年内,大模型将实现真正的突破,不仅仅是目前让我 34 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 们震撼的表现和demos,而是真正能在生产力上对整个社会带来革命性的改变。他们所说的,归根结底就是AI能规模化平替人类的体力劳动和脑力劳动能规模化平替人类的体力劳动和脑力劳动。目前大模型虽然很热闹,但在社会生活中的实际应用还远未达到上一代移动互联网平台的水平。上一代的super apps,比如美团、滴滴、小红书、抖音等,它们改变了我们日常生后的主要方面,无论吃穿住行还是

    80、通信和娱乐,它们最大程度缩短了供应商和客户之间的距离,这些价值我们每天都能感受到。而玩大模型虽然有趣,但在生活层面的实际价值还不明显,应用层面还处于爆发的前夕。值得指出的是,DeepSeek的出现降低了大模型应用门槛,为应用铺平了道路,虽然目前我们还没有进入应用真正爆发的时代。未来,当AI应用真正爆发时,会是什么时候、什么样子呢?我认为,最终目标是AI在脑力劳动和体力劳动中全面代替人类。大模型对白领阶层的冲击,迹象已经很明显,甚至连程序员群体都难幸免。体力劳动方面,具身智能发展也很快,无论是人形机器人还是机械手,都在逐步代替人类的体力劳动。当然,这也会带来副作用,比如大量工作岗位消失,社会如何

    81、适应这种生产力大发展但缺乏工作岗位的状态,是另一个层面的讨论。但从AI本性和最终目标来看,AI的发展可的发展可以有两个里程碑:一是何时能替代人类以有两个里程碑:一是何时能替代人类50%的工作的工作,让社会只需要一半人工作,剩下的人通过基本收入保障(UBI)等方式维持一个体面的自由生活,在我看来这就是AGI到老的标志;二是何时能替代二是何时能替代90%的人类工作的人类工作,这可能算是所谓的超级智能(ASI)出现的时候,某种意义上的技术共产主义。35 AIAI前线前线|特刊特刊 DeepSeekDeepSeek的组织文化:创新与商业化的平的组织文化:创新与商业化的平衡衡 本文整理自InfoQ策划的

    82、DeepSeek系列直播第三期节目。在直播中,极客邦科技创始人&CEO霍太稳对话了整数智能创始人&CEO、TGO鲲鹏会会员林群书,HyperspaceOS创始人&CEO杨超,以及心芯相栖联合创始人&CEO吴昊潜,深入探讨了DeepSeek爆火背后,浙大系创业者是如何理解和践行创新型组织文化的。大家认为,技术人应该充分投入到技术创新和商业化当中,他们往往更清楚技术的边界,能够更准确地判断哪些技术适合商业化以及为了实现商业化技术需要做到什么程度。比如,DeepSeek创始人梁文峰如今仍然会亲自参与代码建设,这种“创始人模式”(Founder Mode)非常值得创业公司借鉴。下文为直播部分内容精选,

    83、完整直播回放下文为直播部分内容精选,完整直播回放&最新直播预约可关注“最新直播预约可关注“AI前线视频号”查看。前线视频号”查看。36 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 DeepSeek等“六小龙”出现在杭州是偶然吗?等“六小龙”出现在杭州是偶然吗?InfoQ:你所了解的:你所了解的DeepSeek组织文化长什么样?它对于组织文化长什么样?它对于DeepSeek的成功有哪些影响?的成功有哪些影响?林群书林群书:此前我们也与DeepSeek的伙伴们有过交流,可以肯定的是,他们的成功背后,组织文化起到了关键作用。比如,DeepSeek创始人梁文峰会亲自参与代码

    84、建设创始人梁文峰会亲自参与代码建设,这种“创始人模式”(Founder Mode)非常值得借鉴。创始人冲在前线,亲自解决问题,了解每个岗位的需求,从而更高效地配置资源。这不仅能快速解决问题,还能为公司争取更多资源,解决其他同事难以应对的难题。此外,团队成员需要能够独当一面,完成阶段性成果的交付,这也是他们文化的重要组成部分。InfoQ:杭州“六小龙”中:杭州“六小龙”中DeepSeek、云深处科技和群核科技的创始人都毕业于浙江大、云深处科技和群核科技的创始人都毕业于浙江大学,同为浙大系创业者,可以分享一下浙大哪些文化基因对你们的影响最大?各位所在学,同为浙大系创业者,可以分享一下浙大哪些文化基

    85、因对你们的影响最大?各位所在的企业有什么相似的组织文化吗?的企业有什么相似的组织文化吗?林群书林群书:浙大系创业企业的组织文化有一些共通之处,其中最显著的是“求是创新”中最显著的是“求是创新”的精神。与众多浙大创始人交流后,我们能感受到大家对“什么是重要的事情”以及“如何做对这些事情”的深刻思考。以我们公司(整数智能)为例,我们专注于做正确的事情,并将其做好。比如在智能驾驶数据标注领域,当行业还在比拼工具先进性或价格时,我们就开始思考如何从根本上改变行业。于是,我们研发了行业领先的4D标注工具,将数据处理效率提升了百倍以上。这正是我们落地组织文化的一个体现。在实践这种组织文化时,创始人需要具备

    86、强大的学习能力。例如,大模型的出现带来了新的数据需求,创始人需要快速学习最新的算法技术和数据需求。像reasoning能力的推出,对数据集的构造提出了新的要求,创始人需要了解如何构建适合的多模态和代码生成数据集,以提升模型能力。这种快速学习和抓住本质的能力,是创始人在推动组织文化落地时的关键。吴昊潜吴昊潜:浙江大学的“求是创新”精神对我也影响很大。创业的动机有很多种,有些人可能是为了追求名利,或者享受创业过程中的高光时刻。但如果遵循“求是创新”的精神,我们在创业和做产品时,就会更多地思考自己是否为世界带来了真正的、客观的积更多地思考自己是否为世界带来了真正的、客观的积极影响极影响。这种动力不是

    87、来自于外界的认可或赞美,而是来自于实实在在地为社会和世界 37 AIAI前线前线|特刊特刊 做出贡献。比如,我们希望让人们的生活变得更开心,哪怕在经济不景气的时候,也能通过我们的产品感受到快乐。这种追求更实在、更有意义。比如,对于心芯相栖来说,我们更倾向于专注于产品本身,关注用户的体验,而不是在意外界的评价或行业的看法。大家可以看到,DeepSeek此前也一直比较低调。我确实觉得这种风格是浙江大学文化基因对我们的影响。InfoQ:杭州和其他地区的相比,创业氛围有何不同?为什么能够培养出那么多创新创:杭州和其他地区的相比,创业氛围有何不同?为什么能够培养出那么多创新创业者?国内和海外(如硅谷)的

    88、文化又有什么不同?业者?国内和海外(如硅谷)的文化又有什么不同?林群书林群书:很多人都在探讨,为什么有些地方没有像杭州那样孕育出“六小龙”。我觉得现在大家可能有点过于焦虑了,因为这些企业的诞生其实也有一定的偶然性。但从杭州的角度来看,它确实有几个做得非常出色的地方。科技行业的竞争,归根结底还是看人才密度和资金的支持科技行业的竞争,归根结底还是看人才密度和资金的支持。比如硅谷,初创企业能蓬勃发展。这主要得益于两点:一是当地强大的投融资网络,企业创始人能拿到优质的融资资源,融资条款对创始人也非常友好,这使得硅谷的创业者数量明显多于其他地方;二是硅谷的人才密度极高,开车十几分钟就能遇到各领域的顶尖人

    89、物,甚至教科书上的人物。在斯坦福和硅谷,你很容易在活动中见到这些大佬,他们也很亲切,没有距离感。这两点良好的投融资环境和高人才密度对创业者来说非常重要。杭州在这方面也做得很好。浙商资本丰富,融资环境良好浙商资本丰富,融资环境良好,企业能有不少拿到资金支持的机会。此外,杭州政府出台了很多贴心的人才政策,比如小到刚来求职的年轻人可以申请七天免费住宿。这些细节让杭州在吸引人才方面很有竞争力。另外,浙大和其他高校的相比,它的休学创业政策也非常灵活浙大和其他高校的相比,它的休学创业政策也非常灵活。我是2020年开始休学创业的,和其他创始人交流时发现,他们所在的学校大多没有浙大这样灵活的政策。他们要么是读

    90、完书后再创业,但这样会错过很多机会;要么是直接辍学创业,但风险很大。而浙大允许我们先休学,保留学业,随时可以回去继续读书。这种政策让我们可以全身心投入到创业中,因为即使失败了,还有机会重新回到学校。而且,我们的第一笔资金也是来自浙大。当时我们参加了全国许多创业比赛,第一年攒下的奖金就有100多万。浙大不仅提供了丰富的创业经验分享和知识库,还有许多创业成功的师兄师姐回校分享 38 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 经验。比如浙大的“求是强鹰”组织,每年都会邀请杰出浙商导师指导学生,带他们了解成熟公司的运作模式,与其他浙商交流学习。浙大的创业支持体系非常完善,

    91、历届创业成功的师兄师姐也会关照后辈。我们在融资时,很容易在浙大校友圈里找到合适的资本。这些都体现了浙大在创业教育和创业支持方面的独特优势。杨超杨超:前段时间我也去了硅谷交流,感受非常震撼,主要来自几个方面。首先,硅谷与我们中国当前的经济情况形成了鲜明对比。我跟当地一位律师交流时了解到,当地有1万家初创公司拿到融资,而他服务的客户就有100家。这与我们当前中国的资本市场形成了强烈对比,那边的资金尤其充裕,尤其是在AI领域,大部分公司都能获得大量投资。我在硅谷的一位学姐在一家投资公司担任合伙人。她告诉我,如果在硅谷,一家以产品驱动的AI相关公司,只要营收超过100万美元,估值就能达到50到100倍

    92、的市销率,这意味着公司估值可以达到1亿美元。所以,我觉得硅谷目前仍然是全球最适合年轻人从事AI创业的地方。创创新和商业化注定“水火不容”吗?新和商业化注定“水火不容”吗?InfoQ:接:接下来,我们来谈谈创新和商业化相关的话题,很多人认为创业、商业化和技下来,我们来谈谈创新和商业化相关的话题,很多人认为创业、商业化和技术之间是相互制约的关系,大家对这个问题怎么看?商业化是不是技术人创业的短板?术之间是相互制约的关系,大家对这个问题怎么看?商业化是不是技术人创业的短板?吴昊潜吴昊潜:我认为创新和商业化之间并不矛盾。创新本身包括产品创新、技术创新以及商业模式创新。当出现新的技术变量时,我们其实有机

    93、会在商业模式上进行创新。比如,我们现在做虚拟陪伴AI产品。当大家都在做AI,尤其是长期陪伴类产品时,这就意味着存在新的商业化机会。以前常见的商业化手段是广告、电商等互联网模式,但当产品转向AI驱动的陪伴型应用时,互联网的商业模式就不再适用了。比如,虚拟陪伴产品无法简单地插入广告或电商。这时,就需要探索新的商业模式。比如,虚拟陪伴可以积累更丰富的用户数据,从而更懂用户,这种“懂你”的能力本身就具有商业价值。但如何将这种价值转化为商业收益,就需要进一步探索和设计。所以,创新能力体现在产品创新、技术创新和商业模式创新三个方面,它们并不矛盾。不过,技术人员是否具备商业能力确实是个问题。如果纯从技术背景

    94、出发,可能在商业 39 AIAI前线前线|特刊特刊 理解上会存在短板。要真正理解商业,可能需要接触更多商业案例,甚至在投资机构工作过一段时间。比如,理解商业壁垒这类问题,从技术和产品角度出发可能缺乏足够的视角和能力,这些短板可以在后续通过学习和实践来弥补。林群书林群书:现在我遇到很多大区的CEO,他们本身也是技术出身。其实,做技术的人往往做技术的人往往更清楚技术的边界,能够更准确地判断哪些技术适合商业化,以及为了实现商业化,技更清楚技术的边界,能够更准确地判断哪些技术适合商业化,以及为了实现商业化,技术需要达到何种程度术需要达到何种程度。因为如果持续投入技术研究,而忽略其他方面,可能会导致投入

    95、产出比并不理想。所以,技术背景的人需要把握一个合适的时间节点或投入节点,比如将第一版产品推向市场,获得正面反馈和现金流后,再将收益投入到第二期研发中。以我们自己做数据工程平台为例,在判断哪些工具或功能需要开发,以及哪些是下一阶段的核心竞争力时,技术背景会让我们更容易做出准确判断。此外,只有当我们开发出独一无二的产品时,才能避免低质量的价格竞争。因为客户只能从我们这里获得这些独特的工具,所以在价格上他们也不会过于苛求。“赛马机制”在赛马机制”在AI时代失效了吗?时代失效了吗?InfoQ:AI领域人才非常关键,领域人才非常关键,DeepSeek同样聚焦了大量顶尖人才,那么,目前大家究同样聚焦了大量

    96、顶尖人才,那么,目前大家究竟需要什么样的人才,又是如何吸引和培养所需的人才的?竟需要什么样的人才,又是如何吸引和培养所需的人才的?林群书林群书:顶尖人才对技术创新至关重要。目前,既懂人工智能又懂行业属性的复合型人才稀缺。我们倾向于招聘有行业背景的人才,并通过深度培训,将其培养成兼具行业属性和人工智能技术能力的人才。创业者需要思考如何吸引和培养顶尖人才。比如,DeepSeek以AGI为目标,吸引了追求解决世界级难题的人才。我们也在内部鼓励员工参与世界级项目,这对有技术追求的人才极具吸引力。杨超杨超:我认为在AI时代最重要的品质是持续学习的精神和对学术的钻研追求。我们之前招聘过很多人,包括不少名校

    97、毕业的实习生。我发现,面试中虽然可以通过做题来考察能力,但这并不能完全体现一个人的潜力。有些人在面试中表现出色,但入职后成长缓慢;而另一些人则能快速进步。那些善于自我学习、对AI充满热情的人,进步尤其快。所以,我们更倾向于招聘对AI真正感兴趣、具备钻研和学习能力的人。比如,我们曾招过一个特别喜欢数学的人,他的微信号大概是“沉醉于数学”之类的,每天都在自我提 40 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 升,进步非常快,所以很快从实习生逐渐成长为某个领域的专家。我们非常希望找到这样的人。InfoQ:过去,互联网大厂基本非常信奉“赛马机制”,因为他们拥有大量的人才冗

    98、余,:过去,互联网大厂基本非常信奉“赛马机制”,因为他们拥有大量的人才冗余,可以通过“赛马机制”来筛选和激励人才。但对于创业公司来说,“赛马机制”可能并可以通过“赛马机制”来筛选和激励人才。但对于创业公司来说,“赛马机制”可能并不适用,比如,像不适用,比如,像DeepSeek这样的团队就更注重团队的协作和凝聚力。那么,站在不同这样的团队就更注重团队的协作和凝聚力。那么,站在不同的公司规模和发展阶段,管理上应该分别注重什么样的事情?的公司规模和发展阶段,管理上应该分别注重什么样的事情?杨超杨超:我认为这可能与不同公司的创始人、发展阶段和商业模式都有关系。在我看来,如果创始人本身很懂技术,且公司是

    99、技术驱动的,比如像DeepSeek团队或ChatGPT早期团队,他们的成功主要依赖于硬核科技,而非单纯的产品设计,那么这种情况下就不需要“赛马机制”。因为创始人能够很好地判断哪些人才是最适合的,并围绕这些人才构建公司、团队和文化。只要方向正确,人才到位,就可以朝着明确的目标前进。对于很多商业模式来说,竞争可能并不完全依赖于硬核科技,而是更多地体现在产品创新上,比如用户更喜欢短视频向上滑还是向左滑,这种主观的用户体验很难用单一指标评判。在这种情况下,公司老板可能很难仅凭直觉判断哪个团队的想法更好,因此可能公司老板可能很难仅凭直觉判断哪个团队的想法更好,因此可能会引入“赛马机制”会引入“赛马机制”

    100、。但如果老板懂技术,能够明确判断方向,那么与其分散资源,不如集中资源全力支持一个团队,这样效率会更高。吴昊潜吴昊潜:我们肯定不会采用“赛马机制”即使公司发展到很大规模也不会。我认为,只只要创始人还愿意参与业务,“赛马机制”就不是最佳选择要创始人还愿意参与业务,“赛马机制”就不是最佳选择。首先,赛马会导致公司资源分散,至少要把资源分成几份。其次,赛马团队可能缺乏足够的勇气去冒险。在我看来,其次,赛马团队可能缺乏足够的勇气去冒险。在我看来,一家公司可能只有创始人愿意承担这种风险和责任一家公司可能只有创始人愿意承担这种风险和责任。如果采用赛马机制,其他人很难有动力和勇气去承担巨大风险,去做真正有创意

    101、的事情。在产品设计方面,一些细节可以通过A/B测试来优化,比如交互方式或按钮位置。但在做更重要的、根本性的产品设计或业务方向判断时,就需要依靠创始人的直觉,并通过科学方法去验证这种直觉。但谁来负责、谁来组织?我认为这肯定要由创始人来主导,否则其他人既没有足够的动力,也没有相应的责任和能力范围去推动这件事。我很难想象一个创始人什么都不做。在我的理解中,一家正常的创业公司就应该由创始 41 AIAI前线前线|特刊特刊 人亲自把握方向,甚至参与其中。除非他把自己当作老板,而不是创始人,仅仅提供资源,让其他人去做决策和执行。但如果他真的把公司当作一家创业公司,想做一件伟大且创新的事情,那就不可能采用那

    102、种模式,而是要亲自参与和引领方向。如如何在何在AI时代不被淘汰?时代不被淘汰?InfoQ:对于普通人来说,如何快速适应人工智能时代?:对于普通人来说,如何快速适应人工智能时代?杨超杨超:对于普通人来说,最简单的方法就是先从使用最简单的方法就是先从使用DeepSeek这类工具开始这类工具开始。因为在使用过程中,你会自然地发现它能为你带来许多以前难以想象的便利。比如,我经常用它来写文章,这只是一个很简单的应用。更重要的是,我还会用它辅助思考问题我可以把一个问题抛给它,现在的Deepseek、ChatGPT等工具已经具备了相当高的智能,有点像我的朋友或助手。它可以和我对话,帮助我进行头脑风暴,这也是

    103、一个很好的方式。当然,市面上还有很多其他工具,比如帮你做PPT、处理各种事务的工具。如果你使用的AI工具比同龄人、竞争对手或职位上其他人更多,那么你就已经在被AI赋能了。你可以被视为一个“升级版”的自己。这会让你的工作效率大幅提升,并且在这个持续进步的过程中,你还会学到新的技能。就像运动一样,如果你经常打球,你的技术自然会变好。同样,如果你多使用这些工具,就会形成一种条件反射,让你在未来的生活、学习和工作中,更自然地考虑用这种方式来提高效率、提升生活质量,同时节省时间,把更多精力投入到更有意义的事情上。InfoQ:有人说,打败你的不是:有人说,打败你的不是AI,而是那些善,而是那些善于使用于使

    104、用AI的同事。如果你还在犹豫,你的的同事。如果你还在犹豫,你的同事可能已经借助同事可能已经借助AI超越了你。那你们在日常工作中用到了哪些与超越了你。那你们在日常工作中用到了哪些与AI相关的工具?有没相关的工具?有没有什么使用小技巧可以跟大家分享?有什么使用小技巧可以跟大家分享?吴昊潜吴昊潜:我的工作状态可以从几个方面反映出来。首先,在编程时我会用到在编程时我会用到AI工具工具。比如我会先将需求告诉ChatGPT,它会帮我搭建一个框架。而在实际编码时,我会使用cursor,因为它是一个交互性更好的AI代码编辑器。我们公司会给所有员工开通cursor账号,大家都用它来写代码。42 DeepSeek

    105、DeepSeek:AIAI赛道的超级引擎赛道的超级引擎 其次,在产品设计阶段,我也会让ChatGPT参与进来。有时候我们在思考问题时比较粗略,需要具体的案例和细节,这时我会让ChatGPT帮忙完善这些内容,甚至在搭建AI工作流的Prompt时,也会用另一个模型来协助我。另外,在公司战略思考时,一个人的效率可能较低,我会通过对话式的方式借助AI工具来帮助自己梳理思路。现在,Deepseek用得会更多一些。林群书林群书:我们最近在拓展营销方面的工作,拓展营销方面的工作,SEO优化时需要大量行业内干货和博客内容优化时需要大量行业内干货和博客内容。以前这些内容都靠人工撰写,速度较慢,而且遇到不熟悉的领

    106、域还得自己去研究。现在有了DeepSeek这样的大模型,内容不仅写得快,而且更有深度,有时甚至比我们自己研究半天写出来的效果更好。所以现在我们在做SEO优化博客文章时,基本都会直接借助大模型的能力,这是我们目前用得比较多的场景。另外,在编程方面,大模型也帮助我们节省了不少时间。为了让大家更好地利用AI提升效率,我们在团队内部搭建了一个方便使用的环境,让大家都能直接使用这些AI能力。后来我们发现,不同部门可能需要不同的最佳实践方法,所以我们开始组织分享会。每个部门会派一个人分享他们在岗位上如何利用大模型提升工作产出或成果。通过这样的分享,大家能自然而然地找到适合自己部门的最佳实践方法。InfoQ

    107、:对于广大技术从业者,在:对于广大技术从业者,在AI时代又如何保持较高的竞争力?时代又如何保持较高的竞争力?吴昊潜吴昊潜:我认为在公司内卷中获胜的根本性策略是离开内卷环境,去创业公司。我建议大家多使用一些AI工具。AI工具确实能大幅提升生产力。过去大家可能还在做AI基础设施的铺垫,但今年已经有很多非常好用的AI工具,比如用于编程和多模态视觉图像生成的工具。举个例子,我们现在在游戏开发中,很多视觉美术设计和生图都是通过AI生成的,我鼓励大家广泛使用这些工具。林群书林群书:我很认同昊潜刚才的观点,加入加入AI创业公司是最好的选择创业公司是最好的选择。因为在这样的环境中,你置身于一个复杂多变的场景,

    108、每天都要面对各种不同的挑战。这种环境会促使你主动去挑选最适合的AI工具,并将其与自己的工作流程相结合,想尽办法利用AI的能力提升工作效率。只有在不断的实践中,通过挑选和熟悉各种AI工具,将它们融入到你的 43 AIAI前线前线|特刊特刊 工作工具箱中,你的竞争力才会在日常积累中自然提升。杨超杨超:上次我去拜访DeepSeek团队时,他们告诉我,梁文峰现在还亲自写代码。我听了之后很受触动,他们的公司已经做得这么大了,创始人依然亲自写代码。这让我有点汗颜,我觉得我们这些技术从业者也应该多写代码,而且要聪明地写代码技术从业者也应该多写代码,而且要聪明地写代码。现在有很多好用的代码工具,都可以尝试。比

    109、如我这次去硅谷,用了一个初创公司的代码辅助工具,过年期间我用它写了几天代码,感觉非常爽。它不仅能读取一页代码帮你优化,还能读取整个项目,优化效率大幅提升。以前写代码很痛苦,现在却变成了一种享受。我觉得大家还是要多写代码,多学习新知识。比如可以多看看极客时间上这些优质的学习材料,不断进步。44 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 AIAI开源新趋势:开源新趋势:DeepSeekDeepSeek的决策与影响的决策与影响 作者:王闻宇 此前,Meta首席人工智能科学家杨立昆(Yann LeCun)表示,DeepSeek的成功带来的最大启示是保持AI模型开源的重要性

    110、,这样每个人都能从中受益。他表示,这并不是中国的人工智能“超越美国”,而是“开源模型战胜了专有模型”。那么,事实确实如此吗?本文整理自InfoQ策划的DeepSeek系列直播第四期节目。在直播中,极客邦科技创始人&CEO霍太稳对话PPIO派欧云联合创始人&CTO、TGO鲲鹏会学员王闻宇,深入探讨了DeepSeek爆火背后,开源策略对AI企业商业模式的影响,以及开源与闭源路线带来的思考。在王闻宇看来,除了在模型训练算法和工程层面的突破外,DeepSeek在AI基础设施方面的重要创新,使得许多AI基础设施公司能够探索降低成本和提升性能的方法。而推 45 AIAI前线前线|特刊特刊 理成本的降低将使

    111、得AI大规模应用的门槛变低。当AI推理成本实现十倍、百倍甚至千倍的降低时,AI应用将迎来爆发式增长。下文为直播部分内容精选,完整直播回放下文为直播部分内容精选,完整直播回放&最新直播预约可关注“最新直播预约可关注“AI前线视频号”查看。前线视频号”查看。以下为王闻宇的分享实录部分(经编辑):以下为王闻宇的分享实录部分(经编辑):我们先来回顾一下DeepSeek爆火的原因。在过去两个月,DeepSeek发布了V3和R1两个模型。V3模型对标了OpenAI最强的多模态模型4o,而R1则对标了OpenAI的深度思考模型o1。DeepSeek的这两个模型不仅在性能上与OpenAI相媲美,甚至在某些场景

    112、下表现更优,比如在经典问题“3.11和3.9哪个更大”上,DeepSeek能答对,而OpenAI的模型却会答错。总结DeepSeek成功的原因,主要有三点:1.DeepSeek的模型在评测数据集上的表现非常出色,V3和R1的评分都超过了OpenAI的对应模型。这证明了其技术实力与OpenAI相当。2.DeepSeek的成本极低。从训练角度看,其论文显示总训练成本约为500万美元,相当于Meta一位高管的年薪。相比之下,OpenAI的模型成本要高得多。在推理成本上,DeepSeek的R1模型仅为OpenAI的1/30,V3模型为4o的1/10。即使OpenAI在DeepSeek发布后紧急推出了O

    113、3 mini模型,但成本依然高于DeepSeek。3.最后,DeepSeek的开源策略是其备受关注的真正原因。它不仅对标了OpenAI的王牌模型,还通过开源“解密”了OpenAI的核心技术。DeepSeek在开源中展现了诸多创新,例如混合质量模型Moe、多头潜在注意力机制MLA,以及强化学习中的GRPO算法,这些都优于OpenAI所使用的PPO算法。此外,DeepSeek还开发了MTP多token预测机制,进一步优化了性能。这些技术不仅揭示了OpenAI的技术思路,还在此基础上进行了核心优化。我认为,DeepSeek成功的最大原因并非单纯的效果媲美OpenAI或成本更低,而是它通过开源将这些技

    114、术公之于众。如果DeepSeek没有开源,它可能不会引起全球如此广泛的关注。开源不仅让技术更加透明,还推动了整个行业的技术进步。46 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 开开源与闭源的思考源与闭源的思考 有些公司专注于开源,而有些公司则选择闭源。在我看来,大语言模型的开源与传统开源项目有很大不同。传统开源本质上是一种工程师之间的协作方式,但大语言模型的开源则不然。首先,大语言模型开源的核心是模型权重。其次,开源内容还包括技术论文、训练细节以及部分工程代码,这些可以让开发者复现模型。在模型开发过程中,大语言模型往往由单一公司主导,不存在协作机制。只有在开源后,

    115、社区才会参与推理、再训练和微调(fine-tuning)。因此,大语言模型的开源性质与传统开源存在显著差异,这种差异也决定了它们的发展方向。从2023年LLaMA发布开始,开源模型一直在追赶闭源模型。随着时间推移,开源模型的表现逐渐逼近闭源模型。截至2024年7月,开源模型的表现已经与闭源模型非常接近,差距正在缩小,未来这种差距会更小。47 AIAI前线前线|特刊特刊 DeepSeek的出现让其它巨头陷入焦虑。OpenAI紧急发布了O3 mini,并公布了GPT 4.5和GPT 5的路线图,承诺在2025年发布GPT 5。Meta也从犹豫是否开源LLaMA 4转变为确定在2025年上半年开源,

    116、并成立了四个“作战工作室”,专门应对中国模型的挑战。百度也宣布下一代模型将开源。2月18日,埃隆马斯克将发布Grok 3。如今,各大公司都在加速发展,意识到开源带来的竞争压力。开开源带来的价值源带来的价值 开源对于整个社会和开发者来说,带来了诸多好处:第一,开源能够快速降低推理成本第一,开源能够快速降低推理成本。一旦模型向社会开放,众多公司就会参与研究如何部署和优化,从而降低人工成本、提升模型性能,进而迅速拉低处理成本。第二,开源赋予了开发者更大的灵活性第二,开源赋予了开发者更大的灵活性。开发者可以选择在公有云、专有服务器或内网环境中部署模型,不用担心性能限制或数据安全问题,能够更加放心地使用

    117、。第三,开源还具备很强的可玩性第三,开源还具备很强的可玩性。开发者可以使用自己的特色数据进行微调(fine-tuning)或再训练,从而创建出个性化的模型。第四,社区的贡献也不容忽视第四,社区的贡献也不容忽视。开源项目发布后,会迅速吸引大量开发者参与,他们利 48 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 用各种数据集进行微调或模型蒸馏(distillation),创造出适用于不同场景的模型供他人选择。开源的最大价值在于,它将原本只有头部企业(如OpenAI)才能参与的技术平民化,让更多人能够参与到其中。开源大模型推动了技术平权。随着更多人参与、更多需求被满足以及

    118、不断的迭代优化,开源项目逐渐形成了一个正向循环,其影响力也越来越大。开源项目的核心优势不在于技术壁垒,而在于生态的开放性和包容性。这种开放性吸引了大量参与者,构建了强大的生态壁垒。因此,我预测在2025年,会有更多更好的开源模型出现。开源项目的成功依赖于其开放性和生态建设,最终能够胜出的开源大模型一定是极度开最终能够胜出的开源大模型一定是极度开放和包容的,并且能够构建起强大的生态壁垒放和包容的,并且能够构建起强大的生态壁垒。最终,开源大模型可能只会剩下少数几个,甚至只有1-2个,就像服务器操作系统的Linux、移动操作系统的Android一样,因为生态的壁垒,不可能容纳很多家。对对AI Inf

    119、ra的影响的影响 DeepSeek的爆火对AI基础设施(AI Infra)的影响非常显著。在1月17日,英伟达的股价出现了单日17%的最大跌幅。当时有消息显示,从DeepSeek公开的资料看、训练所用显卡数量极少,成本也极低。这使得投资者意识到,原来训练大模型并不需要堆积大量的显卡,这一认知瞬间改变了市场对英伟达未来预期的判断。49 AIAI前线前线|特刊特刊 除了在模型训练算法和工程层面的突破外,DeepSeek在AI基础设施方面也有重要创新。例如,DeepSeek在某些算子中直接用PTX(Parallel Thread Execution,可以简单理解为GPU的汇编语言)进行编程来提高性能

    120、。之前网上有文章称DeepSeek绕开了CUDA,其实这种说法并不准确,因为PTX也是Cuda生态的一部份。这充分说明了DeepSeek把性能做到了极致。此外,DeepSeek在训练过程中大量使用了FP8精度浮点数,这大大加快了训练速度,减少了GPU数量的需求。这种高效的训练方式为AI基础设施领域带来了新的思路。50 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 开源模型的出现,使得许多AI基础设施公司能够探索降低成本和提升性能的方法。比如我们公司,PPIO派欧云,就可以通过研究开源的模型权重,代码,论文,可以尝试各种推理优化方案,做各种各样的优化实验,最终几乎都能找

    121、到无损且效果良好的解决方案。但如果是闭源项目,就只有模型公司自己来优化性能。这种模式下,不同公司会根据自身需求选择不同的部署方案:有些追求高性能,用贵的卡,跑较少的Batch Size,价格可能较高;反之,有些则追求低成本,用廉价的卡,跑较高的Batch Size,性能相对较低。这种多样化的选择为开发者提供了灵活性,也促使各公司相互竞争,进一步降低推理成本。相比之下,闭源公司在这方面可能缺乏动力,这也是开源生态带来的优势之一。以我们PPIO派欧云公司为例,我们上线了DeepSeek满血版的API,采用全参数,未进行INT8量化,以确保性能无损。此外,我们还推出了专属的DeepSeek容器服务,

    122、用户只需一键操作,即可快速启动GPU,并部署专属模式,给出专属于开发者的API接口。另外对于普通用户,低代码开发者,我们已经接入了多个应用(如Dify,FastGPT,Chatbox,Cher-ryStudio等),用户可以在设置模型参数时选择PPIO派欧云的API服务。近期,我们还推出了邀请码活动,新用户将获得5000万token(用我的邀请码MWMLW8),5000w的token足够开发者能享受我们的API服务较长时间了。应应用和新趋势用和新趋势 最近,DeepSeek的应用趋势正在发生变化。微信正在内灰度测试接入DeepSeek,百度地图也上线了基于地理位置的深度思考搜索。这些应用主动接

    123、入DeepSeek的背后,核心原因之一在于其推理成本的大幅下降。51 AIAI前线前线|特刊特刊 我之前提过AI推理第一性原理:AI单位需求的推理成本,当实现了10倍/100倍/1000倍优化后,带来AI推理应用的爆发。推理成本的降低必然解锁更多AI应用个场景,而无需担心成本问题。从经济学角度看,永恒的规律,“Affordability is all you need”(便宜就是你所要的),就像移动互联网时代,大部分APP都是免费的,这吸引了大量用户,而开发这些App的企业则通过广告模式盈利。随着AI推理成本的下降,未来会有更多AI应用采用免费模式,而非订阅模式。这种模式将因为用户的大规模看广

    124、告的方来,获得收入来实现盈利,这才是互联网应有的形态。我认为,免费的免费的AI时代即将到来时代即将到来。随着用户数量的激增和应用场景的不断拓展,推理的用量将很快超过训练。据TIRISARearch预测,到2026或2027年,推理市场的规模可能会达到训练市场的20倍。开源技术的结合和私有部署的普及,将为应用市场带来巨大的进步。总总结结 总而言之,回顾一下我的所有观点:DeepSeek的成功源于效果、成本和开源三者的结合。52 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 开源与闭源之间的差距正在缩小,未来可能会进一步减小。开源不仅加速了AI基础设施技术的发展,还推动了

    125、性能提升和成本降低。当推理成本降至足够低时,AI应用将进入免费时代。推理算力的用量也将远超训练算力的开销。以下为对话实录部分(经编辑):以下为对话实录部分(经编辑):InfoQ:当前主流开源模型的推理性能表现如何,尤其是在延迟、吞吐量和准确性这些:当前主流开源模型的推理性能表现如何,尤其是在延迟、吞吐量和准确性这些关键指标上,与闭源模型相比,差异是否显著?关键指标上,与闭源模型相比,差异是否显著?王闻宇王闻宇:模型性能的差异并不完全取决于开源或闭源,而更多决定于,选择的GPU,并发参数,还有推理优化技术所共同决定。这里说得并发参数,例如Batch Size。在部署推理的时候,往往需要在Batc

    126、h Size和性能指标(延迟,吞掉)之间寻找平衡。如果Batch Size过高,总Token数吐得更多,Token单价便宜,但是单用户体验会变差,推理速度也会变慢。相反,如果Batch Size过高,虽然用户体验会更好,但总Token数吐得慢,导致Token单价上升。闭源模型也存在类似平衡问题,所以这点不是决定开源和闭源的区别。这里,真正的区别在于,部署方式和推理优化技术的方案选择上,首先,推理优化技术首先,推理优化技术对模型性能的影响非常关键对模型性能的影响非常关键,特别是开源模型,任何人都可以去研究,无论是之前LLaMa还是最近DeepSeek,如果未经优化,性能都不会达到最优。通过采用无

    127、损优化技术、PD分离、投机采样、并行方案如EP,DP,PP管道并行等方法,模型性能可以大幅提升,甚至有10倍的优化空间。以DeepSeek为例,其性能优化的关键在于几个技术点:首先是其性能优化的关键在于几个技术点:首先是PD分离分离,具体来说,如果不做PD分离,模型的Profile阶段和Decode阶段耗时不是一样的,大量的Profile操作完成后,需要排队等待Decode,从而导致推理效率低下。根据官方的建议,这种情况下Profile和Decode的配置在H800下建议在1:10。换句话说,如果使用一张GPU卡进行Profile,那么搭配10张GPU来进行Decode,是比较推荐。这是H80

    128、0下的建议,如果GPU不是H800,53 AIAI前线前线|特刊特刊 我们时间下来不是1:10是最好的。其次,其次,DeepSeek采用了采用了MLA(Multi-head Latent Atten-tion)技术,)技术,MTP(Multi-token Prediction)机制也是性能提升的关键)机制也是性能提升的关键。如果这些优化措施不到位,模型的吞吐量和性能都会受到严重影响。因此,模型的最终性能取决于优化的基础和方法。还有做好DP(Data Parallelism,数据并行),EP(Expert Parallelism,专家并行),PP(Pipeline Parallelism,流水线

    129、并行)等并行方案,也有不小的提升。对于闭源模型,优化可能仅限于模型公司内部,但对于开源模型,全球的开发者都可以参与优化,探索优化方案,降低成本从而降低Token价格,推动整个行业的发展。InfoQ:在硬件(如:在硬件(如GPU)以及软件推理框架和编译器等层面,究竟有哪些因素限制了开)以及软件推理框架和编译器等层面,究竟有哪些因素限制了开源模型的推理效率?同时,如何解决模型规模与推理资源之间的矛盾?源模型的推理效率?同时,如何解决模型规模与推理资源之间的矛盾?王闻宇王闻宇:从硬件角度看,要分GPU和TPU来看,另外编译器和硬件是紧密关联。以DeepSeek为例,现在要部署满血版DeepSeek模

    130、型,拥有671亿参数。如果使用单台H100的8卡配置,或者单台H20的8卡配置,在不做任何有损优化(比如压缩或量化)的情况下,单台机器是无法运行的,需要两台机器并联才能满足需求。这是因为模型参数量巨大,单台机器的内存和计算速度不足以支撑其运行。但如果使用H200或MI300,一台8卡机器就可以运行。因此,制约模型运行的并非开源与否,而是模型参数量和优化技术。如果在不损失精度的前提下保留参数量,并为上下文和缓存留出空间,那么确实需要更强的算力来支持。但是部份场景更适合于选择专用硬件,比如TPU,其设计原理与GPU有所不同。例如,Groq使用了大量的SRAM(高速缓存存储器)替代HBM(高带宽、堆

    131、叠式存储器),这使得其成本大幅上升,但吞吐速度也显著提高。这种硬件适合对成本不敏感、但对性能要求极高的场景,更适合选择Groq这类TPU。然而,专用硬件的最大问题是随着模型的快速迭代(AI领域变化迅速,模型架构不断更新),硬件的固化设计可能无法适应新的模型架构,比如将来如果Transformer算法有大的迭代的时候,可能就不能适应了。我认为,未来对于通用场景,未来对于通用场景,GPU仍将是主流选择,因为其灵活性和通用性能够适应快仍将是主流选择,因为其灵活性和通用性能够适应快速变化的模型需求。而对于一些特定的、垂直需求的场景,专用速变化的模型需求。而对于一些特定的、垂直需求的场景,专用硬件如硬件

    132、如NPU/TPU会逐渐会逐渐占据一定市场份额占据一定市场份额。54 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 InfoQ:我们之前也讨论过硬件和软件方面的限制,这些因素影响了开源模型推理的效:我们之前也讨论过硬件和软件方面的限制,这些因素影响了开源模型推理的效率。你在率。你在Infra领域积累了很多经验,能否为我们介绍一下目前比较成熟的一些成本优化领域积累了很多经验,能否为我们介绍一下目前比较成熟的一些成本优化技术?技术?王闻宇王闻宇:当前以GPU为主的硬件主要有三个瓶颈,分别是算力、显存带宽、显存容量,通过三类技术进行解决。无损加速技术无损加速技术 这一类技术致

    133、力于通过优化计算过程,减少不必要的计算和I/O,提升算力利用率。一个典型的技术是FlashAttention,它通过对Q/K/V(查询、键、值)的切块和数学优化,将原本需要三次循环的矩阵计算压缩为一次循环,从而有效提高计算和访存效率。同时,FlashAttention还通过算子融合技术,将旋转位置编码、MASK等计算逻辑融合到单个ker-nel中,进一步减少了不必要的GPU访存,优化了计算性能。除FlashAttention外,PageAttention、Chunked Prefill在保证不影响模型精度前提下,提升了推理性能。有损加速技术有损加速技术 这一类技术通常会牺牲一定的精度来换取性能

    134、提升,包括量化、稀疏化、KV Cache压缩等技术。对于大模型推理中的Decode阶段,显存带宽成为瓶颈所在,主要表现在GPU的全局内存和共享内存的数据交换过程中。此时,量化 和KV压缩这样的技术可以显著减轻I/O压力。例如,常见的KV Cache通常采用BF16格式存储,每个数据占用16个二进制位。如果将其压缩为FP8格式,每个数据仅占8个二进制位,这不仅能减少Decode阶段的GPU I/O开销,还能减少GPU内存占用,提高处理并行度,进一步提升推理性能。系统架构优化系统架构优化 系统层面的架构优化,通过合理调度、缓存和并行计算等技术,减少无效开销,提升硬件资源利用效率。常见的架构优化技术

    135、包括PD分离、投机采样、Constrained Decoding和Prefix Cache等。推理过程大致可分为Prefill和Decode两个阶段,其中Prefill阶段瓶颈是计算,Decode阶段瓶颈是显存访问。实际硬件中,很难同时解决这这两个瓶颈问题,因此对应的优化技术应运而生。PD分离是将Prefill和Decode分离到不同的机器上,通过分布式处理技术实现算力利用率最大化。同时,投机采样通过使用草稿模型提高Decode并行 55 AIAI前线前线|特刊特刊 度,有效减轻I/O访存压力。Constrained Decoding和Prefix Cache等技术则能减少重复计算,降低无效t

    136、oken的计算量。此外,引擎中的队列调度、优先级策略和网络传输优化等技术,也能在不同程度上提升推理性能。这些优化技术在学术界和工业界都得到了广泛应用,不断有新的研究成果出现。LLM推理的降本空间很大,即使模型和硬件不变,通过优化也能显著降低成本。这也是Infra公司的核心价值所在。InfoQ:有一位直播观众提出了一个很有趣的问题,他想知道:有一位直播观众提出了一个很有趣的问题,他想知道DeepSeek的的API后面会不会后面会不会涨价。涨价。王闻宇王闻宇:最近确实有消息称DeepSeek的API价格上涨了3倍,但这并非单纯的涨价行为。DeepSeek在上线初期就明确发布了价格策略,并且在2月8

    137、日调整了价格。DeepSeek团队早在发布第一天就表示,为了推广服务,初期会以V2的价格进行促销,而2月8日之后将恢复原价。因此,这次的价格调整是基于既定的价格策略,并非突发的涨价。DeepSeek背后拥有强大的技术团队,他们在量化交易领域有着丰富的经验,尤其在毫秒级延迟优化方面非常擅长。其团队对硬件优化非常有心得,利用PTX和CUDA深度优化提升性能。因此,DeepSeek的价格调整是基于成本核算和市场策略的综合考虑。此外,DeepSeek采用NSA(Native Sparse Attention)技术)技术,这一技术通过稀疏注意力算法将64k长文本的推理速度提升了11.6倍倍。这一成果表明

    138、,通过模型结构的优化,DeepSeek可以显著降低推理成本。相比传统的Softmax Attention技术,Sparse Attention、Linear Attention和Tensor Product Attention等技术在推理时的计算成本优势非常明显。此外,DeepSeek的开源特性开源特性也使得其他公司和开发者可以根据需求探索不同的算法来进一步降低成本。虽然DeepSeek的官方价格可能会让部分用户感到压力,但随着技术的不断进步和新型算力解决方案的出现(例如B100等新芯片的发布),推理成本有望进一步降低。因此,未来DeepSeek的价格不仅不太可能上涨,反而可能会随着技术的发展

    139、和市场竞争的加剧逐渐降低。56 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 InfoQ:PPIO的的DeepSeek大模型在第三方评测中的准确率排名第一,你们是怎么做到的?大模型在第三方评测中的准确率排名第一,你们是怎么做到的?王闻宇王闻宇:这个评测是由一个比较著名的独立第三方评测机构SuperClue进行的。他们在评测准入页面上提到,评测是基于其内部封闭的数据集进行的。网上有些资料暗示他们可能拥有很多数据,但这些数据集并未公开,因此我们也不清楚具体内容。评测过程是让模型回答问题,然后判断答案是否正确。我们之所以能在评测中排名第一,我认为主要有两个原因。首先,我们的

    140、模型是真正的“满血版”,保留了所有参数,没有进行INT8/INT4量化,而是以原始的FP8精度运行推理。FP8提供了更大的动态范围,相比INT8和INT4,它能够更好地保留原始数值信息,从而避免了由于量化带来的精度损失。从行业情况来看,很多公司使用了INT8等低精度量化,因为国产GPU在硬件层面不支持FP8,这可能是其他公司在评测中表现稍逊一筹的原因。其次,我们的模型上线流程非常严格,公司在出海时已经做了大量模型托管服务,所以有一套严格的商业流程。在上线每个模型之前,我们会使用多种数据集进行评测,包括公司内部的专有数据集以及公开数据集(如GSM8K)。此外,我们还会进行人工评估以确保模型的性能

    141、和质量。我们会确保评测结果与官方数据或第三方数据相近,才会正式上线模型。我们对模型的严格要求和无损处理,让我们在SuperCLUE数据集上的表现非常出色。InfoQ:你觉得你觉得DeepSeek这一波是不是代表了这一波是不是代表了AIGC应用和普及的一个拐点?应用和普及的一个拐点?王闻宇王闻宇:在中国,DeepSeek的出现确实是一个重要的拐点。从市场推广角度看,除了DeepSeek之外,许多公司并没有真正将核心能力开源,而是通过开源小型项目模型来吸引关注和客户,随后再推广其闭源的大型模型。这种策略更多是将开源作为一种市场推广手段,而非真正开放核心技术。而DeepSeek则是唯一一家真正将最核

    142、心能力开源的公司,尤其是其V3版本,不仅开源,还达到了与OpenAI媲美的效果。对于国内市场而言,DeepSeek的开源还解决了数据管控的问题。由于国内对内容管控的要求较高,许多国际开源模型(如LLaMA等)的数据结果不可控,容易被下架。57 AIAI前线前线|特刊特刊 DeepSeek的开源使得国内企业无需翻墙,极大地降低了使用门槛。此外,DeepSeek的成本远低于OpenAI,这使得更多的企业能够负担得起,从而推动了AIGC应用的普及。从资本角度看,DeepSeek的成功也改变了全球对中国AI技术的信心。此前,全球资本对中国AI持悲观态度,认为中国只能追赶OpenAI等国际巨头。然而,D

    143、eepSeek的出现证明了中国公司能够开发出具有国际竞争力的AI模型,这不仅提升了中国AI技术的全球地位,也吸引了更多海外资本的关注。这种信心的提升也反映在股市上,特别是港股市场的整体上涨,部分原因可以归结于DeepSeek带来的积极影响。海外投资者,尤其是中东、新加坡和欧洲的资本,开始对中国AI技术表现出更大的兴趣,这为国内创业者提供了更多的资金支持。此外,我认为DeepSeek的出现不仅推动了技术的普及,还可能开启了新的一波ToC创业窗口。就像当年移动互联网时代一样。我最近刚从美国湾区回来,感觉那边的ToC创业窗口已经开启,我相信中国这边很快也会打开。因此,DeepSeek的出现可能会引领

    144、我们的出现可能会引领我们进入一个新的创业者黄金时代进入一个新的创业者黄金时代,这不仅对开发者来说是一个利好消息,也对整个行业的发展具有深远意义。58 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 AIAI时代的百万年薪:时代的百万年薪:DeepSeekDeepSeek与全球人才与全球人才争夺战争夺战 作者:柴云鹏 近期,一则有关DeepSeek百万年薪招聘人才的消息引发了热议。据消息,DeepSeek开出最高98万元年薪招聘UI设计师。网友们进一步挖掘之后发现,这家公司正在以极具竞争力的薪资招聘各种工程师,即便是非算法岗,也提供令人瞩目的待遇,最高月薪9万(合年薪12

    145、6万)。特别是核心系统研发工程师,甚至包括了“校招应届生”这一范畴。百万年薪招揽人才的故事是否还会在AI时代继续上演?什么样的人才才有可能吃上这波红利?本文整理自InfoQ策划的DeepSeek系列直播第五期节目。在直播中,极客邦科技创始人&CEO霍太稳对话中国人民大学信息学院院长、计算机系教授柴云鹏,深入探讨了DeepSeek爆火背后,高薪招聘是否会长期持续,以及从业者如何在AI时代保持 59 AIAI前线前线|特刊特刊 学习和成长。下文为直播部分内容精选,完整直播回放下文为直播部分内容精选,完整直播回放&最新直播预约可关注“最新直播预约可关注“AI前线视频号”查看。前线视频号”查看。以下为

    146、柴云鹏院长的分享实录部分(经编辑)以下为柴云鹏院长的分享实录部分(经编辑):从ChatGPT到今年DeepSeek的爆火,AI的发展进程正如多年前的预测一样,正在加速推进。这也给我们的教育和人才培养带来了机遇与挑战。AI的热度不断攀升,尤其是DeepSeek百万年薪招聘人才的新闻引发了广泛讨论。从更长的时间维度来看,AI的发展始于2013年至2014年的深度学习技术突破。当时,AlexNet在ImageNet比赛中夺冠,其性能提升令人震惊,但许多人仍对CNN的潜力持怀疑态度。然而,仅一年多后,深度学习便成为AI领域的主流方向,大量研究人员纷纷转向这一领域。AI领域高薪是必然,但可能不会长期持续

    147、领域高薪是必然,但可能不会长期持续 在随后的几年中,AI的薪资水平也经历了起伏。算法岗位曾因稀缺性和高需求而薪资高涨,但其稳定性较差。由于互联网业务的复杂性,深度学习和机器学习的应用效果并不总是理想,导致算法岗位的人员流动较大。许多人中途转向系统、安全等其他方向,薪资水平也因此波动。相比之下,系统岗位和研发岗位因稳定性更高而受到青睐。随着ChatGPT的出现和大模型时代的到来,AI的能力和影响力实现了质的飞跃。机器学习时代,AI的应用落地较为有限,主要集中在视频、安防和娱乐等少数领域,企业营收和薪资水平也难以持续高涨。但大模型技术的突破使大模型技术的突破使AI真正“破圈”,不再局限于少数赛真正

    148、“破圈”,不再局限于少数赛道,而是广泛应用于普通人的生活和工作中道,而是广泛应用于普通人的生活和工作中。例如,深圳已经开始尝试使用“AI公务公务员员”,仅用几天时间就能完成过去几十天的工作量,这引发了人们对职业未来的广泛焦虑和对AI的学习热潮。如今,AI已成为高阶工具,在多个领域展现出强大的生产力,推动薪资水平不断上升。在北京等头部高校,在北京等头部高校,AI相关专业的毕业生薪资已相关专业的毕业生薪资已远超百万,甚至刚毕业的博士生也能拿远超百万,甚至刚毕业的博士生也能拿到到200万、万、300万甚至更高的年薪万甚至更高的年薪。DeepSeek等头部企业之所以能开出如此高的薪资,一方面是因为AI

    149、技术解决了更多问题,为企业带来了可观的收入;另一方面,AI领域的供需失衡导致人才稀缺,企业为了在激烈的市场竞争中占据优势,不惜重金吸引核心人才。60 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 从宏观角度看,AI的发展带来了巨大的市场需求,尤其是对核心技术和大模型训练、推的发展带来了巨大的市场需求,尤其是对核心技术和大模型训练、推理以及系统级加速设计等方面的专业人才理以及系统级加速设计等方面的专业人才。这些岗位薪资极高,也带动了相关岗位的薪资上涨。然而,这种高薪现象可能不会长期持续这种高薪现象可能不会长期持续,随着AI技术的逐渐普及和人才供给的增加,薪资水平可能会有

    150、所回落,但仍可能保持在较高水平。AI发展需要人才基数,更需要核心技术人才发展需要人才基数,更需要核心技术人才 从国际视角来看,AI领域的人才现状呈现出明显的两极分化。目前,中美两国在基础研究投入、企业创新程度、算力资源和人才储备等方面处于领先地位,其他国家与之相比仍存在较大差距。这种格局颇为耐人寻味。过去,我们曾反思中美在科研领域的激烈竞争,批评这种过度追逐热点、竞争激烈的模式,认为这种风格过于浮躁。相比之下,欧洲和日本的科研风格似乎更“佛系”,尤其是欧洲的教授们,他们似乎更注重舒适的研究环境,但即便如此,他们在企业和高校中也做出了许多扎实且高质量的研究成果。然而,在当前AI技术快速突破的背景

    151、下,中美两国这种相对激进的科研策略反而取得了显著成效,成为了全球AI领域的主要竞争者。在国内,过去20年计算机人才的培养质量不断提升。以前,清华大学计算机专业的优秀学生大多选择出国深造,但近年来,越来越多的顶尖学生选择留在国内近年来,越来越多的顶尖学生选择留在国内,甚至竞争导师资源。这表明国内高校的水平已经与美国顶尖高校具有相当的可比性。从全球范围来看,中国的人才储备整体具有优势,发展态势健康。当然,与美国最顶尖的高校相比,国内部分高校仍有差距,但正在快速提升。AI领域的快速发展使得人才需求和培养面临巨大挑战。AI人才并非一个单一概念,而是高度细分的领域。在AI领域,人才培养的重要性不言而喻。

    152、这就好比足球比赛,虽然需要11名球员组成完整的队伍,但真正决定比赛胜负的往往是少数关键球员。同样,在在AI领域,尽管需要大量的人才基数作为支撑,但那些少数具备核心技术和创新领域,尽管需要大量的人才基数作为支撑,但那些少数具备核心技术和创新能力的关键人才才是推动技术突破和发展的决定性力量能力的关键人才才是推动技术突破和发展的决定性力量。在未来,随着AI技术的不断演进,人才的重要性将愈发凸显,而薪资体系的差异也将进一步扩大。那些能够掌握核心技术、引领创新的关键人才,将获得更高的回报。61 AIAI前线前线|特刊特刊 AI领域需要多维度人才画像领域需要多维度人才画像 AI领域的人才画像可以从多个维度

    153、来分析。首先,对于专业人才而言对于专业人才而言,良好的数学和统计学基础是必不可少的,同时还需要扎实的计算机和编程能力,包括对数据结构、算法以及计算机系统的基本理解。此外,掌握基础的机器学习、深度学习和大模型技术,以及大数据相关技术,也是硬核技能的重要组成部分。如果专注于特定领域,如计算机视觉等,还需要具备相关的专业知识。软技能方面软技能方面,AI行业变化迅速,从业者需要能够跟上快速发展的技术节奏,例如及时了解最新的研究论文和技术动态,并善于利用AI工具提升学习和解决问题的能力。沟通能力和团队协作能力也是必备的,同时创新精神尤为重要。目前,尽管AI的能力已经很强,但大多数人仍未充分掌握如何高效利

    154、用AI提升工作效率,尤其是在商业和产品开发中。因此,创新精神、想象力、执行力以及对工作的热情都是推动AI应用落地的关键因素。在教育背景方面教育背景方面,顶尖公司通常更倾向于招聘具有优秀教育背景、专业背景的人才,尤其是来自知名高校或海外院校的毕业生。这是因为AI领域相对较新,目前大部分人才供给来自新毕业的学生,而企业内部有经验的人才相对较少。随着AI人才的积累,未来企业对教育背景的要求可能会逐渐放宽,尤其是在有丰富相关经验的情况下。62 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 从能力体系来看,AI时代的人才画像与传统计算机人才培养体系有所不同。核心是大模型技术,其

    155、支撑包括计算机系统的高效计算能力(如软硬件协同、芯片算力、分布式网络等)。数据是AI能力的关键,尤其是高质量、独特的数据集对于模型的优化至关重要。同时,安全可信也是重要领域,因为大模型存在幻觉、合规性和安全隐患等问题,需要专业的解决方案。未来,大部分人才将集中在利用AI解决各行业垂直领域的具体应用,这也是时代的主旋律。对于AI专业人才而言,除了掌握大模型技术外,还需要在以下至少一个方面形成专长:强大的数学功底和对模型的深入理解;数据处理和分析能力;系统设计和软硬件结合能力;或者安全和软件工程能力。仅仅停留在对大模型的熟悉和应用层面是不够的,因为这样的技术路线容易被替代。相反,具备独特专长的人才

    156、才能在竞争中站稳脚跟具备独特专长的人才才能在竞争中站稳脚跟。每每个人都有机会借助个人都有机会借助AI实现创新和突破实现创新和突破 非AI领域的人其实也有很大的机会参与到AI的浪潮中。首先,大家需要积极拥抱AI技术,即使不是理科生,学习和使用AI也并不难。计算机行业一直致力于将技术变得更易用、更“傻瓜化”,而AI时代的到来进一步降低了门槛。过去,我们使用电脑需要通过命令行(shell),后来有了图形用户界面(GUI)和鼠标操作,再后来智能手机的触控屏让操作更加便捷,甚至小孩和老人都能轻松上手。如今,随着ChatGPT和大模型技术的出 63 AIAI前线前线|特刊特刊 现,我们只需要通过自然语言交

    157、流,就能与AI深度互动,完成复杂任务。这使得AI的应用范围更广、深度更强,即使零基础的人也能通过自然语言的描述进行游戏开发、软件设计等工作。实际上,AI的学习途径非常丰富,关键在于持续学习、锻炼接受新事物的能力以及培养创新精神。AI的真正爆发将发生在众多垂直领域和具体应用场景中,而非仅仅局限于AI技术本身。像DeepSeek这样的专业公司或大厂,在AI核心技术研发方面需要少量顶尖人才,但整体而言,AI的应用和推广需要大量跨领域的人才。在这些领域,AI的使用门槛并不高,每个人都有机会通过AI颠覆传统领域,实现创新和突破。总而言之,AI领域的人才前景依然广阔,无论是否是计算机或AI专业出身,每个人

    158、都有机会在这场浪潮中找到自己的位置。然而,如果不能适应变化,被替代也是不可避免的。为了避免被淘汰,首先需要积极拥抱AI,学会熟练运用AI工具,这样才能在竞争中脱颖而出。随着AI的发展,一些岗位可能会被替代,但同时也会涌现出新的方向,而能否率先把握这些新机会,取决于我们是否具备主动学习和适应的意识。从人才和薪资的发展趋势来看,目前AI领域正处于一个火爆的阶段,但未来必然会经历起伏,薪资水平也会随着市场供需关系的变化而有所调整。尽管如此,AI的发展无疑将的发展无疑将带来前所未有的社会变革和生产力提升带来前所未有的社会变革和生产力提升,整个行业的发展方向是向上的。不过,AI时代的人才需求变得不再像过

    159、去那样明确。在没有AI的时代,知识和技能的需求是清晰的,能力越高,薪资也越高。但现在,随着AI的发展,一些原本由人类完成的工作正在被AI所取代。这就要求我们必须不断提升自己,找到新的立足点,才能在AI的浪潮中生存下来。而生存下来,就意味着有更大的机会去追求更好的发展。因此,我们应该以更积极的态度去拥抱AI,主动实践和学习。不必过于恐慌,因为AI的普及和替代是一个缓慢的过程,那些热爱学习、不断进取的人,最终都会在这个时代找到自己的位置。以下为对话实录部分(经编辑)以下为对话实录部分(经编辑):InfoQ:2月月17日,埃隆马斯克旗下的日,埃隆马斯克旗下的xAI公司正式发布了其最新的人工智能模型公

    160、司正式发布了其最新的人工智能模型Grok-3,64 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 并称其为“地球上最聪明的人工智能”。对于科研人员、并称其为“地球上最聪明的人工智能”。对于科研人员、IT从业者以及企业员工来说,从业者以及企业员工来说,AI到底替代不了哪些领域?到底替代不了哪些领域?柴云鹏柴云鹏:目前我还没有总结出一个特别完美的模式,但可以反过来思考:AI能做什么?能做什么?AI拥有人类最大的知识库,因此它在横向关联能力上特别强,能够实现跨学科、跨方向实现跨学科、跨方向的应用的应用。比如,即使你对游戏开发一窍不通,但只要掌握一点编程知识,借助AI的帮助,

    161、你就可以生成代码并制作出一个3D游戏。这种跨领域的学习能力使得AI的应用范围非常广泛,且成本较低。然而,在任何特定领域,在任何特定领域,AI的能力都有其局限性的能力都有其局限性。以游戏开发为例,虽然AI可以替代部分美工工作,生成图像,但如果整个游戏完全由AI生成,其质量肯定是有限的。在绘画领域,如果你的绘画技巧非常高超,那么你可能仍然比AI更出色,因为AI生成的图像可能还需要依赖你提供的高质量素材。在研究和系统开发中,AI可以生成一些基本方案,但很难解决那些最复杂、最困难的问题。换句话说,如果你的工作内容相对简单,就像站在一座低矮的山上,即使你爬到了山顶,也很容易被AI替代。但如果你所在的领域

    162、本身复杂且难度较高,你可以在这个领域内不断向上攀登,那么AI就不太容易替代你。AI好比洪水模型,它会横扫各个领域中水平较低的部分,这种判断是基于宏观逻辑的。当然,也有些也有些领域领域AI可能无法替代人类,比如可能无法替代人类,比如艺术、感性表达,或者需要与人沟通、提供帮助和娱乐的领域艺术、感性表达,或者需要与人沟通、提供帮助和娱乐的领域。这些领域中,人类的某些能力是AI难以替代的,因此这些领域仍然具有很大的价值。之前一些看似复杂的专业领域,比如金融和投资决策,虽然看起来很厉害,但实际上它们的工作内容相对单一,主要是做决策,而且这些决策大多是数字化的。这样的工作很容易被AI替代,但顶尖的投资决策

    163、可能仍然需要人类的参与。目前,AI可能还无法完全实现量化投资,而是需要人类与机器协同工作。总之,在任何一个领域,只有不断向纵深发展,才能在AI时代保持竞争力。InfoQ:我们发现,:我们发现,DeepSeek招聘主要针对应届毕业生,包括本科生、硕士生,甚至实招聘主要针对应届毕业生,包括本科生、硕士生,甚至实习生,似乎很少从市场上招聘有经验的专业人士。从您的角度来看,背后的原因是什么?习生,似乎很少从市场上招聘有经验的专业人士。从您的角度来看,背后的原因是什么?柴云鹏柴云鹏:实际上,在计算机领域,尤其是工科,很多人的创造力最活跃的时期是在20多 65 AIAI前线前线|特刊特刊 岁到30出头。这

    164、个年龄段的人学习能力强,也有一定的经验。但到了40岁左右,学习能力可能会变慢,整体节奏也会放慢。特别是在AI时代,适应新事物的能力会变弱,而AI团队需要快速响应,一旦有新的思路,就要争分夺秒地去实施。加班能力也很重要,而年轻人在这方面更有优势。从这个角度看,吸引刚毕业或工作没几年的年轻人是比较划算的。比如,我们人大信息学院的进人策略也是这样,主要精力放在引进年轻人。我们只需要少量有经验的人来带领团队。比如,一个有经验的人带领十几个年轻人,这样的战斗力可能是最强的,性价比也很高。从头培养年轻人有很多好处,比如增强归属感和协同沟通能力。理想的创新团队年龄结构不能太大理想的创新团队年龄结构不能太大。

    165、从这个角度看,DeepSeek的策略是合理的。此外,AI领域与其他领域不同,它本身就很新,资深人士的经验作用并不大,甚至可能因为固定的思维方式而产生阻力。InfoQ:高校培养出来的:高校培养出来的AI人才和培训机构培养出来的人才和培训机构培养出来的AI人才有什么区别?人才有什么区别?柴云鹏柴云鹏:实际上,人与人之间的差异更大,不能简单地一概而论。但从宏观上看,这有点像我们当年上学时的情况。比如,学计算机的人会问:软件工程和计算机科学有什么区别?软件工程的课程比较务实,注重各种开发环境的实践;而计算机科学的课程则更偏向底层知识,比如计算机组成原理、操作系统、编译原理等。高校培养的计算机专业人才,

    166、基础课程体系更完善,数学和计算机底层基础打得更扎实。这种教育模式有助于学生形成对计算机和AI技术的完整认知,即使有些知识在实际工作中不一定用到,但对理解问题的深度和广度很有帮助。学生在工作岗位上仍需自学新知识,但高校教育锻炼了他们的学习能力。相比之下,培训机构的课程更加直接和务实,注重实战技能的培养,适合那些已经在职场中、时间有限的人。他们很难像高校学生那样全身心投入学习,因此培训机构的课程更注重实用性。如果你通过培训发现自己对某个领域感兴趣且有能力,可以进一步深入学习更基础的内容,比如数学和计算机底层知识。如今,无论是基础课程还是实战应用,都有大量资源可供选择,包括培训课程、慕课、国外开放课

    167、程等。对于年轻人来说,先从实战入手,再学习更基础的知识,对长期发展更有帮助。当然,培训机构可能也有基 66 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 础课程,但对于那些希望深入钻研、追求专业的学生来说,建议不要忽视基础学习对于那些希望深入钻研、追求专业的学生来说,建议不要忽视基础学习。InfoQ:大家都在讨论要积极拥抱:大家都在讨论要积极拥抱AI并多加应用,但究竟到什么程度才能算得上是擅长使并多加应用,但究竟到什么程度才能算得上是擅长使用用AI,或者是最会用,或者是最会用AI的“打工人”呢?的“打工人”呢?柴云鹏柴云鹏:我认为这个标准其实很简单,关键在于你自己从事

    168、的工作或爱好,加入AI后,你能提升多少工作效率?是否能实现效率的倍增甚至更高?是否能切实解决你最关心的问题?如果你只是浅尝辄止,比如用DeepSeek问两个问题就觉得写得很好,但没有深入挖掘,那就不算真正用好了。你应该找到自己的痛点你应该找到自己的痛点哪些工作是重复性的、浪费时间的,或者你希望提升质量、节省时间的。围绕这些痛点,你可以利用AI与它交流、获取建议,甚至借助AI工具解决问题。如果你能通过AI解决自己的痛点,那你就成功了,说明你已经很好地掌握了AI的能力。这种以痛点为切入点的方式,也是判断自己是否擅长使用AI的标准。痛点解决得越好,说明你对AI的运用越熟练。InfoQ:大模型目前仍存

    169、在幻觉问题,对齐和准确度也有待提高,短期内难:大模型目前仍存在幻觉问题,对齐和准确度也有待提高,短期内难以实现真正以实现真正的产业化。当下有什么解决办法吗?的产业化。当下有什么解决办法吗?柴云鹏柴云鹏:幻觉问题是大模型技术固有的一部分,它无法达到100%的准确率,但可以通过技术改进来降低幻觉出现的概率。以特斯拉自动驾驶为例,其故障率从过去的每多少公里一次故障,已经大幅降低到远低于人类驾驶的水平。尽管如此,自动驾驶仍不能保证绝对的零故障,但通过研究和改进,其可靠性已经达到了一个合理的水平。类似地,大模型的幻觉问题也在不断通过研究得到改善。幻觉问题并不影响大模型的产业化。幻觉问题并不影响大模型的产

    170、业化。人类自身也会犯错或产生“幻觉”,但这并不妨碍人们正常工作。因此,我们不能因为大模型存在幻觉就歧视它。实际上,大模型已经达到了一定的可靠性和可用性,尽管仍有错误,但已经足够让普通用户愿意使用。例如,DeepSeek之所以被广泛接受,是因为它已经达到了一个让用户觉得“靠谱”的水平,尽管它仍有错误,但比过去有了显著提升。大模型目前无法完全替代人类,但它可以作为工具使用。目前,人们主要使用大模型结 67 AIAI前线前线|特刊特刊 合RAG技术处理私域数据。未来,人们将更多地开发工具层,包括智能体、多智能体交互以及各种AI工具。这些工具将使AI能够调用更多资源和功能,从而扩展其能力。通过这些工具

    171、,AI可以作为人类的助手,由人类把控关键决策,从而提高效率,甚至实现人类无法做到的事情。这就好比从骑自行车到驾驶汽车、坦克,甚至坦克群,AI的能力不断增强,能够完成的任务也越来越多,这就是生产力的提升,也是产业化的一部分。在某些相对封闭的领域,如自动驾驶,AI甚至可能达到比人类更低的错误率,从而实现完全替代人类监督的自动化。但这并不影响大模型在其他领域的产业化应用。从研究角度来看,如何减少幻觉、实现安全可信的AI系统,本身就是一个重要的研究方向。InfoQ:程序员想要转型为:程序员想要转型为AI技术人员,有没有比较快速的学习方法?技术人员,有没有比较快速的学习方法?柴云鹏柴云鹏:要成为一名AI

    172、技术人员,首先需要明确具体的方向,比如是从事算法开发、AI应用开发,还是AI系统设计等。从加速学习的角度来看,AI技术的发展极大地简化了知识传递的过程。过去,知识的传授依赖于教师的讲解,学生可能难以跟上思路。如今,借助AI工具,比如DeepSeek,学习者可以通过提问获得解答,这种互动式学习模式比传统的被动接受更为高效。AI能够快速传递基础知识,降低了学习成本。对于想快速入门的人来说,关键在于建立对关键在于建立对AI的基本认知的基本认知。例如,程序员可以在短时间内通过与AI交流,理解AI的基本原理、思路和逻辑。不必深入学习底层的数学原理,只要掌握如何使用AI即可。接下来是实践环节,选择一个具体

    173、的问题,比如开发一个AI应用或处理一个AI模型相关的任务,借助AI工具完成任务。通过一两个任务的实践,学习者将对领域有更深入的理解,遇到新问题时也会知道如何寻求解决方案。从学习曲线来看,快速认知、实践和与从学习曲线来看,快速认知、实践和与AI频繁交流相结合的学习方式,比传统的被动学频繁交流相结合的学习方式,比传统的被动学习更高习更高效。虽然快速学习法可能会遗漏一些细节,但如果目标是速成,可以采用这种策略。例如,可以选择一些轻量级的课程,利用社会资源和培训课程加速学习过程。总之,学习学习AI技术仍然需要刻意练习技术仍然需要刻意练习。人需要像训练模型一样,通过输入数据(学习和实践)来提升能力。虽然

    174、可以减少学习样本的数量,但这个过程是必不可少的。68 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 InfoQ:您自身在平时的日常工作和日常生活中,有哪些地方用到了:您自身在平时的日常工作和日常生活中,有哪些地方用到了AI?在使用过程中有?在使用过程中有什么特别深刻的体会吗?什么特别深刻的体会吗?柴云鹏柴云鹏:我的工作直接写材料、代码或论文的时间较少,更多的是从事思考和交流。因此,像AI开会总结这类工具对我的影响并不大,因为我的工作重复性任务本身就较少。不过,我最近对教学方面的AI应用感受颇深,尤其是AI在课程建设上的效果,超出了我的预期。未来,这方面的应用可能会越来

    175、越多。最近我还发现,用DeepSeek进行思考和交流很有启发性。我更多地将它当作一个开拓思我更多地将它当作一个开拓思路的“助理”,而不是用于处理事务性或重复性的工作路的“助理”,而不是用于处理事务性或重复性的工作。这种使用方式不算特别重度,但对于像我们这样的年轻人,尤其是同学们,AI在代码开发上的应用已经显著减少了工作量至少减少50%,有些重复性高的任务甚至能减少80%的代码量。文档方面更是如此。目前AI工具的辅助功能可能还不够强大,但相信在未来一两年内,那些善于拥抱新技术的人会逐渐习惯这种新的工作方式,并从中获得比传统方法更好的效果。比如,在项目初期,就应该利用大模型来开拓思路、进行设计,而

    176、不是仅仅把它当作一个生成报告的工具。很多人认为大模型存在幻觉,生成的内容不如人类可靠,但实际上,这种看法低估了大模型的作用。它不仅能在最后一步发挥作用,更能在项目前期的许多环节提供帮助。InfoQ:目前大模型领域竞争激烈,最后会不会只剩下几家头部模型厂商?对于普通用:目前大模型领域竞争激烈,最后会不会只剩下几家头部模型厂商?对于普通用户而言,现在应该如何选择和使用这些大模型?户而言,现在应该如何选择和使用这些大模型?柴云鹏柴云鹏:从互联网多年的发展经验来看,在热门领域最终能够存活下来的往往只有少数几家头部企业。即使中美市场完全割裂,各自也只会剩下少数几家主导企业。在美国,像OpenAI、Goo

    177、gle和Meta等公司已经比较明确地占据了领先地位。而在中国,目前市场还稍显混乱,既有传统大厂,也有新兴的AI企业。但未来一到两年内,市场很可能会迅未来一到两年内,市场很可能会迅速整合,最终只剩下少数几家主流厂商速整合,最终只剩下少数几家主流厂商。2025年将是极为关键的一年,大家都在努力寻找合适的位置,争夺生存空间。对于普通用户而言,选择大模型时可以参考口碑选择大模型时可以参考口碑,因为切换成本并不高。无论是简单的 69 AIAI前线前线|特刊特刊 对话功能还是API调用,学习成本都相对较低。因此,用户完全可以根据自己的需求选择体验更好的模型。从大模型的竞争来看,虽然目前DeepSeek等模

    178、型非常热门,但新的模型不断涌现,包括阿里等国内企业以及国外的竞争对手都在迅速跟进。实际上,这些模型之间的差异并不大。从宏观角度看,一旦某个模型取得领先,其竞争对手也能很快追赶上来。尽管OpenAI曾经遥遥领先,但其他企业最终也能迎头赶上。更重要的是,用户需要培养使用大模型的习惯和思维方式,而不是纠结于具体使用哪个模型。在科研领域,我们也可以把大模型当作一个可插拔的组件,就像电池一样,更关注的是如何利用这些模型完成其他任务,而不是纠结于如何选择基础模型。70 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 RAGRAG技术前沿:技术前沿:DeepSeekDeepSeek模

    179、型的应用与模型的应用与突破突破 分享嘉宾:黄佳,新加坡科研局资深研究员 我知道大家和我一样,都是以一种特别积极的心态沉浸在这个DeepSeek的学习世界中。实际上,DeepSeek在我们春节期间送给我们的这份“大礼包”,对我个人来说,就像是一下子把我抛回到了两年前的那个夜晚2022年11月30号,ChatGPT诞生的那个夜晚。那时候,我充满了兴奋,感觉到了这个世界的不同,也感受到了大家对知识的渴望。所以,我非常急迫地想和大家分享我在这段时间里的心路历程和总结,一起探索这一切。大家有没有注意到一个重要的现象,就是在大模型时代,新的技术和创新出现的速度越来越快,而我们学习新东西的速度也在加快。为什

    180、么会这样呢?我们不妨想一想,为什么和大模型接触久了之后,我们自己变得越来越聪明了?实际上,我们有一句古话,“近朱者赤,近墨者黑”。如果我们总是和更聪明的模型在一起探讨、用更聪明的方法 71 AIAI前线前线|特刊特刊 去学习,那么我们的认知就能不断升级,越来越快。这是我第一个想告诉大家的道理。所以,大家也可以把我看作是一个知识的“蒸馏者”,而这个“蒸馏”在今天是一个特别流行的词汇。通过我对DeepSeek的学习、论文的阅读和听其他老师的分享,我形成了一些自己的想法,希望在这里和大家分享。在大模型时代,我们思考得越多,得到的也就越多。让我们一起思考几个问题。第一个问题是:为什么DeepSeek每

    181、一步都做对了?这也是我一直在思考的一个问题。大家也许会奇怪,为什么DeepSeek团队能一次次做对,仿佛他们开了天眼。其实,每一次尝试都有可能失败,尤其是在资源有限的情况下。卡片数量就那么多,要用这些资源去做方向探索。如果这个探索失败了,会怎样?你还能不能在这么短的时间里做出V3和r1?DeepSeek团队就像是特斯拉,相对于爱迪生那种“一直试下去”,用蛮力排除万难,试一万种,一万种不行再试一亿种。而特斯拉一出手就准确。为什么能做到这一点?第二个问题是:DeepSeek给我们带来了什么?我们每个人可能并不是大模型的训练者,可能在工作中会用到大模型,也有可能并不涉及。那么,作为普通人,了解Dee

    182、pSeek对我们到底有什么用呢?这个问题我也不好直接回答。我能说的是,我自己的一系列的思考,也许这些思考能给我们这些不是大模型训练者或者微调者带来一些启示。另外,我还想和大家分享一个观点:AI时代为每个人带来了新的机会。当DeepSeek出现时,除了DeepSeek团队的几百个博士外,每个人都是在同一时间开始学习这个技术。我鼓励大家多学习、多探索新事物,也许你会成为未来的专家和导师。这正是AI时代为我们每个人带来的新机会。今天的分享目录大致如下:为什么要学习DeepSeek?DeepSeek有哪些核心创新?DeepSeek为普通人(我们)带来什么?为什么要学习RAG?RAG的前沿进展 Deep

    183、Seek为RAG带来了什么?72 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 为为什么要学习什么要学习DeekSeek 李继刚老师在一次分享中提出了关于人与AI认知的“乔哈里窗”模型,将人和AI的认知分为四个象限。这个模型非常有启发性,它将人脑中的“认知宇宙”与AI中的“认知宇宙”进行对比,指出两者逻辑可能相同也可能不同,关键在于找到连接这两个宇宙的“钥匙”。具体来说:人知道且人知道且AI知道知道:在这个象限中,人和AI都对某个问题有清晰的认知,交流时无需过多提示,直接沟通即可。人知道但人知道但AI不知道不知道:此时需要通过详细的提示和框架指导AI,这通常是大模型应

    184、用开发中开发者需要做的工作,涉及提示工程和RAG。AI知道但人不知道知道但人不知道:需要通过提问AI来获取知识。人和人和AI都不知道都不知道:这种情况下需要共同探索。随着像DeepSeek和OpenAI的O3这样强大的推理模型出现,AI的认知边界发生了变化。AI知道的内容更多,使得与AI交流时,人们无需过多展开问题,交流变得更加简单。这降低了提示工程和RAG的门槛,是大模型发展带来的直接好处。然而,这种技术进步也引发了关于人类认知边界变化的思考。如果大模型变得越来越强大,人类的认知边界可能会有两种走向:一种是依赖AI,导致认知范围缩小;另一种是与AI共同进化,使认知边 73 AIAI前线前线|

    185、特刊特刊 界得到拓展。这种分化可能使未来只有20%的人选择进化,而80%的人可能会退化。DeepSeek的出现为人们提供了强大的工具。从使用者角度看,DeepSeek的部署和调用相对简单。其开源生态使得开发者可以快速构建RAG框架。例如,通过工具如Cursor,开发者可以一边编码一边调试,大大缩短了开发时间。DeepSeek的文档也非常详尽,从DeepSeek LLM到DeepSeek Math,再到V3 R1,用户可以通过研究其开源论文来深入了解。关于DeepSeek R1和V3的区别,R1版本通过将人类偏好融入训练过程,进化为更安全、更有效、更可靠的人工智能助手。而V3版本对MoE框架进行

    186、了创新,包含细粒度多数量的专业专家和更通用的共享专家。DeekSeek有哪些核心创新有哪些核心创新 DeepSeek的核心创新可以从其研究历程和关键成果中得到清晰的体现。从2024年1月发布第一版论文开始,DeepSeek就展现出强烈的长期主义倾向,其目标是通过持续的研究和开发逐步攻克一系列技术难题。这种长期规划和逐步推进的策略使得DeepSeek在短短一年内取得了显著的进展,并最终在2025年1月完成其r1版本,实现了最初设定的目标。DeepSeek的创新主要体现在以下几个方面。1.长期主义与开源理念长期主义与开源理念 DeepSeek从一开始就强调长期主义和开源。其第一篇论文DeepSee

    187、k LLM:通过长期主义扩展开源语言模型明确了这一理念。与OpenAI的封闭开发模式不同,DeepSeek选择开源其研究成果,让其他研究者和开发者能够直接利用其成果,避免重复劳动。这种开源策略不仅加速了技术的传播,也为DeepSeek赢得了广泛的社区支持和合作机会。2.混合专家语言模型(混合专家语言模型(MoE)DeepSeek在2024年5月发布了基于混合专家系统(MoE)的语言模型V2,这是其技术创新的重要一步。MoE架构通过将多个领域专家模型组合在一起,并通过门控网络动态分配查询请求,使得模型能够更高效地处理多样化的任务。这种架构不仅提升了模型的性能,还降低了资源消耗,使得DeepSee

    188、k在硬件资源有限的情况下也能实现高性能表现。74 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 3.推理能力的强化推理能力的强化 DeepSeek的推理能力是其核心竞争力之一。从2024年2月开始,DeepSeek就专注于提升模型的推理能力,尤其是通过代码和数学问题的训练。代码和数学问题的解决需要复杂的逻辑推理和逐步思考,这使得模型能够学习到更深层次的思维模式。相比之下,普通的问答任务往往缺乏推理细节。DeepSeek通过这种方式训练模型,使其在处理复杂问题时表现出色,其r1版本的推理能力甚至超过了V3版本。4.高性价比的软硬件协同设计高性价比的软硬件协同设计 在资源

    189、有限的情况下,DeepSeek探索了高性价比的软硬件协同设计。这意味着DeepSeek不仅在算法上进行了优化,还在硬件适配和资源管理上进行了创新。这种策略使得DeepSeek能够在没有像OpenAI那样庞大硬件资源的情况下,依然能够实现高效运行和快速迭代。5.持续的技术演进与生态建设持续的技术演进与生态建设 从2024年1月到2025年1月,DeepSeek通过一系列论文和版本迭代,逐步完善了其技术体系。每一步的研究成果都为后续的开发奠定了基础,最终形成了一个强大的技术生态。75 AIAI前线前线|特刊特刊 例如,DeepSeek Coder在2024年初就已经展现出强大的代码生成能力,比其他

    190、同类工具提前了约9个月。这种前瞻性使得DeepSeek在技术竞争中占据了优势。DeepSeek的技术成果并非一蹴而就,而是通过持续的研究和优化逐步积累而成。其r1版本的推出标志着DeepSeek在技术上的成熟,其背后是深厚的技术积淀和长期的规划。这种长期主义和技术积累使得DeepSeek在AI领域脱颖而出,成为值得关注的研究方向。DeepSeek的开发始于对“规模法则”(Scaling Law)的研究。规模法则描述了模型大小、数据量和计算资源之间的关系,以及这些因素如何影响模型性能。DeepSeek团队通过大量实验,分析了不同参数配置下的模型能力,试图回答“多大的模型能在特定数据集上达到何种性

    191、能水平”这一问题。这一研究为DeepSeek模型的训练提供了理论基础,并指导其在代码、数学和推理领域的优化。例如,DeepSeek在67B模型大小时,性能超过了LLAMA2的70B模型,尤其是在代码和数学推理方面表现出色。代代码智能的崛起码智能的崛起 在数据组织和训练方法方面,DeepSeek Coder引入了创新。它采用代码仓库的层级结构来组织训练数据,帮助模型更好地理解文件之间的关联关系。这种组织方式与传统的基于简单问答对的训练方法不同,能够为模型提供更丰富的上下文信息,从而增强其推理能力。此外,DeepSeek Coder还借鉴了BERT的填空式训练方法,通过在代码片段中“抠掉”部分内容

    192、,让模型预测缺失的部分,从而提升代码生成的完整性和准确性。这种方法不仅基于前人的思路,还在此基础上进行了创新。DeepSeekMath则专注于突破数学推理的极限,进一步强调了推理能力的重要性。它通过代码预训练来增强数学推理能力,体现了DeepSeek团队对推理能力的重视。这一过程是逐步推进的:从代码生成能力出发,进而增强数学推理能力,最终实现推理能力的提升。这一逻辑链条表明,代码和数学推理之间存在紧密联系,且这一方向是正确的。DeepSeekMath的最大贡献在于其提出的GRPO(Generalized Reinforcement Policy Optimiza-tion)方法。GRPO是一种

    193、强化学习方法,与OpenAI使用的PPO(Proximal Policy Optimiza-tion)不同。在GRPO中,没有传统的“value model”,但需要一个“reward model”来为模型提供奖励信号,从而引导模型更新参数。这种方法与监督学习不同:监督学习通 76 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 过标准答案直接进行反向传播更新模型参数,而强化学习则通过奖励信号引导模型在环境中获得长期回报。GRPO的提出为模型训练提供了新的思路,尽管其细节与PPO有所不同,但它的核心在于通过奖励机制而非固定的“标准答案”来调整模型行为。ChatGPT是从

    194、Transformer架构逐步发展而来的,从基础模型到最终的ChatGPT模型之间的关键步骤如下所述。首先,我们需要一个基于Transformer架构训练的基础模型。这个模型虽然功能强大,但还需要进一步优化以适应特定任务。因此,第一步是进行监督微调(Supervised Fine-Tuning,SFT)。SFT是通过人类标注的高质量数据对基础模型进行微调,使其能够更好地理解和生成符合人类期望的文本。这是从普通模型向高级对话模型转变的第一步。接下来,为了进一步优化模型,OpenAI引入了奖励模型(Reward Model,RM)。RM的作用是评估模型生成的答案质量,并为模型提供反馈。具体来说,O

    195、penAI利用SFT模型生成一系列答案,并让人类标注者对这些答案进行排序,从而训练出一个能够判断答案优劣的RM。这个过程避免了直接生成标准答案的复杂性,而是通过相对简单的排序任务来构建RM。RM在强化学习阶段至关重要,无论是PPO还是GRPO,都需要一个能够打分的奖励模型来指导模型的训练。RM不需要像基础模型那样庞大,它只需要能够判断生成内容的好坏即可。这种设计大大降低了训练成本,并提高了模型的可扩展性。在强化学习阶段,模型通过RM的打分来调整自身行为,逐渐优化生成内容的质量。PPO是一种常用的强化学习算法,它结合了RM和一个价值模型(Value Model)。价值模型的作用是估计在给定状态下

    196、采取某种行动的预期回报,它与RM一起帮助模型在强化学习环境中实现最大化回报。然而,价值模型的引入也带来了问题。它需要与基础模型类似的规模,这不仅耗费大量训练资源,还可能导致策略更新过程的不稳定,从而影响训练的稳定性。相比之下,GRPO放弃了价值模型,仅依赖RM进行打分和反馈。这种设计简化了训练过程,减少了资源消耗,并提高了训练的稳定性。GRPO的核心在于通过RM的打分直接引导模型优化,而不是依赖复杂的价值模型来估计回报。77 AIAI前线前线|特刊特刊 OpenAI展示了从SFT、到RM、再到强化学习的三步训练过程。这一过程为构建高性能的对话模型奠定了基础。然而,GRPO的出现进一步优化了这一

    197、过程,通过去除价值模型,GRPO在保持高效训练的同时,避免了价值模型带来的复杂性和不稳定性。为为何是强化学习?何是强化学习?为什么需要强化学习来训练大模型?在实验室中,我们经常搭建基于Transformer架构的模型,但这些模型的能力往往非常有限,无法像人类一样进行推理和聊天。那么,从基础模型到具备高级推理能力的模型,最关键的跃迁发生在哪个环节呢?答案是强化学习。强化学习提供了一种基于反馈驱动的方法,通过反馈让大模型能够自主地、自驱地进行目标驱动的优化。这就是为什么很多人说r1模型的训练过程像是“左脚踩右脚”一样不断提升的原因。强化学习的核心在于:自我检查与改进推理质量自我检查与改进推理质量:

    198、强化学习帮助模型更擅长自我检查,并改进推理质量。人类思维中最重要的推理过程,很大程度上是在强化学习的最后一步中诞生的。优化长远推理过程优化长远推理过程:强化学习鼓励模型学会从长远角度优化推理过程。例如,人类在面对复杂问题时,往往需要逐步推理,而不是简单地快速回答。大模型也需要学会这种“慢思考”,通过逐步推理来提高准确性和可靠性。思思维链维链与推理的重要性与推理的重要性 思维链(Chain of Thought)的论文提出了一个重要观点:大模型需要一些机制来引导其进行更全面的思考。具体来说,需要更多的token和更多的推理时间。例如,当我们要求模型“一步一步思考”(think step by s

    199、tep)时,模型的回答会变得更加准确。这是因为我们为模型提供了更多的“内存激活空间”,使其能够更深入地处理问题。这与人类的思考方式类似。人类有两种思考系统:快思考(自动化、直觉性)和慢思考(逻辑性、分析性)。对于复杂问题,如投资、战略规划或编写代码,我们需要慢思考来深度分析和推理。大模型也类似,思考时间越长,生成的答案往往越好。78 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 RAG与检索质量的重要性与检索质量的重要性 在RAG(Retrieval-Augmented Generation)框架中,检索的质量决定了大模型生成内容的质量。通过RAG,我们为大模型提供了

    200、更多的思考空间,从而提升其推理和生成能力。因此,检索过程和上下文的质量至关重要。DeepSeek的创新与混合专家模型(的创新与混合专家模型(MoE)DeepSeek在2024年2月就意识到推理能力的重要性,并将其作为研究的核心方向。其成功的关键在于早期发现了推理的重要性,并在模型架构上进行了创新。在2024年1月,DeepSeek发表了一篇论文,提出了混合专家语言模型(MoE)的两个重要思想:更细粒度的专家分割和共享专家的隔离。MoE架构的核心是将模型划分为多个“专家”,每个专家负责处理特定的任务。这种架构早在1991年就已提出,但在深度学习时代得到了新的发展。DeepSeek MOE架构的核

    201、心是将输入的token通过一个路由器(Router)分配给多个专家网络。这些专家网络并不是单层结构,而是由多层组成,每一层都包含多个专家。例如,早期的Misture模型可能每层有7个专家,而DeepSeek MOE已经扩展到每层有200多个专家。这种架构通过稀疏激活机制,使得每个token只激活一小部分专家,而不是整个网络,从而显著降低了计算负担。DeepSeek MOE的训练机制与Transformer架构类似,通过不断的训练优化,模型能够自动学习如何将不同的token分配给合适的专家。这种动态分配能力是通过门控网络(Gating Network)实现的,它可以根据输入token的特征,决定

    202、哪些专家参与计算。这种设计不仅提高了计算效率,还增强了模型对不同输入的适应性。DeepSeek MOE的两个关键微创新包括:更细粒度的专家分割更细粒度的专家分割:通过更细致地划分专家,模型能够更精准地处理不同类型的输入。共享专家的隔离共享专家的隔离:除了专业的专家网络外,还设置了一批共享专家,类似于医院中的全科医生,用于处理通用知识。79 AIAI前线前线|特刊特刊 这种设计使得模型在处理多样化任务时更加灵活。这些创新都建立在对Transformer架构深刻理解的基础上。只有深刻理解了Transformer的基本结构,我们才能在此基础上进行优化和创新。DeepSeek MOE结合了多种优化技术

    203、,包括监督微调SFT和奖励模型RM。这些技术最初由OpenAI提出,DeepSeek在此基础上进行了整合和优化。例如,DeepSeek V2在2024年5月引入了对齐优化(Alignment Optimization),进一步提升了模型的性能。此外,DeepSeek还引入了多头潜在注意力(MLA,Multi-head Latent Attention)机制,这是一种新的优化技术,旨在优化Transformer模型中的多头注意力(MHA)结构,特别是在推理阶段的效率和资源消耗方面。MLA(Multi-Head Latent Attention,多头潜在注意力),多头潜在注意力)MLA是一种技术,

    204、旨在通过优化模型的推理效率和性能,同时保持较低的内存占用。具体来说,MLA利用KV Cache(键值缓存)来优化推理过程。它将KV Cache中的数据压缩成低维的潜在向量,这些向量占用的资源较少。在需要时,系统会动态重构键值矩阵,从而减少内存占用,优化推理过程。这种技术特别适用于资源有限的场景,例如没有大量GPU资源的公司或研究机构。MLA的核心价值在于,它能够在资源受限的情况下,帮助完成与资源充足条件下相同水平的任务。相比之下,像OpenAI这样的公司由于拥有大量计算资源,可能不需要这种优化技术。80 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 DeepSeek-

    205、V3技术报告(技术报告(2024年年12月)月)DeepSeek-V3是一个大规模语言模型,其技术报告在2024年12月发布。该模型具有以下特点和创新。模型规模 DeepSeek-V3的模型规模为671亿参数亿参数,虽然不算最大的模型,但已经相当庞大。每个token激活时会涉及370亿参数亿参数,支持如此大规模的上下文,这表明模型在处理复杂任务时具有强大的能力。技术集成 DeepSeek-V3集成了多种先进技术,包括:MoE:通过多个专家网络协同工作,提高模型的多样性和效率。MLA:通过优化KV cache的使用,减少内存占用,提高推理效率。MTP(Multi-Token Prediction

    206、,多,多token预测)预测):这是DeepSeek-V3提出的一个新概念。传统的Transformer架构通常一次生成一个token(即next token prediction)。然而,DeepSeek-V3尝试一次预测多个token,以提高推理效率。尽管业界主流尚未广泛采用这种方法,但DeepSeek-V3在这一方向上进行了探索,并取得了一定的成果。高效的高效的FP8训练训练:为了在资源有限的情况下训练大规模模型,DeepSeek-V3采用了高效的FP8训练技术。传统的训练标准使用FP32(32位浮点数),每个参数占用32位。然而,FP32的训练成本较高,尤其是在资源受限的情况下。Dee

    207、pSeek-V3通过混合精度训练框架,将部分参数压缩到FP8(8位浮点数),甚至更低精度的FP16(16位浮点数)或int4(4位整数)。这种技术不仅降低了训练成本,还提高了训练效率,使得在资源有限的情况下也能训练出高质量的模型。DeepSeek-R1:通过强化学习激励大语言模型的推理能力:通过强化学习激励大语言模型的推理能力 在2025年1月20日,DeepSeek团队推出了极具影响力的 DeepSeek-R1模型。这一版本不仅在技术上取得了显著突破,还引入了一系列新的关键词,这些关键词将在业界成为经 81 AIAI前线前线|特刊特刊 典。其中最重要的一个概念是纯强化学习,即完全通过强化学习

    208、训练出的推理能力。纯纯强化学习的重要性强化学习的重要性 在传统的模型训练流程中,通常会经历三个阶段SFT-RM-PPO。DeepSeek-R1的初始版本DeepSeek-R1 Zero采用了不同的方法。从DeepSeek-V3到R1 Zero,团队放弃了SFT阶段,直接使用纯强化学习来训练模型。这一决策的关键在于,DeepSeek-V3已经通过之前的训练达到了较高的水平,类似于一个“博士级”的模型。因此,团队认为可以直接在这一基础上,通过纯强化学习进一步提升模型的推理能力,而无需再进行昂贵且耗时的监督微调。放弃SFT阶段带来的最大优势是成本和资源的显著降低成本和资源的显著降低。SFT需要大量人

    209、工标注的数据,这不仅耗时,还需要大量的人力和计算资源。而强化学习(尤其是纯强化学习)则依赖于模型自身的探索和奖励信号,资源需求相对较小。通过这种方式,DeepSeek-R1 Zero不仅节省了成本,还证明了在资源有限的情况下,依然可以训练出高性能的推理模型。R1的诞生过程的诞生过程-左脚踩右脚左脚踩右脚 DeepSeek R1的开发过程中,一个关键的技术策略被称为“左脚踩右脚”,即通过V3和 82 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 R1 Zero之间的相互训练和优化,逐步提升模型的性能。这一过程体现了迭代优化的思想,具体步骤如下。1.V3模型的起点模型的起

    210、点 DeepSeek团队从一个已经训练得非常好的基础模型DeepSeek V3出发。V3模型本身已经具备了较高的性能,但由于其并非专门针对推理任务优化,因此需要进一步提升其推理能力。2.强化学习训练强化学习训练R1 Zero 基于V3模型,团队尝试了一种全新的训练方式纯强化学习,直接训练出一个推理能力更强的模型R1 Zero。R1 Zero的训练过程中没有使用传统的SFT,而是完全依赖强化学习来优化模型的推理能力。这种方法的优势在于节省了大量的人力标注成本,同时能够快速提升模型的推理性能。3.生成推理数据生成推理数据 通过R1 Zero模型,团队生成了一系列高质量的推理数据,这些数据带有特殊的

    211、标签,用于记录模型的推理过程。这些数据不仅包含了推理的结果,还展示了模型在推理过程中的思考步骤,为后续的训练提供了宝贵的资源。4.反馈优化反馈优化V3模型模型 利用R1 Zero生成的推理数据,返回来对DeepSeek V3进行进一步训练。这一过程使得V3模型能够吸收R1 Zero的推理能力,从而变得更强大。这种“你训我,我训你”的迭代优化方式,使得两个模型在训练过程中相互促进,逐步提升性能。5.解决解决R1 Zero的不足的不足 尽管R1 Zero在推理能力上表现出色,但它也存在一些问题,例如中英文混杂、推理格式不完美等。为了解决这些问题,团队采用了SFT对齐的方式,将R1 Zero生成的数

    212、据与人类的语言和思维方式对齐。这一过程包括以下几个步骤:Consistent Format and Accuracy:确保生成的数据格式一致且准确。83 AIAI前线前线|特刊特刊 COT(Chain of Thought)数据)数据:利用带有推理步骤的数据进一步优化模型。Knowledge数据数据:补充一些不需要推理的基础知识,例如简单的数学问题或常识性问题,确保模型在这些方面也能给出准确答案。经过上述步骤,团队最终形成了DeepSeek R1。这一版本的模型不仅具备强大的推理能力,还能生成符合人类语言习惯和思维模式的输出。通过这种“左脚踩右脚”的迭代优化方式,DeepSeek R1在性能上

    213、超越了之前的版本,成为了一个具有里程碑意义的模型。蒸蒸馏馏 DeepSeek R1模型的规模达到了631亿参数,这使得它难以在普通硬件上部署和使用。为了解决这一问题,DeepSeek团队引入了模型蒸馏(模型蒸馏(Knowledge Distillation)技术。模型蒸馏是一种将大型复杂模型的知识迁移到小型模型中的方法,使得小型模型能够在有限的资源下表现出接近大型模型的性能。DeepSeek团队利用R1模型生成的高质量推理数据集,对其他开源模型(如LLaMA和千问)进行蒸馏训练。这些数据集包括:COT(Chain of Thought)数据)数据:记录模型推理过程的数据。84 DeepSeek

    214、DeepSeek:AIAI赛道的超级引擎赛道的超级引擎 人类知识数据人类知识数据:包含常识和基础问题的答案。通过这些数据,团队对较小的模型(如32B、1.5B、8B和70B的LLaMA和千问模型)进行训练,显著提升了它们的性能。例如,经过蒸馏训练后,千问32B模型的推理能力从50%提升到了70%以上,某些指标甚至达到了83分。这一提升证明了推理数据在模型蒸馏中的重要性。DeepSeek团队进一步探索了纯强化学习在模型蒸馏中的应用。他们发现,对于较小的模型(如32B的千问),直接应用纯强化学习效果不佳。原因在于这些模型本身不具备足够的推理能力,无法通过强化学习实现自我提升。这一过程为模型训练和优

    215、化提供了重要启示。模型能力的门槛模型能力的门槛:纯强化学习需要模型具备一定的基础能力。对于能力较弱的模型,直接应用强化学习可能效果不佳,甚至可能导致模型性能退化。蒸馏的有效性蒸馏的有效性:高质量的推理数据对于提升模型性能至关重要。通过蒸馏,可以将大型模型的知识迁移到小型模型中,使得小型模型在资源受限的情况下也能表现出色。模型训练的策略模型训练的策略:对于能力较弱的模型,应先通过监督学习(如SFT)进行基础能力 85 AIAI前线前线|特刊特刊 的训练,然后再逐步引入强化学习进行优化。An aha Moment:模型的“灵光一闪”:模型的“灵光一闪”DeepSeek R1一个引人注目的现象是Ah

    216、a Moment。这是一个在模型推理过程中出现的瞬间,模型突然“明白”了某些东西,并通过类似“Wait,wait Wait thats an aha moment I can flag here”的语句表达出来。这种现象让人联想到人类在解题过程中,经过多次尝试后突然灵光一闪的时刻。尽管我们无法确定模型是否真的经历了类似人类的“意识觉醒”,但这种现象无疑是推理能力的体现,也是大模型在复杂任务中表现出色的一个标志。DeepSeek R1的技术成就的技术成就 DeepSeek R1的开发是中国AI领域的一个重要里程碑。它由100多个博士组成的团队合作完成,这些研究人员在资源有限的情况下,通过一系列创

    217、新方法,开发出了与OpenAI的O1模型相媲美的推理能力。DeepSeek R1不仅达到了与O1相近的性能,还在某些方面超越了它。这一成就展示了中国在AI领域的强大实力,也证明了即使在资源有限的情况下,通过正确的技术路径和创新方法,也能取得突破性进展。86 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 技技术路径与关键词术路径与关键词 DeepSeek R1的开发过程可以总结为以下三个关键点。纯强化学习纯强化学习 DeepSeek R1从V3模型出发,通过纯强化学习训练出R1 Zero,这一过程中没有使用传统的监督微调(SFT)。这种方法不仅节省了大量的人力标注成本,

    218、还显著提升了模型的推理能力。左脚踩右脚左脚踩右脚 DeepSeek团队通过V3和R1 Zero之间的相互训练和优化,逐步提升模型性能。具体来说,R1 Zero生成的高质量推理数据被用来进一步训练V3模型,使其变得更强大。这种迭代优化的方式使得模型在推理能力上不断提升。模型蒸馏模型蒸馏 DeepSeek R1不仅自身强大,还通过蒸馏技术将知识迁移到其他开源模型(如LLaMA和千问)中。通过高质量的推理数据和COT数据,这些小型模型的性能得到了显著提升。DeepSeek R1的成功离不开OpenAI等先驱团队的思想启发。尽管OpenAI没有开源其成果,但他们的技术理念:“不要教,而是激励”(“不要

    219、教,而是激励”(Dont teach,incentivize)为DeepSeek团队提供了重要的指导。这一理念的核心在于,当模型达到一定水平后,不应再通过大量的标注数据和监督学习去“教”模型如何思考,而是通过强化学习去“激励”模型自主探索和发现解决问题的方法。OpenAI的研究员指出,AI研究者的工作是教机器如何思考,但一种不幸且常见的方法是,我们在用自己认为的思考方式去教机器,而忽略了机器在底层架构(如Transformer)中的真实思考方式。实际上,我们用有限的数学语言去教授那些我们自己都不完全理解的内容。这种思考方式不仅限制了模型的潜力,也忽略了模型自主学习的能力。DeepSeek R1

    220、的开发过程中,团队深受OpenAI这一理念的影响。在论文中,DeepSeek团 87 AIAI前线前线|特刊特刊 队明确提到了“激励推理能力”(Incentivizing Reasoning Capability in LLMs),并采用了强化学习的方法来提升模型的推理能力。这种方法不仅节省了大量的人力标注成本,还显著提升了模型的性能。尽管OpenAI的理念为模型训练提供了重要的指导,但DeepSeek团队也意识到,并非所有模型都适合直接应用强化学习。对于能力较弱的模型,仍然需要通过监督学习进行基础能力的训练。只有当模型达到一定强度后,才能通过强化学习进一步提升其性能。DeepSeek给我们带

    221、来了哪些机遇给我们带来了哪些机遇 DeepSeek的出现为我们带来了诸多机遇和启示,这些不仅局限于技术层面,更触及到我们每个人的生活和学习。尽管我们可能并非DeepSeek的研究人员、人工智能博士或顶尖专家,但作为普通人,我们依然能从DeepSeek的发展中获益良多。首先,DeepSeek为我们带来了一场知识的盛宴。它激发了公众对人工智能的兴趣和讨论,使得从大爷大妈到专业人士都在探讨这一领域。它让我们意识到,AI时代的学习至关重要。只有不断学习新知识,我们才能紧跟时代的步伐,不被落下。因为在这个快速发展的时代,每年都有新的技术涌现,只有持续学习,我们才能有机会站在行业的前沿。DeepSeek还

    222、带来了一系列关键技术的突破和创新,如纯强化学习、混合专家模型(MOE)、多头潜在注意力(MLA)、多token预测(MTP)等。这些技术不仅推动了人工智能领域的发展,也为其他行业带来了新的思路和方法。对于AI系统应用人员来说,DeepSeek提供了一个强大的工具,可以帮助他们进行更精细的系统设计。对于研究者而言,DeepSeek的开源性和详细的训练过程为他们提供了复现和进一步研究的基础。他们可以尝试自己训练类似模型,探索新的技术和方法。对于企业来说,DeepSeek的出现意味着他们可以将这一先进的技术集成到自己的产品和服务中,提升产品的竞争力。例如,微信小程序等应用已经开始接入DeepSeek

    223、,为企业带来了新的发展机遇。同时,DeepSeek的轻量级部署和算力成本优化,使得企业能够以更低的成本使用这一技术,从而降低了开发和运营成本。对于开发者而言,DeepSeek的出现为他们提供了新的学习和创新方向。他们可以通过学习和应用DeepSeek的技术,提升自己的技能水平,探索新的应用场景。此外,DeepSeek 88 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 的学习成本相对较低,使得更多的人能够参与到这一领域的发展中来。DeepSeek不仅对专业人士和企业有重要意义,它也与我们每个人的生活息息相关。它的出现甚至影响了股市的估值,提升了中国科技公司的国际形象。

    224、这让我们看到了中国在人工智能领域的强大实力和潜力。DeepSeek的成功也激励了我们,让我们对自己的能力充满信心。它告诉我们,只要我们有正确的方向、坚持和勇气,就能够在这个领域取得成功。DeepSeek的出现也让我们意识到,AI的发展是一个不断探索和创新的过程。虽然r1等模型已经取得了显著的成果,但它们并非AI的终点。未来,我们还有更多的工作要做,更多的未知领域等待我们去探索。在我们最新的论文中,两位杰出的创始人杨植麟和梁文锋参与了研究工作,这些研究主要集中在注意力机制的探索上,目标是开发出更节省资源的注意力机制。为为什么要学习什么要学习RAG 随着大语言模型的迅速发展,RAG成为了这一领域的

    225、自然产物。大语言模型的强大能力引发了我们对其应用场景的思考,而RAG正是基于这种思考的产物。RAG的核心价值在于,它能够使大语言模型的应用更加精准、更加贴近实际需求。在当今的工作环境中,89 AIAI前线前线|特刊特刊 RAG的应用几乎无处不在,无论是企业内部知识库、学术研究、法律领域、客户支持,还是零售和电商政策等,RAG都能发挥重要作用,提高工作效率。目前,大语言模型的应用开发主要分为两个范式:RAG和Agent。对于开发者来说,学习大语言模型的应用开发,要么专注于Agent,要么专注于RAG,或者两者都学。这两个范式代表了大语言模型应用开发的两个主要方向。Agent范式侧重于利用大语言模

    226、型的逻辑推理能力,让模型去思考、判断,并优化工作流程。Agent的想象空间很大,但落地实现相对较为抽象,需要开发者发挥创造力来实现。RAG范式则侧重于通过检索增强的方式,弥补大语言模型在知识检索和生成方面的短板,使其能够回答原本不知道的问题。RAG从提示工程出发,逐渐发展出标准RAG、高级RAG和模块化RAG,甚至可以进行协作式微调,以增强大语言模型的知识内化能力。RAG技术框架本身并不复杂,但流程其实相对直观。简单来说,RAG的流程从文档导入开始,经过嵌入(embedding)和检索(retrieval)两个关键步骤,最终完成生成任务。然而,尽管流程本身并不复杂,但在实际操作中,RAG涉及的

    227、细节和技术内核却相当丰富,这也是为什么RAG上手容易,但优化却很难。RAG的核心在于向量相似性向量相似性,即通过将文本转换为向量形式,利用向量之间的相似性来 90 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 进行检索。这一过程看似简单,但其中包含了诸多技术细节。例如,如何实现混合检索,即将传统的BM25算法与向量检索相结合;如何将图数据库嵌入到检索流程中;以及如何对检索结果进行预处理和后处理等。这些细节不仅影响检索的效率,还决定了生成内容的质量。为了更好地理解和应用RAG,我们的课程可以将其流程拆解为几个关键环节:数据导入与文本分块(数据导入与文本分块(Chunki

    228、ng):将原始文档分割成适合处理的小块。嵌入(嵌入(Embedding):将文本块转换为向量形式,以便进行相似性检索。检索(检索(Retrieval):通过向量相似性检索相关文本块。预处理(预处理(Pre-retrieval)与后处理()与后处理(Post-retrieval):对检索结果进行优化,以提高生成内容的相关性和准确性。生成(生成(Generation):基于检索到的信息生成最终的输出。评估(评估(Evaluation):对生成结果进行评估,以确保其质量和相关性。每个环节都有其独特的技术和技巧。例如,在嵌入环节,选择合适的嵌入方法和模型至关重要;在检索环节,优化检索算法和参数可以显著

    229、提高效率;而在生成环节,如何利用检索到的信息生成连贯、准确的内容则需要精心设计。91 AIAI前线前线|特刊特刊 RAG的前沿进展的前沿进展 RAG的前沿进展体现在多个方面。首先,Graph RAG的出现为RAG带来了新的思路。通过结合知识图谱,Graph RAG能够更有效地进行embedding和社区构建。在这个框架中,节点通过知识图谱被聚类成不同的簇,例如蓝色、绿色和黄色的簇,这些簇代表了相关的知识。通过这种方式,Graph RAG能够更精准地识别和整合相关资料,提升检索和生成的效果。此外,RAG还在不断拓展其功能模块,包括Agenda RAG、Adaptive RAG和Correctiv

    230、e RAG。这些模块旨在让RAG系统具备自我修正和自我优化的能力,从而实现更高效的检索和更准确的生成。同时,Modular RAG的出现使得多模态RAG成为可能,进一步拓展了RAG的应用范围和灵活性。DeepSeek为为RAG带来了什么?带来了什么?DeepSeek对RAG的贡献是多方面的。首先,DeepSeek显著降低了RAG的开发门槛,使得RAG流程中的每一个子任务都能更精细地执行。例如,在处理PDF文件时,DeepSeek优化了布局分析、文本分块(chunking)和表格解析等环节,提升了RAG在处理复杂文档时的效率和准确性。DeepSeek还通过提供一系列蒸馏模型,进一步简化了RAG的

    231、本地开发和部署过程。这些蒸馏模型不仅降低了资源需求,还提升了模型的推理能力,使得RAG的应用更加广泛和高效。此外,DeepSeek在模型优化方面的进展也为RAG带来了更好的上下文理解和推理能力,进一步提升了生成内容的质量。未未来展望来展望 随着技术的不断进步,RAG和DeepSeek的未来充满无限可能。从感知智能到认知智能,从语言智能到具身智能,AI的发展正在不断拓展其应用边界。未来,我们可能会看到更多机器人和智能系统的出现,这些系统将具备更强的自主学习和决策能力。DeepSeek在资源有限的情况下,通过非凡的创造力和准确的判断力,创造了令人瞩目的成就。这不仅展示了中国在AI领域的强大实力,也

    232、为全球AI的发展提供了宝贵的经验和 92 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 启示。未来,我们有理由相信,DeepSeek和RAG将继续引领AI技术的发展,为人类带来更多的可能性。93 AIAI前线前线|特刊特刊 DeepSeekDeepSeek如何重塑如何重塑AIAI商业化格局?商业化格局?作者:黎科峰 本文整理自InfoQ策划的DeepSeek系列直播第七期节目。在直播中,极客邦科技创始人&CEO霍太稳对话数势科技创始人兼CEO黎科峰博士,深入探讨了回归技术本身,DeepSeek到底做对了什么,数势科技在企业经营分析层面如何与DeepSeek结合,对于大

    233、数据领域有哪些革新,以及在这背后,商业化层面有哪些值得关注的事情。黎科峰博士认为DeepSeek之所以能跑赢大模型“六小龙”和技术大厂达到“国运级”的一个技术热度,主要原因有三点:第一,成本的降低;第二,提出了思维链;第三,开源的技术路线。当然,这并不意味着其它企业不掌握这些策略和技术,而是因为“尾大不掉”,在大厂中提出创新想法遇到的阻力会更大,导致丧失一些机会。对于DeepSeek来说,由于体量小、架构更扁平、决策更灵活,因此没有负担。94 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 DeepSeek爆火之后,AI Agent市场将迎来大规模爆发,未来DeepSe

    234、ek相当于安卓系统,而Agent是上面的系统应用,将面向不同的业务场景百花齐放。聚焦在数据场景价值,数势科技认为AI Agent将工具型应用向决策型应用跨越。下文为直播部分内容精选,完整直播回放下文为直播部分内容精选,完整直播回放&最新直播预约可关注“最新直播预约可关注“AI前线视频号”查看。前线视频号”查看。InfoQ:作为一个公司的创始人和:作为一个公司的创始人和CEO,数势科技有没有和,数势科技有没有和DeepSeek做一些相关的事情?做一些相关的事情?有没有带来一些真正的商业回报?有没有带来一些真正的商业回报?黎科峰黎科峰:现在在大家的圈子里面,似乎不提全面接入DeepSeek,连朋友

    235、圈都没法发。但对数势来说,我们在创业初期就定位在“Data+AI”领域,因此也是行业内第一家全面接入并上线应用到客户层面的企业。春节期间,我们的很多小伙伴都没有休息,第一时间推出了商业化版本的DeepSeek解决方案,并在节后迅速将其应用到客户的生产环境中,整个过程非常迅速。当然,这也离不开客户的积极配合。我们原本就支持各种类型的国内外大模型基座,但随着R1的推出,其在各方面的效果和部署成本上都表现出色。客户在考虑成本因素的同时,也看到了R1的CoT推理能力对企业端分析能力的显著提升,这让我们的产品如虎添翼,客户也切实感受到了产品的升级。InfoQ:有没有哪个用户的:有没有哪个用户的真实反馈让

    236、你觉得,哇!真实反馈让你觉得,哇!DeepSeek对于数势科技的产品来说,对于数势科技的产品来说,就像天上掉下来的大富贵,是一个巨大的惊喜?就像天上掉下来的大富贵,是一个巨大的惊喜?黎科峰黎科峰:我觉得这种感受其实有不少客户都有。说实话,对于数势科技来说,我们在数据分析、智能分析、AI Agent领域并不是唯一一家。其实很多拥有基础大模型的大型机构也在做类似的事情。不过,他们的做法通常是基于基座大模型进行Fine-Tuning,然后做上下一体化的适配,而我们则是直接拥抱最先进的技术大模型。第一点是速度的优势。我们过往的响应速度非常快,客户使用起来也很便捷。第二点是成本的优势,客户部署DeepS

    237、eek时,不需要额外的成本。因此,客户对我们快速拥抱新技术的判断力反馈非常好,认为我们第一时间抓住了大家都在积极投入的基座大模型,匹配速度很快,而不是先适配其他基础大模型再迁移到DeepSeek。客户还特别提到,他们对比了我们老版和新版的产品体验,发现整体提升非常显著,简 95 AIAI前线前线|特刊特刊 直是一个“Aha moment”。他们惊讶地发现,不仅在DeepSeek APP上可以体验到这些强大的功能,在他们企业内部与业务和数据相关的场景中,也能获得完全一致的体验。这同样给他们带来了惊喜。InfoQ:从:从DeepSeek技技术本身来看,它为什么会达到“国运级”的一个技术热度?为什术

    238、本身来看,它为什么会达到“国运级”的一个技术热度?为什么脱颖而出的不是备受瞩目的大模型“六小龙”而是么脱颖而出的不是备受瞩目的大模型“六小龙”而是DeepSeek?黎科峰黎科峰:春节期间,我在国外遇到出租车司机都在使用DeepSeek,他们还和我聊起这个话题,赞叹道:“哇,这个东西太牛了,中国人真棒!”在国内,连餐馆的服务员都装了DeepSeek,甚至我回国后发现,我家的一些老人也装了,他们甚至不知道DeepSeek怎么用中文发音。所以,这不仅仅是技术人的追捧,已经引起了国内外“普通人”的广泛讨论,已经破圈了。但回归到技术本身,DeepSeek到底做对了什么?我认为最重要的有三点。第一是成本的

    239、第一是成本的降低。降低。它通过Mixture of Experts(MoE)、Multi-Head Latent Attention(MLA),以及底层的Reinforcement Learning(RL)方式,不再使用Supervised Fine-Tuning(SFT),甚至绕过了一些CUDA,采用PTX汇编来提升能力。从算法层面到工程层面,DeepSeek都极大地降低了训练和推理的成本,可以说是降低1/10甚至更多。第二点是提出了思维链(第二点是提出了思维链(Chain of Thought,COT)。过去我们使用大模型时,只是给它一个问题,它给出一个答案,但这个答案是否可信呢?就像我们

    240、聊天一样,你得把你的想法告诉我,你的答案才可信。DeepSeek把这种思维链透明化了,拉近了与人的信任感。人们更容易接受这样的答案,即使有问题,也知道问题出在哪里。下次输入时,可以调整步骤,让答案更准确。思维链是一个非常大的突破,它非常拟人化。第三点是第三点是DeepSeek是开源的是开源的。我自己以前也做过很多开源项目,也贡献过一些开源内容。在开源圈子里,一般认为开源的性能能达到闭源的80%,闭源就没前途了。但DeepSeek开源后,在很多项目中表现得比全世界最好的闭源产品还要出色。这实现了AI平权,让每个人都能低成本地构建优秀的AI大模型,而不再依赖于10万张显卡以上的算力,也不再局限于某

    241、些国家。DeepSeek为全世界带来了平等、低成本的AI构建方式,其意义非常重大。96 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 InfoQ:为什么大模型“六小龙”或者百度、阿里、腾讯这些大厂没尝试过这一思路?:为什么大模型“六小龙”或者百度、阿里、腾讯这些大厂没尝试过这一思路?这看起来似乎并不是一个复杂的事情。这看起来似乎并不是一个复杂的事情。黎科峰黎科峰:我自己也是从大厂出来创业的,所以对这个问题感触很深。我觉得在每一波技术浪潮来临时,往往是一些年轻且富有创新精神的公司能够率先突破,这可能是因为惯因为惯性思维起到了关键作用性思维起到了关键作用。无论团队有多大,

    242、如果思维被过去的惯性束缚,就会觉得“就应该这样做”,比如只能沿着OpenAI的路径去相信Scaling law。这种思维模式很难转变,大家可能都认为这是唯一正确的道路。其实DeepSeek的成功并不是因为它的团队有多聪明,或者资源有多丰富,而是因为它找到了另一条路径。这种突破恰恰是年轻创新团队才有的勇气,而且团队要足够小,因为团队要足够小,因为“尾大不掉”“尾大不掉”,小团队试错负担小,所以更容易去尝试。DeepSeek并不是一开始就有清晰的规划,而是在解决问题的过程中逐渐发现方向。就像刚才提到的思维链,DeepSeek最初也没有想到它会如此出色,但他们在训练过程中加入了一个目标“think”

    243、。原本只有“answer”,现在加上“think”,让模型去思考,而不管它具体想什么。没想到在大量训练后,尤其是在R1版本之后,思维链的block产生了许多化学反应。这条路径其实别人也能想到,但在大厂里提出这样创新的想法,阻力会非常大在大厂里提出这样创新的想法,阻力会非常大,因为总会有人质疑其中可能存在的问题。而对于创业公司来说,决策更灵活。他们没有负担,组织架构也更扁平化,团队可以自主申请资源去尝试。DeepSeek一定经历过很多失败,而成功只是很多失败中的一个。但在大厂里,大家往往过于注重安全性、合理性,反而会丧失一些机会。InfoQ:刚才也提到:刚才也提到DeepSeek成功的一个因素是

    244、开源。成功的一个因素是开源。2月月14日百度来了个日百度来了个180度大转弯度大转弯宣布下一代文心大模型将开源,对此你怎么看?宣布下一代文心大模型将开源,对此你怎么看?黎科峰黎科峰:我觉得在不同时间有不同的说法是合理的。因为DeepSeek本身就是整个行业中的一个“黑天鹅”事件。在之前大家讨论的“六小龙”时,DeepSeek并没有被提及。所以,现在用事后诸葛亮的眼光去评判过去的事情,我觉得会有很多“打脸”的时刻,这是很正常的。我确实也要替李彦宏说一句,在那个时间段,大家确实都没有这样的想法,可能99%的人都认为:第一,开源没什么太大的商业价值;第二,只有大厂才能玩得起 97 AIAI前线前线|

    245、特刊特刊 大模型。这在当时是一种正常的共识。DeepSeek的创新是反共识的,的创新是反共识的,正是因为像DeepSeek这样的团队打破了这种共识,它才显得如此优秀。所以,用过去的共识去嘲讽现在的创新,我觉得是不公平的用过去的共识去嘲讽现在的创新,我觉得是不公平的。往后看,现在大家在讨论DeepSeek会不会像移动时代的安卓和iOS那样并存。DeepSeek是开源的,可能类似于安卓的地位,很多手机厂商和家电设备厂商都基于安卓开发各种移动产品。而iOS是闭源的,也有大量拥护者,比如苹果用户会同时使用Mac、iPhone等产品。我个人认为开源和闭源未来还是会并存的开源和闭源未来还是会并存的,各有优

    246、势。开源的优势在于生态,更多人参与贡献,会在很多领域百花齐放。而闭源的优势在于软硬件一体化设计,在某些场景的产品体验上,可能比分层设计、由不同厂商设计的产品更有优势。就像iPhone,它的硬件配置可能无法与国内安卓主流旗舰机相比,安卓已经到16G内存,而iPhone还在8G,但它的体验并不落后。InfoQ:开源和商业化似乎存在一定的矛盾。一方面,企业投入了大量的资源去做研:开源和商业化似乎存在一定的矛盾。一方面,企业投入了大量的资源去做研究,究,取得了成果,但开源意味着要让很多人免费使用,这可能无意中培养了所谓的竞争对手。取得了成果,但开源意味着要让很多人免费使用,这可能无意中培养了所谓的竞争

    247、对手。所以开源未来是否会成为商业化的主流趋势?或者在商业化过程中,我们该如何平衡开所以开源未来是否会成为商业化的主流趋势?或者在商业化过程中,我们该如何平衡开源和商业化的关系?源和商业化的关系?黎科峰黎科峰:我其实觉得,很多人提到DeepSeek时,会因为它母公司做量化而认为其有现金流支撑,它的技术也能反哺主业。所以,DeepSeek是一个独特现象。很难想象一家创业公司一开始就做开源,还不去融资。因此,DeepSeek的成功既有必然性也有偶然性,它的成功既有必然性也有偶然性,它的可复制性门槛很高,不是一个普遍现象的可复制性门槛很高,不是一个普遍现象。比如在前几年,如果创业者对投资人说要做一个开

    248、源项目,投资人可能马上会问:你怎么商业化?怎么闭环?一旦陷入这种短期的商业化思维,就很难做出优秀的产品。在中国市场,其实也有一些优秀的开源项目,比如百度内部孵化并开源的数据库Doris接受度很高。但这些项目其实都没有很好地回答商业化的问题。虽然在圈子里大家觉得中国很多开源项目都不错,但真正实现大规模商业化,比如达到1亿用户以上的,还屈指可数。DeepSeek的出现让我们发现了一个重要现象:在中国,我们过去更多是跟随式地谈商业 98 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 化,而现在,我们也需要有理想的人真正去实现技术创新和底层技术突破。这可能会让投资逻辑发生一些

    249、变化。现在,很多基金也开始关注这一领域,包括DeepSeek传出可能引入外部资本的消息,虽然尚未确认。当你真正有能力做出举世瞩目的行业领先创新时,当你真正有能力做出举世瞩目的行业领先创新时,我认为在很长一段时间内其实不需要考虑商业化我认为在很长一段时间内其实不需要考虑商业化,因为这对人类、对中国来说太重要了。我相信有很多投资人是有情怀的,会支持这样的项目。在短期内,如果一个团队急于给出一个商业闭环的答案,我认为它可能会失去一些初衷。我反而鼓励真正有耐心的资本,比如国家资本或长期资本,去孵化和培育这些项目,不考虑短期商业化,而是专注于实现技术的巨大突破。InfoQ:现在如果想基于:现在如果想基于

    250、开源去做创业,有没有一些关键的方法或策略,能让他们快速开源去做创业,有没有一些关键的方法或策略,能让他们快速形成有影响力的产品,或者打造出更好的品牌,甚至获得投资人的认可?形成有影响力的产品,或者打造出更好的品牌,甚至获得投资人的认可?黎科峰黎科峰:我觉得真正能做伟大事情的可能只有两类人。第一类是像马斯克这样,自己有一桶金,或者像梁文锋这样,愿意为了自己的理想去投入。他们不需要看投资人脸色,也不需要做太多妥协。第二类则是那些有幸遇到专注于这类企业的投资机构的人。我认为未来投资界也会在这方面有所区分,DeepSeek就是一个很好的例子。它让我们反思,我们过去对创业公司的要求是否合理。对于消费赛道

    251、的公司,确实需要关注快速的利润指标,因为利润和营收的ROI是它们的核心竞争力。但技术创新公司的核心能力是什么技术创新公司的核心能力是什么?我认为,投资和资本市场在评估一家公司时,不能只看财务指标,而应该关注它能改变多少、它的领先性以及它未来可能对应该关注它能改变多少、它的领先性以及它未来可能对行业产生的影响力。行业产生的影响力。这些才是关键指标。作为一家创业公司,首先要清晰定位自己在做什么作为一家创业公司,首先要清晰定位自己在做什么。你是要做快速商业化的、以效率取胜的创业,还是追求商业化落地、规模化发展,亦或是专注于原创性、基础性的技术投资?在中国,过去这个赛道一直很复杂,大家总是把其他赛道的

    252、要求搬到这个赛道上。这导致很多企业很难发展,比如一堆科学家的企业,却要求他们天天赚钱,这其实是很难的。我认为,未来这个赛道会越来越宽广,会有更多理解这类创业的资本和创业者加入。他们会明确在这个赛道中,企业的核心竞争力是什么。我相信在中国也会像美国一样,出现像华尔街那样对一家企业持续投资十年、二十年,最终做出改变世界的事情。99 AIAI前线前线|特刊特刊 第二点是创业者要有明确的目标创业者要有明确的目标。如果做技术创业,从一开始就不要缺乏野心。你的目标不够高、不够远大,就很难激励投资人和团队,也不会有更大的进步空间。就像DeepSeek一开始的目标就是要做AGI,要做突破、超越美国,这才吸引了

    253、大量人才。第三点是企业文化的构建企业文化的构建。从DeepSeek来看,梁文锋强调团队成员要有热爱和好奇心,他倾向于招聘刚毕业的博士生和硕士生,而不是只依赖有经验的人。这并不是说有经验的人不重要,而是因为团队文化对于技术创新至关重要。不需要一群因循守旧、只会跟随、没有勇气创新的人。如果创始人本身对新事物、新技术不感兴趣,不相信未来需要去挑战,只盯着眼前的收益,那么这样的企业很难成功。所以,如果要给创业者建议,我觉得就是这三点:定义好赛道,明确目标,构建积极向定义好赛道,明确目标,构建积极向上的团队文化上的团队文化。InfoQ:你把数势科技定位成是一个什么样的公司?:你把数势科技定位成是一个什么

    254、样的公司?黎科峰黎科峰:这其实跟我自己的背景有关。我一直专注于应用创新。博士毕业后,我在韩国三星工作,当时是利用安卓系统开发Galaxy手机。我是第一代Galaxy手机操作系统开发团队的一员,虽然我没有发明安卓,但我利用它做出了全球最好的手机。回国后,在百度,我也是移动云领域的早期参与者,打造了大量基于移动化和云计算的产品。后来,在平安和京东,我更多地专注于应用落地,但始终秉持的理念是:选择最先进的技术作选择最先进的技术作为“武器”,用它去赢得更多胜利为“武器”,用它去赢得更多胜利。对于数势科技来说,也是如此。我们会拥抱最先进的模型,但我们的目标是将这些模型将这些模型与我们的核心行业与我们的核

    255、心行业金融、零售、消费和高端制造金融、零售、消费和高端制造,探索它们如何在数据分析和业务分析的场景中发挥作用。我们希望通过DeepSeek实现一个宏大的目标:技术平权,实现数据普惠化,数据普惠化,让不懂技术的人也能轻松分析数据,用数据做智能决策让不懂技术的人也能轻松分析数据,用数据做智能决策。DeepSeek的出现确实让我们看到了实现这一目标的可能性。我们不会像DeepSeek那样没有明确的商业化目标,但我们清楚这是一个长期事业。我们需要更多客户参与进来,才能持续迭代我们的产品。目前,我们在几个核心赛道的市场占有率已经很高,这正是因为我们有大量客户在使用我们的产品,从而形成了产品迭代的飞轮,让

    256、产品越来越好,形成了正向的发展趋势。100 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 InfoQ:基于:基于DeepSeek,它到底能给我们带来哪些商业化的机遇。现在很多企业都在基,它到底能给我们带来哪些商业化的机遇。现在很多企业都在基于于DeepSeek构建自己的生态,包括上下游都在进行适配。那么数势科技在这方面会做些构建自己的生态,包括上下游都在进行适配。那么数势科技在这方面会做些什么动作?什么动作?黎科峰黎科峰:我觉得可以从几个方面来看。首先是硬件生态硬件生态。现在国内芯片厂商特别开心,因为DeepSeek的出现让他们发现,不需要那么高的硬件性能也能支持这一

    257、技术。DeepSeek的推出对中国算力行业来说是一次狂欢,因为此前其他大参数模型对硬件的要求过高,而国内GPU与A100、H800等仍有差距。DeepSeek降低了硬件门槛,使得国内现有硬件足以支持,这是一层硬件生态的变化。第二层是云服务云服务。由于硬件性能不足,企业需要将DeepSeek上云。可以看到,无论是创业型公司还是腾讯云、阿里云、百度云、华为云等大厂云服务都在积极支持DeepSeek,将其集成到自身服务中。云厂商接入DeepSeek后,流量迅速增加,不得不持续扩容。而这对创业公司DeepSeek来说流量巨大,超出了他们的预期和承载能力,大部分时间处于不可用状态,云厂商因此成为第二波受

    258、益者。第三层是应用端应用端,尤其是AI Agent。AI Agent在移动互联网时代相当于APP,而iOS和安卓分别对应现在的闭源(如OpenAI)和开源(如DeepSeek、千问)两种模式。这三层发展都非常迅速。AI Agent开发者则发现,他们只需关注DeepSeek,无需适配多个大模型,大大减轻了工作量。过去,开发者需要在模型上做大量补丁和优化,而现在只需关注业务逻辑、AI Agent设计、多Agent架构,以及如何结合私有数据和知识库。这将是一波巨大的收益。目前,客户在低成本获取DeepSeek后,将目光转向应用开发。我认为,芯片厂商和云厂商的狂欢只是开始,接下来将迎来一个持续十年的周

    259、期迎来一个持续十年的周期AI Agent时代时代。就像移动互联网出现后,才有了微信、抖音、滴滴、美团等应用的兴起,我相信这只是AI发展的开端。当DeepSeek的问题得到解决后,会有大量C端和B端的优秀AI Agent产品涌现,真正实现AI走进每个人的生活。InfoQ:您觉得在商业化:您觉得在商业化落地方面,哪些业务场景最有商业价值?落地方面,哪些业务场景最有商业价值?黎科峰黎科峰:十几年前移动互联网刚兴起的时候。当时在3W咖啡、车库,甚至图书馆那边,101 AIAI前线前线|特刊特刊 大家都在讨论“我要做什么才能成功”,大家都在考虑DAU能达到多少。这跟这个问题很像DeepSeek这么火,我

    260、们做什么才能成功呢?但从今年回过头来看,移动互联网时代真正赢的是谁?其实并不是那些没有专业能力、没有行业know-how的人。真正赢的是那些已经在行业内扎根的人。真正赢的是那些已经在行业内扎根的人。比如京东,刘强东原本就是做卖货的,他享受了移动互联网的红利,成就了京东。微信也是如此,它原本就是做社交的,利用移动互联网的能力,发展出了微信。美团和做内容的公司也是如此。核心在于,我们不需要去关注“我们做什么”,而应该关注“你的深耕业务我们不需要去关注“我们做什么”,而应该关注“你的深耕业务+DeepSeek”。你要清楚自己擅长什么,能解决什么问题,团队有什么独特基因,然后换一个武器DeepSeek

    261、来实现它。所以,无论是B端还是C端,所有业务的产品形态都可能被重构,但你的行业领域知识、行业Know-how和行业壁垒会越发重要。过去是“互联网+”,因为互联网的成本很高,只有互联网企业才能做大数据和AI。但现在,AI的成本如此之低,连小朋友都会用DeepSeek,我家孩子写作业都用得很熟练,prompt写得特别好。当成本不再是问题时,是你自己的领域知识变得重要了。所以,不要轻易跨界去做不熟悉的领域不要轻易跨界去做不熟悉的领域。未来一定是教育AI、医疗AI、金融AI、财务AI、差旅AI、法律AI关键是你先要懂这个行业,再结合DeepSeek。我觉得每个行业都有机会,因为中国市场足够大。只要你在

    262、自己的领域第一时间拥抱大模型,一定会有很大的发展空间。而不是看到别人的机会好,就想去变成那样,因为很难赚到认知之外的钱很难赚到认知之外的钱。创业不应该盲目追逐热点,而应该聚焦于自己的核心领域:我们的服务客户痛点是什么?我们的壁垒在哪里?其实,像我们这种心态很容易变化,看到DeepSeek的成功,就难免会想“为什么不是我们”。但我自己从不这样想,因为我清楚自己擅长什么。我在数据领域深耕多年,对金融、零售和消费行业非常了解,也曾在头部企业工作过。我清楚这些行业的痛点,知道如何解决这些问题,而这个市场已经足够大。我们每天都在思考如何利用大模型结合数据分析和业务分析,让企业里99%的非技术人员能够零成

    263、本地接触复杂数据,分析业务,实现数据驱动业务增长的目标。我认为其他创业者也应该这样想,专注于自己真正擅长和熟悉的领域。102 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 InfoQ:现在各:现在各个大厂都在争相接入个大厂都在争相接入DeepSeek,这是在蹭热度,还是有其他考量?,这是在蹭热度,还是有其他考量?黎科峰黎科峰:不可否认,很多企业有“害怕错过”的心态,担心被时代抛弃,这是人之常情。就像人们常说的,大家都在努力跟上时代的步伐。现在有很多企业声称接入了现在有很多企业声称接入了DeepSeek,但如果仔细看代码,就会发现真正接入的并不多。但如果仔细看代码,就会

    264、发现真正接入的并不多。因为从技术角度看,要从原来的产品模式转变为接入DeepSeek的模式,需要做大量的工作。所以,真正实现产品化接入的企业其实很少,很多只是停留在公关层面。企业为什么要做这种事呢?一方面,是因为害怕不在聚光灯下。我相信大厂一定会有这种担忧。如果你不做,就像过去安卓出现后,你还坚持只用自己的操作系统一样,可能会被市场抛弃。另一方面,DeepSeek确实带来了新的流量。无论是云服务还是C端产品,接入DeepSeek后,流量都在增长。比如微信这样的运营公司,如果没有这种敏锐度,那就是失职。所以,企业接入DeepSeek是一种正常的选择。第三个方面,其实更多是企业内部的思考。当有了D

    265、eepSeek,企业自己的大模型该怎么办?这才是一个灵魂拷问。前面提到的接入,无论是出于情绪表达还是流量考虑,其实都相对容易判断和执行。因为大模型团队和产品团队通常是分开的,有了这么好的流量机会,产品团队当然希望利用起来。但最关键的问题是,当有了但最关键的问题是,当有了DeepSeek,企业自己的,企业自己的大模型该如何定位?大模型该如何定位?我相信现在大厂内部最纠结的就是这个问题,大模型团队的压力也非常大。高层也在思考,是否还要继续投入大模型,但目前还没有看到明确的结论。InfoQ:现在大家对:现在大家对AI Agent都非常关注,但目前基本还停留在都非常关注,但目前基本还停留在AIGC阶段

    266、。从这个角度来阶段。从这个角度来看,有了看,有了DeepSeek的加持,的加持,AI Agent市场是否会迎来很大的爆发,背后的逻辑是什么呢?市场是否会迎来很大的爆发,背后的逻辑是什么呢?黎科峰:首先,是能力的阶跃黎科峰:首先,是能力的阶跃。以前,大模型的能力不足,需要打很多补丁来弥补。但很可能半年后,这些补丁的90%都会被新的模型升级所覆盖。这意味着我们为大模型能力打补丁的成本其实是极其浪费的。所以,有了DeepSeek之后,我们会更少地去为大模型的能力打补丁。其次,当大模型的成本降低成本降低后,会有更多人去部署大模型更多人去部署大模型,甚至在手机上也可以安装。103 AIAI前线前线|特刊

    267、特刊 比如,现在的iPhone 16 Pro Max完全可以运行一个1.5B参数的模型。所以,端侧的大模型部署会越来越普遍。成本降低不仅意味着客户可以部署,消费端的设备也可以运行。这为应用的开发提供了空间,因为有了可以运行的平台。第三,DeepSeek的市场占有率正在提高的市场占有率正在提高。以前我们需要适配20多个大模型,但现在可能只需要专注于一个主流模型。就像过去有Windows Mobile、诺基亚的Meego,还有国内手机厂商的OS,开发者为了适配这些系统非常痛苦。而现在,当一个模型占据主流时,应用端的适配就会变得简单。中国从来都不缺应用端的场景、数据和愿意拥抱新应用的用户。这是中国在

    268、PC时代和移动互联网时代的传统优势。现在,美国App Store前十名中有五个是中国APP。当基础层的问题被解决后,按照中国创新的土壤和优势,应用端的爆发是必然的,而且已经在发生。我身边有很多人利用大模型在自己的领域进行创新。比如,我认识几个律师,他们一直想结合AI,但过去AI的能力不足。最近他们利用DeepSeek,结合自己积累的法律文档、案例库,开发出了满足需求的产品。这就是一个很典型的例子。大家都在积极探索和拥抱新技术,按照这个规律,应用端的爆发是必然的。InfoQ:所以,:所以,DeepSeek的出现对整个中国的创投环境,你觉得会带来什么样的变化?的出现对整个中国的创投环境,你觉得会带

    269、来什么样的变化?黎科峰黎科峰:我们确实身处行业前沿,就像“春江水暖鸭先知”。我们在三个方面都有深刻感受。首先,客户首先,客户需求正在迅速崛起需求正在迅速崛起。现在,几乎所有金融企业的董事长都在积极推动DeepSeek的落地。当教育成本如此之低,且大家已经达成共识并朝着同一个方向努力时,商业化的空间无疑是巨大的。市场正在爆发,需求也在爆发,因为大家都在积极建设并推动落地。对我们这样的创业公司来说,有需求就意味着有机会。投资人也会关注这种信号,判断需求端是否真的爆发。如果只有资金端的活跃而需求端没有变化,那么这种热度可能是短暂的。所以在谈投资之前,我更关注市场需求端的变化。现在,需求端的投入正在普

    270、遍增长,且范围越来越广。预算不再只是投向硬件,比如购买显卡,而是更多地投入到有价值的落地场景中。不仅是头部客户,腰部甚至更广泛的客户群体也开始使用相关技术,市场的深度和广度都在扩大。104 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 第二点,投资人也在做出判断第二点,投资人也在做出判断。他们并不是因为一个概念就盲目跟风,而是基于对未来趋势的判断,他们相信未来将是AI Agent的时代,会出现AI Agent时代的抖音、微信、美团等巨头。所以现在大家都在寻找那些可能成为行业巨头的团队。资本市场的信心正在回归,因为他们看到了几个关键变量:一是对未来趋势的清晰判断;二是需

    271、求端的爆发。一是对未来趋势的清晰判断;二是需求端的爆发。第三点,其实现在国家也在强调“耐心资本”第三点,其实现在国家也在强调“耐心资本”。过去,人民币基金往往要求反投,估值不能降低,投资失败可能被视为失职。但现在,大家开始意识到需要更多耐心来支持创新。为什么杭州能诞生这么多优秀的创新企业?其实是因为杭州政府和资本早在几年前就开始布局。不能只看结果,而要看到背后的长期投入。现在,我也在和一些地方政府领导交流,大家都在学习杭州的经验。我相信未来会形成更宽松的投资环境,更多地支持和服务创业团队,创新是需要经历失败的。目前来看,这种趋势正在变好。105 AIAI前线前线|特刊特刊 从提示词到变现:从提

    272、示词到变现:DeepSeekDeepSeek如何赋能用户如何赋能用户 作者:谢孟军 策划:赵钰莹,高玉娴 本文整理自InfoQ策划的DeepSeek系列直播第八期节目。在直播中,极客邦科技创始人&CEO霍太稳对话积梦智能CEO&TGO鲲鹏会荣誉会长谢孟军,主要探讨了两个方面的问题:第一,DeepSeek爆火背后,作为创业公司如何更好地打造差异化竞争优势;第二,作为普通人如何借AI之力成为“超级个体”。谢孟军强调,在全民AI的时代,技术人尤其要避免陷入“技术自嗨”的陷阱,无论是个人还是企业,都需要从技术迷恋转向技术的实用化,从产品思维转向用户价值思维。技术本身并不重要,重要的是技术与场景的结合。

    273、下文为直播部分内容精选,完整直播回放可点击链接查看下文为直播部分内容精选,完整直播回放可点击链接查看:https:/ 106 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 以下为谢孟军的分享实录部分(经编辑)以下为谢孟军的分享实录部分(经编辑):DeepSeek现象级突破的技术解码现象级突破的技术解码 DeepSeek无疑是一个具有“国运级”意义的现象级产品。它的技术突破主要体现在三个方面:低成本训练范式革新、国产算力适配突破和场景化模型蒸馏技术低成本训练范式革新、国产算力适配突破和场景化模型蒸馏技术。首先,DeepSeek采用了极简架构,能够以3%到5%的行业成本实

    274、现模型训练,大幅降低了资源占用。这种低成本训练模式加上开源的方式,极大地降低了模型开发门槛,让众多企业和研究机构能够参与其中。其次,国产算力适配突破是DeepSeek带来的另一个重要影响。此前,国产芯片一直在努力适配国外框架,而DeepSeek的出现让国产芯片找到了用武之地。特别是华为的昇腾芯片,与DeepSeek的适配性非常好,推动了国内GPU厂商的发展。昇腾910B等产品与DeepSeek深度合作,实现了从硬件到技术链路的全面国产化,加速了国产化进程。如今,许多企业都在咨询如何私有化部署DeepSeek模型,这也为国产算力的发展提供了新的机遇。最后,DeepSeek不仅推出了671B的满血

    275、版模型,还通过蒸馏技术开发了多种轻量级版本,32B、18B和7B等。这种从满血版到轻量版的跨越,为企业提供了灵活选择的空间,能够根据不同场景的需求进行适配。例如,企业可以根据自身业务蒸馏出投资版、制造业版、化工行业版或汽车零部件版等专属模型。同时,DeepSeek在动态部署方面也具有优势,能够在复杂决策场景中使用满血版模型,在高并发交互场景中使用轻量级模型,实现混合式部署。DeepSeek爆火背后的“冷思考”爆火背后的“冷思考”在DeepSeek爆火的当下,每个人似乎都在谈论它,仿佛不参与讨论就显得自己与IT圈脱节。朋友圈里每天都在刷屏,某某产品接入了DeepSeek,仿佛不接入DeepSee

    276、k的产品都成了“垃圾产品”。而最引人注目的还是股票市场DeepSeek概念股的兴起确实带动了整个经济氛围的活跃。与此同时,我也发现,最近很多人在交流中对经济的信心似乎又回来了,这不得不说是一个非常积极的现象。107 AIAI前线前线|特刊特刊 在全民全民AI的时代的时代,DeepSeek如此火爆的背后,我们也需要进行一些“冷思考”。真正的问题是:DeepSeek到底能用来做什么?到底能用来做什么?作为技术人,我们尤其需要避免陷入“技术自嗨”的陷阱。如今,很多人都在分享DeepSeek背后的技术实现逻辑,但关键在于我们如何将关键在于我们如何将它真正应用到实际场景中它真正应用到实际场景中。在短视频

    277、平台上,大家都在宣传如何部署DeepSeek,搭建个人AI知识库。但当你在自己的电脑上搭建起这样一个知识库后,你会发现它的能力其实非常有限。因为电脑本身的性能有限,你最多只能运行7B或8B的模型,而这些小模型的能力是远远不够的。搭建一个简单的AI知识库并不难,但当你的文件数量超过两三千份时,多路召回的效果会变得极差。在文件数量较少时,知识库的效果可能还不错,但要让它真正产生价值、提升生产力,还有很长的路要走。另一方面,很多新媒体人在宣传所谓的“DeepSeek+”,比如“DeepSeek+王炸组合”,声称可以成倍提升功能效率。确实,DeepSeek在办公效率方面,比如写作(如Kimi)、图像处

    278、理(如剪映、PS)等工具的使用上,确实能带来一些帮助。但对我们技术人来说,更重要的是如何将DeepSeek更好地应用到更多实际场景中去,而不仅仅是停留在表面的效率提升。如如何打造差异化竞争优势何打造差异化竞争优势 在当前AI技术快速发展的背景下,无论是个人还是公司,都需要思考如何打造差异化竞争优势。随着AI的兴起,作为技术人需要结合自身优势和经验,找准定位。拿我本人来说,有近20年的开源经验,同时也有七八年的创业经验,因此我希望将开源与商业化相结合,分享AI技术的同时,探讨如何提升决策能力。于是,我将自己的公众号从“Asta聊工业聊工业”改为“AI进厂的进厂的Asta”,专注于分享AI在编程、

    279、开源和商业化方面的内容。在内容创作上,我尝试用AI辅助写作,提纲和核心内容仍需自己撰写,完后再让AI优化,这样既能保持个人写作风格,又能提升效率。个人工具的全面AI化是提升效率的关键。我目前常用的AI工具包括以下几种:Cursor:我每天都会用它来编写代码,尤其是前端开发,效率提升显著。DeepSeek和和Claude:将两者结合使用,Claude在长文本创作上更符合我的写作风格,而DeepSeek则用于联网搜索技术报告。108 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 Grok 3:其Deep Search功能非常强大,我正在不断尝试。Ideogram:这是一个

    280、类似Midjourney的文生图工具,生成的图片设计感很强,我经常用它来生成图片。Napkin:它可以将文档一键生成脑图或PPT格式的图表,非常适合快速制作PPT。Notion:我用它来收集各种想法和计划,同时也会将Claude生成的内容整理到Notion中。即梦即梦AI:我用它生成海报,效果不错,尤其是中文显示效果很好。创客贴创客贴:主要用于海报设计,其AI设计功能非常实用。Gamma:用于快速生成PPT,设计简洁且支持导出PDF和PPT格式。我从2009年开始接触Go语言,而GopherChina也是从2015年开始举办,至今已经十年了。这十年间,Go社区不断成熟,技术话题也逐渐趋同化。比

    281、如,大家讨论的大多是云计算、K8S容器、微服务、监控等热门领域。这些内容在过去十年里已经被分享得非常充分,社区的成熟也意味着技术发展进入了一个稳定阶段。随着AI时代的到来,技术人不能固步自封,必须勇敢拥抱变革。因此,我决定将Go社区全面升级为一个AI社区ThinkIn AI。这个社区目前还处于起步阶段,但已经展现出巨大的潜力。在这个过程中,我们做了以下两件事:第一,开发了一个DeepSeek模型兼容性检测工具。这个工具的灵感来源于朋友的提问:他们的电脑配置能否部署某个型号的DeepSeek模型,比如1.5B、7B或8B等。基于这个需求,我利用业余时间用React写了一个网页工具,通过显存和内存

    282、的检测,自动判断用户电脑能够部署的最大模型。这个工具开发过程非常高效,仅用了一个晚上的时间,而且完全通过对话式编程完成,我没有手写一行传统代码。推出后,这个工具受到了广泛关注,很多人反馈企业也有类似需求,希望了解服务器配置如何满足不同模型的部署要求。因此,我们又开发了一个企业部署服务器配置计算器。用户可以根据自己的需求选择模型大小(如70B、671B或14B)、量化类型、序列长度、批次大小等参数,工具会计算出所需的显存、CPU配置、模型参数占用等信息,并推荐适合的硬件配置,包括GPU、CPU、内存和网络等。同时,我们在工具底部宣传了ThinkIn AI社区,目前社区已经吸引了大量用户,14个群

    283、几乎都满了,这说明大家对AI的热情非常高涨。第二,我们开始探索DeepSeek部署后的应用场景。目前,虽然已经有Chatbox和Open 109 AIAI前线前线|特刊特刊 Web UI等客户端可以连接DeepSeek,但我们认为DeepSeek客户端可以实现更多功能,尤其是对于企业私有化部署来说,需要更强大的智能体开发。因此,我们决定自己开发一个开源的客户端DeepChat。这个项目完全开源,采用Apache协议,今天刚刚发布了0.02版本,支持联网功能,可以通过搜索引擎结合DeepSeek进行更强大的处理。我们的目标是将DeepChat打造成连接强大AI与个人世界的智能助手。未来,人们会越

    284、来越多地通过终端设备处理各种事务,包括电脑、平板和手机。我们希望在终端设备上开发更多小应用,比如下一个版本将支持文件上传和内容总结功能,用户可以上传多个文件并输出自己想要的格式。DeepChat不仅可以连接企业的大脑,也可以连接个人电脑,用户可以选择连接本地的小AI,也可以连接公网上的满血版AI。我们还计划全面对接MCP协议,将个人智能体的功能整合进来,充分发挥终端设备的潜力。我们希望通过开源的方式,像DeepSeek一样,毫无保留地分享技术,打造一个全球知名的AI应用生态。对于我们企业而言,从个人到社区,再到企业层面,我们的差异化优势其实非常明确。比如,我们将Go社区转型为以DeepSeek

    285、为核心的AI社区,这一转变本身就体现了我们的独特性。我们始终以开源项目为驱动,围绕AI编程、开源项目、DeepSeek工具链以及MCP社区的终端应用展开工作。这种以开源为基础、以技术为核心的发展路径,是我们区别于其他社区和企业的关键所在。在企业层面,我们面临的挑战是如何在如何在DeepSeek私有化部署这一竞争激烈的市场中找准私有化部署这一竞争激烈的市场中找准自己的定位自己的定位。如今,许多企业都在涉足DeepSeek的私有化部署,但我们必须思考:用户为什么选择我们?如何在众多竞争者中脱颖而出?这正是我们需要解决的问题。我认为,实现差异化的核心在于“行业实现差异化的核心在于“行业Know-Ho

    286、w+AI”。我们需要找到自己真正擅长的行业领域,并深入理解该行业的核心数据和业务流程。只有当我们清楚地知道行业数据的价值和业务流程的关键节点时,才能将AI技术精准地嵌入其中,从而发挥出我们的差异化优势。这种结合行业深度知识与AI技术的能力,才是我们能够在市场中立足的关键。AI技术商业化落地的“道”与“术”技术商业化落地的“道”与“术”所谓“道”,是指我们对场景选择和用户痛点的深刻理解。首先,我们必须从用户的真实痛点出发,这是商业化的基础。其次,商业模式的验证至关重要,需要从一开始就设计好盈利模式,思考如何持续赚钱。用户痛点的发现并非孤立的,而是通过与不同行业 110 DeepSeekDeepS

    287、eek:AIAI赛道的超级引擎赛道的超级引擎 人士的交流逐渐明晰的。例如,有医院希望部署DeepSeek的私有化方案,但面临技术选型和硬件适配的难题;还有企业希望通过小模型解决特定业务问题,需求千差万别。这些痛点背后,反映出行业对AI技术的迫切需求,也凸显了我们作为技术提供方的机会。仅仅发现痛点还不够,我们需要结合行业Know-How与AI技术,找到数据和业务流程中的关键点,将AI嵌入其中,实现差异化价值。比如,金融行业可以通过AI优化风险控制,医疗行业则可以利用AI提升诊断效率。这种结合行业深度知识与AI技术的能力,才是我们能够在市场中立足的关键。在“术”的层面,我们则需要关注技术的成熟度和

    288、数据的积累。选择成熟的技术可以降低风险,而数据的积累和算法的优化则是持续迭代的基础。AI技术的快速迭代要求我们不断优化模型,以适应市场的变化。小小结结 在在AI时代,每个人都有机会成为超级个体时代,每个人都有机会成为超级个体,无论是个人创业还是小团队创业,都需要从从技术的迷恋转向技术的实用化,从产品思维转向用户价值思维技术的迷恋转向技术的实用化,从产品思维转向用户价值思维。技术本身并不重要,重要的是技术与场景的结合。同时,从单打独斗转向生态协同也是必然趋势。AI的商业化落地需要构建完整的生态,包括技术提供方、数据支持方和应用场景方。以下为对话实录部分(经编辑)以下为对话实录部分(经编辑):In

    289、foQ:DeepSeek出现之后,对积梦智能目前的业务以及所服务的客户带来了哪些直接出现之后,对积梦智能目前的业务以及所服务的客户带来了哪些直接的价值?的价值?谢孟军谢孟军:虽然我们的传统业务还在继续推进,但我们也要更好地拥抱AI时代带来的变化。为此,我们专门开辟了一项新业务,开始着手着手DeepSeek的私有化部署相关工作的私有化部署相关工作。这包括帮助客户梳理知识流程、清洗数据,以及构建高效的数据库和知识库,并协助他们将这些内容整合到业务流程中。我们有几家制造业用户正在推进DeepSeek的私有化部署。其实这个思路源于去年底,当时我们服务的一家客户是做橡胶轮胎助剂的。他们内部积累了大量研发

    290、资料,研发部门 111 AIAI前线前线|特刊特刊 有大约五十人,但这些数据不便外流,所以他们希望在内部建立一个研发资料知识库。去年,他们就已经开始与我们对接,探讨如何实现这个目标。当时我们告诉客户基座模型还在迭代,建议他们再等等,但千问2.5其实已经可用。然而,今年春节当DeepSeek r1发布后,客户过完年就立刻联系我们,表示一定要采用这个技术。他们希望通过DeepSeek赋能内部的研发资料库,提升研发效率和知识管理能力。InfoQ:有观众提问:如果自己的公司想本地化部署、搭建自己的知识库,应该选择:有观众提问:如果自己的公司想本地化部署、搭建自己的知识库,应该选择DeepSeek的哪一

    291、个版本,或者有没有其他更好的解决方案?的哪一个版本,或者有没有其他更好的解决方案?谢孟军谢孟军:我觉得搭建公司知识库的关键在于明确用途。如果只是搭建一个简单的知识库,我认为32B的模型其实就足够了,效果也不错。关于具体的硬件配置,大家可以访问+DeepSeek模型兼容性检测+,通过这个工具检测一下自己所需的硬件配置。私有化部署选什么版本的私有化部署选什么版本的DeepSeek其实取决于具体的应用场景其实取决于具体的应用场景。如果条件允许,满血版当然是最好的,但成本确实很高,至少两三百万起步。如果需求没那么复杂,比如7B或8B的版本,我建议大家可以考虑买个Mac mini,七八千块钱就能搞定,或

    292、者自己配一台台式机,大概一万元左右就能部署起来了。像我现在用的Mac Pro,本机就能部署14B的模型。我看到还有同学问满血版需要多少张显卡。这要看具体用什么型号的显卡了,比如H200还是H20,不同显卡的数量要求是不一样的。如果是H20的话,大概需要14张到16张。现在大家在部署过程中确实会发现有不少问题,尤其是满血版的部署,并没有想象中那么简单。推理模型的优化参数和配置都需要仔细调整,过程中有不少需要注意的地方。InfoQ:有观众提问:问题怎么转成向量去匹配相应的知识库?:有观众提问:问题怎么转成向量去匹配相应的知识库?谢孟军谢孟军:这个就是RAG(Retrieval-Augmented

    293、Generation)技术。它的核心机制是这样的:当一个文档输入进来时,系统会将其分解为一个个小块,然后通过embedding模型将这些块转化为向量并存储起来。当你需要查询时,问题也会被转化为向量,然后在向量库中进行相似度搜索。不过,RAG目前面临一个很大的问题:当文件数量很多,比如达到5,000个时,多路召回的结果会非常多,相似度匹配的结果也很多,这就很难确定到底哪 112 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 个是最相关的。因此,上下文的重要性就凸显出来了。现在,大家开始转向一种新的模式Graph RAG,也就是将知识图谱的概念与RAG结合。这样可以更好地

    294、处理上下文信息,提升检索的准确性和效率。InfoQ:有观众提问:运维该如何提升效率,有什么建议?:有观众提问:运维该如何提升效率,有什么建议?谢孟军谢孟军:我建议使用Cursor写运维脚本,效率提升非常明显,因为运维工作本身就涉及大量脚本编写。我个人最大的感受是,我们的学习模式可能会因此改变。比如,我以前对前端开发不太熟悉,尤其是TypeScript和React,但现在很多都能轻松上手,写得很快。为什么呢?因为我采用了“干中学、学中干”的方式通过与Cursor对话,利用它强大的代码生成能力,它会根据你的需求生成代码。我们程序员已经掌握编程基本逻辑,比如如何管理包、下载和运行代码,而且Curso

    295、r生成的代码语法基本正确,只需要稍作检查即可运行。更重要的是,Cursor会帮你生成目录树和文件结构。因为它已经学习了大量开源代码,所以它能合理设计目录架构。我觉得这种方式特别适合每一个IT人,因为它不仅提高了效率,还帮助我们在实践中学习新技术。InfoQ:国内的代码开发工具你有用过吗?可以点评一下吗?:国内的代码开发工具你有用过吗?可以点评一下吗?谢孟军谢孟军:国内目前我还没用过类似的产品。现在唯一值得期待的就是字节跳动的“Trae”。之前也有一些产品,比如百度的Comate(文心快码),它们都是对标Copilot的。但Copilot其实是上一个年代的产品,体验非常差,如果国内的产品只是对标

    296、Copilot,我觉得那还是上一代的东西。听说字节跳动的“Trae”可能会对标Cursor,它在3月份应该会发布国内版。InfoQ:你怎么看待:你怎么看待AI领域里的创业新机会的?对于普通人来说,又如何借助领域里的创业新机会的?对于普通人来说,又如何借助AI成为一个成为一个超级个体?超级个体?谢孟军谢孟军:现在很多人都在提“一人团队”的概念,如果你创业的话,一人团队其实是个很好的选择。TGO鲲鹏会的会员开设了“一人出海”的课程,值得去学习一下。我觉得一人团队的核心在于,现在各个细分赛道中确实出现了很多AI场景应用的机会。以前我们可能需要一个大团队来完成这些工作,因为涉及到各种协同和分工。但现在

    297、,借助AI 113 AIAI前线前线|特刊特刊 工具,一个人就能搞定很多事情。比如我之前提到的cursor,我有一个朋友,他以前完全没有编程基础,甚至不是计算机专业出身,但最近迷上了cursor,天天在用它写小程序,甚至还成功上线了。当然,我会慢慢给他普及一些基础知识,因为他需要补充的地方还有很多。但这就是AI时代个体创业的魅力所在。不仅仅是cursor,我很多时候有了一个想法,就会让AI帮我写草案,比如文章、设计文稿、API文档,甚至针对API的测试用例,这些都可以通过AI快速生成。InfoQ:比如你早上:比如你早上9点坐在办公室里,晚上点坐在办公室里,晚上9点离开办公室,在这点离开办公室,

    298、在这12个小时里,你会用个小时里,你会用到哪些到哪些AI工具来提升工作效率?工具来提升工作效率?谢孟军谢孟军:Cursor大概占了我50%的时间,我主要用它来辅助编程和生成代码。另外,我还会用Claude,它能快速帮我把一些想法整理成初稿,完善成具体的方案。第三个用得比较多的是Notion,我会把所有的东西都记录在里面。偶尔会用到Napkin和Gamma,它能把文字内容快速转化为PPT格式。当然,还有一些小工具,比如即梦,会用来做海报,比如AI自动生成海报这类功能。InfoQ:AI帮助我们提升工作效率,未来也可能会改变我们的工作方式。帮助我们提升工作效率,未来也可能会改变我们的工作方式。AGI

    299、(通用人工(通用人工智能)出现后,可能会取代我们智能)出现后,可能会取代我们80%甚至甚至90%的工作。从你的角度来看,未来怎么去定的工作。从你的角度来看,未来怎么去定义人在其中的价值?我们该如何更好地适应义人在其中的价值?我们该如何更好地适应AI时代,或者迎接时代,或者迎接AGI的到来?的到来?谢孟军谢孟军:我没有很深刻地思考过这个问题,只是有一些肤浅的看法。但我一直觉得,目前AI还只是一个辅助工具,它还无法完全替代人类。在很多场景里,AI仍然做不到完全取代人的工作。人的认知很重要。现在很多时候,关键在于你的思维方式和视野有多宽。比如,就像刚才提到的,用AI去写东西,你需要先想清楚自己想写什

    300、么,以及这个东西能产生什么价值。这些需要人去思考。你不能让AI帮你完成整个闭环。比如,你让AI设计一个“利润率能达到50%的产品并上线”,这种要求实现的可能性并不大。114 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 全球全球AIAI新格局:新格局:DeepSeekDeepSeek带来的生态机会带来的生态机会 作者:谢国斌 本文整理自InfoQ策划的DeepSeek系列直播第九期节目。在直播中,极客邦科技创始人&CEO霍太稳对话神州数码集团首席AI专家谢国斌,深入探讨了DeepSeek爆火背后,AI竞争格局将发生哪些变化,以及在新的格局下,AI企业会面临哪些新的机会

    301、和挑战,企业又该如何抓住这些机遇。谢国斌表示,随着AI接入门槛和成本的降低,金融、医疗、教育和汽车等行业的应用可能会率先爆发。除此之外,制造业、办公行业等也有很大的发展空间。但对于B端企业而言,除了DeepSeek这样的开源大模型外,还需要多方面的技术进行叠加,从多个维度考虑技术的应用,比如:在部署过程中尽可能利用GPU算力优化,进行进行场景化、专业的小模型训练,引入私域化的知识,提供一套智能体协同框架 115 AIAI前线前线|特刊特刊 等等。下文为直播部分内容精选,完整直播回放下文为直播部分内容精选,完整直播回放&最新直播预约可关注“最新直播预约可关注“AI前线视频号”查看。前线视频号”查

    302、看。以下为谢国斌的分享实录部分(经编辑)以下为谢国斌的分享实录部分(经编辑):DeepSeek技术创新带来的影响技术创新带来的影响 在原创核心技术方面,我们特别关注以下几个方面。1.群体相对策略优化(群体相对策略优化(GRPO):在传统的强化学习中,评价一个模型表现好坏的函数通常需要人工设定。而DeepSeek采用了一种创新方法,即引入多个“评委”进行投票,取平均值作为评价标准。这种方法省略了人工设定评价函数的流程,简化了算法,是强化学习领域的一个关键创新。2.多头潜在注意力(多头潜在注意力(MLA):该架构通过降维操作大幅压缩了计算量,显著降低了模型的训练和推理成本。3.混合专家模型(混合专

    303、家模型(MoE):这种架构通过集成多个专家网络,极大地扩展了模型的参数规模,同时在推理侧显著加速了推理过程。这种结构类似于“有通识专家、有专识专家,相互配合、各司其职”,与传统方法相比,效果显著提升。4.多令牌预测(多令牌预测(MTP):这一技术已经在很多技术专家的分享和网络博客中被广泛讨论,因此我们这里也不再详细介绍。116 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 在企业应用落地方面,DeepSeek的价值主要体现在以下四个方面,这些价值对全球AI格局产生了深远影响。1.降低推理成本降低推理成本:虽然训练成本已经较低,但DeepSeek的最大优势在于推理成本。

    304、通过MLA等技术,推理成本降至之前的约3%,降低了97%。这一优势对中小企业尤其友好,能够加速AI大模型在企业应用场景中的落地。2.模型思考,深度如人模型思考,深度如人:R1模型是一个深度思考模型,不仅提供问题的答案,还展示了推理过程,类似于数学题的解题步骤。这种推理模型的可解释性更强,更适合赋能更多企业应用场景。用户可以通过模型的推理过程,清晰地看到模型是如何得出答案的。3.小模型,大作为小模型,大作为:除了完整的全参模型,DeepSeek的R1模型还蒸馏出了7个不同尺寸的小模型。这些小模型数据质量高,蒸馏效果优于同类尺寸模型。在企业落地时,可以选择这些小模型,进一步降低推理成本,同时保持良

    305、好的效果。4.开源、全栈自主可控开源、全栈自主可控:DeepSeek将模型开源,为全球同行和企业提供了一个自主研发和迭代的基础。目前,国内众多企业,包括芯片企业和云厂商,已经开始接入DeepSeek原生态模型。这不仅推动了国产化进程,也为建立安全可控的AI生态提供了重要的参考和标杆。AI市场格局变化,机遇挑战并存市场格局变化,机遇挑战并存 在全球市场,包括国内的重点领域,AI市场格局发生了诸多变化,对企业与个人而言,机遇与挑战并存。以神州数码为例,我们是一家专注于ToB的技术服务公司,从客户市场需求的角度出发,探讨客户需要什么样的AI技术企业为其提供服务。除了DeepSeek这样的开源大模型外

    306、,企业客户还需要以下几方面的技术进行叠加。1.企业需要将DeepSeek大模型部署起来,并在部署过程中尽量利用部署过程中尽量利用GPU算力优化算力优化,以节省GPU算力成本,无论是训练成本还是推理成本。2.基于DeepSeek开源模型,企业可以进行场景化、专业的小模型后训练进行场景化、专业的小模型后训练,例如7B、14B等,以降低算力门槛。在训练过程中,数据源就像炒菜的原材料一样重要。只有通过专业的模型训练,才能保证模型的质量和效果。3.企业还需要引入私域化的知识引入私域化的知识,例如企业内部的文档和专家经验等。这是因为通用 117 AIAI前线前线|特刊特刊 的大模型无法满足企业的个性化需求

    307、,就像厨师需要根据客人的口味进行私人化的调制一样,企业也需要将内部的知识和经验融入模型中,通过知识管理实现这一点。4.企业需要提供一套智能体协同框架提供一套智能体协同框架。以炒菜为例,整个过程可以分为多个步骤,如放油、炒佐料、放菜品、勾芡等。在企业中,智能体可以将这些步骤串联起来,让每一步都发挥专业功能。在AI技术中,这可能涉及引入外部工具,此外,还可以结合不同的大模型和小模型、专业模型和通用模型,以提升智能体的效果。当企业的应用越来越多时,就需要一个大模型平台来承载这四方面的功能,以便在企业中有上百个、上千个应用和智能体时能够正常运转。神州问学平台正是按照这样的逻辑进行研发和服务于企业的。在

    308、实现过程中,客户不仅需要技术手段,还希望在业务中实现高准确性和高并发能力。例如,对话机器人在回答客户问题时,需要较高的准确性,并且能够同时支持上百个、上千个C端客户的提问。同时,项目还需要满足经济预算要求,例如对话机器人的预算可能是50万或100万。最终目标是让大模型在企业应用场景中落地,帮助企业实现增收降本和提升办公效率。客户需求和市场需求的变化正在深刻地引导整个AI市场格局的演变,尤其是ToB(企业服务)领域。虽然ToC领域也会受到影响,但这里我们重点关注的是ToB市场格局的变化。DeepSeek的出现,凭借其开源、低成本等特性,正在引发AI市场格局的重大变革,并推 118 DeepSee

    309、kDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 动商业模式的重塑。市市场格局变化场格局变化 生态格式变化生态格式变化:众多企业围绕DeepSeek建立生态,上下游企业纷纷进行适配。这可能导致市场格局转向更加开放和多元化的竞争格局。更多的企业将有机会参与到AI技术的研发和应用中,推动AI技术的普及和创新。垂直领域分化垂直领域分化:医疗、法律等专业场景将出现基于DeepSeek的细分模型,打破通用基础模型的统治。产业链价值转移产业链价值转移:上游算力需求向推理侧倾斜,下游应用开发门槛降低将催生更多垂直领域SaaS服务商。硬件厂商需转向算力部署和能效优化,软件企业则需强化工程平台和应用能力

    310、。商商业模式重塑业模式重塑 开源重要性上升开源重要性上升:从DeepSeek R1的成功我们可能会看到更多的公司转向开源或部分开源模型,以保持竞争力。这种变化将促使AI市场形成更加良性的竞争环境,消费者也将获得更具性价比的AI服务。催生新的商业模式催生新的商业模式:DeepSeek R1的成功及开源,改变了市场竞争的格局和态势,将来也会催生新的商业模式。比如围绕开源生态、高效推理、模型蒸馏等模型架构创新、核心关键技术展开新的商业范式。企业流程重塑与再造企业流程重塑与再造:DeepSeek R1的成功及开源,改变了市场竞争的格局和态势,将来也会催生新的商业模式。比如围绕开源生态、高效推理、模型蒸

    311、馏等模型架构创新、核心关键技术展开新的商业范式。对于企业而言,AI技术的发展既带来了机遇,也带来了挑战,两者是并存的。119 AIAI前线前线|特刊特刊 新新机遇机遇 为为技术企业带来了新的机会技术企业带来了新的机会 DeepSeek生态的建立为技术企业带来了新的机会。例如,中小企业可以通过低成本接入DeepSeek生态,实现低成本创新。DeepSeek通过模型蒸馏技术赋能中小企业,降低AI开发门槛,推动AI应用从头部企业垄断转向长尾场景渗透,如金融、医疗、教育等领域。端端侧应用爆发侧应用爆发 DeepSeek轻量版适配手机、电脑AIPC、IoT设备,催生本地化AI应用(如离线语音助手)。数数

    312、据标注工业化据标注工业化 专业标注公司可能会向推理链标注等高阶服务转型。新新挑战挑战 技术企业将面临更多样化的挑战技术企业将面临更多样化的挑战:例如,如何在保证模型性能的同时进一步降低训练成本和推理延迟等。企业需要不断提升自身的技术实力和创新能力,以应对这些挑战。软硬协同能力软硬协同能力:技术企业需建立算法-硬件协同优化能力(如DeepSeek的GRPO、MLA、MoE与架构创新结合)。安全合规风险安全合规风险:垂直开源模型应用可能面临一定的安全风险,需内嵌审计模块。AI技术企业应对的策略和思路技术企业应对的策略和思路 策策略略1:提供:提供DeepSeek全套解决方案全套解决方案-模型部署、

    313、训练和应用适配模型部署、训练和应用适配 以我们公司过往的经验为例,首先,作为一家专注于AI技术落地应用的公司,神州数码的第一个策略是为行业提供完整的提供完整的DeepSeek解决方案解决方案。这包括模型的部署,无论是满血版还是各种尺寸的蒸馏版,以及模型训练和算力管理。例如,基于千问32B这种主流模 120 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 型,我们现有的平台产品不仅能支持模型训练,还能实现多元异构算力的高效利用和管理,从而提升算力的使用效率。同时,我们的平台还集成了智能体和知识管理模块,以支持企业场景的应用和适配。我们认为,这个过程不是一个单向的,而是一个

    314、不断迭代的循环。通过模型的部署、训练和应用适配,我们不断循环优化,持续抽取企业行业中的最佳实践案例,从而为客户提供更优质的解决方案。策策略略2:践行:践行DeepSeek行业实践行业实践-企业知识治理平台企业知识治理平台 我们的第二个策略是践行DeepSeek在行业中的实验应用,特别是在企业的知识治理平台上。我们会将企业内部的结构化数据中台和数据仓库中的结构化数据,与中台里的知识对象以及非结构化数据进行融合。这里所说的非结构化数据,是指大家常见的PDF文档、Word文档、PPT文档,甚至是图片和语音等。这些数据都可以被纳入我们的知识治理平台进行利用。当然,在使用过程中,我们会充分考虑数据的脱敏

    315、和安全,确保这些数据仅在企业内部使用,不会对外泄露。基于我们问学的知识治理平台,我们将企业的知识类化到模型中,或者作为外部工具进行调用。121 AIAI前线前线|特刊特刊 策策略略3:敏捷的构建:敏捷的构建DeepSeek应用流程应用流程-智能体平台智能体平台 我们的第三个策略是提供一个敏捷的应用流程平台,类似于厨师炒菜的步骤规划。我们将其称为智能体平台,它的作用是将一个复杂的应用分解为多个步骤。这就好比人脑的规划过程比如从北京到上海出差,我们会先规划订机票的时间、起飞时间,以及当地的酒店和行程安排。规划完成后,在出差过程中会用到各种工具,比如订机票和酒店,这些工具在我们的平台上被称为“功能调

    316、用”(Function Call)。在此基础上,我们在规划过程中设计了执行流程,通过这些流程提高效率并创新企业的业务流程。最后,我们利用低代码工具将这些流程串联起来,从而轻松构建智能体,赋能企业的应用。122 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 神神州数码的未来愿景州数码的未来愿景-助力企业助力企业AI for Process 神州数码的未来愿景是通过AI助力企业内部流程的重塑与再造,提升效率,并为此提供相应的工具和服务。我们认为企业流程主要体现在三个方面:首先是商业模式商业模式,即企业如何创造、传递和获取商业价值;其次是管理方法管理方法,涉及企业内部运营资

    317、源的决策、绩效管理等基本实践;最后是技术的领先性,通过技术架构技术架构(如大模型架构、AI架构和中台架构)与商业模式和管理方法的融合,提升企业的运行效率、降低成本并优化资源配置。神州数码提出的“AI for Process”概念,正是商业模式、管理方法和技术架构三者的融合点。我们倡导的企业落地方法论是“大小模型通专融合”,以促进企业AI在流程中的应用。具体而言,横向的基础模型,如DeepSeek V3以及其他商业或开源模型,通过不断迭代,逐渐从狭义走向广义,最终迈向通用人工智能。这些模型就像通识专家,能够解答各种问题,其通用能力会越来越强。而纵向的专业能力则是通过小模型(专识专家)结合场景数据

    318、进行微调,例如7B、14B模型,它们可能针对金融、招聘、财务或风险管控等具体场景,逐步达到甚至超越专业人才的水平。当横向的通用能力和纵向的专业能力经过长期发展后,会形成一个兼具通用性和专业性的区域。这种大模型的通用能力与小模型的专业能力相结合,将有力推动企业AI的落地应用。在这个过程中,需要运用智能体的决策能力、规划能力、判断能力、反思能力和工具调用能力等,以决定何时使用大模型、何时使用小模型。这些能力将不断推动行业企业及业务场景的落地,逐步实现从商业模式到管理方法再到技术架构的闭环,最终助力企业实现AI for Process的目标。以下为对话实录部分(经编辑)以下为对话实录部分(经编辑):

    319、InfoQ:DeepSeek的出现在中国的算力产业中引起了一场狂欢,这是否意味着像的出现在中国的算力产业中引起了一场狂欢,这是否意味着像MoE这这样的架构会越来越多地成为行业的主流?同时,这是否也意味着未来样的架构会越来越多地成为行业的主流?同时,这是否也意味着未来AI领域的竞争将从领域的竞争将从硬件堆砌转向算法创新?如何在这种算力和算法之间实现动态平衡呢?硬件堆砌转向算法创新?如何在这种算力和算法之间实现动态平衡呢?谢国斌谢国斌:我个人认为MoE架构很有可能成为主流的大模型架构。在MoE出现之前,尤其 123 AIAI前线前线|特刊特刊 是在DeepSeek出现之前,大约90%以上的模型架构

    320、都不是MoE的。自2月份DeepSeekMoE架构推出后,我们观察到许多公司,都在积极跟进这一技术。从现实情况来看,越来越多的企业倾向于尝试MoE架构。从MoE算法本身的逻辑来看,它也非常适合在行业中占据重要地位。MoE架构将专家分为通识专家和专识专家,类似于通用大模型和专业大模型的搭配使用。从DeepSeek V1到V2再到V3,专家数量不断增加,从16个提升到现在的250多个。我们可以预见,随着MoE架构的不断发展,专家数量的增加将使其在语义理解上比传统架构更深入,因为每个专家都专注于特定的任务。此外,与相同参数量的其他大模型相比,MoE在推理过程中能够显著降低成本,对行业应用非常友好。我

    321、们观察到AI竞争的一个趋势是,国外主要依靠硬件堆砌,尤其是通过大量GPU来提升算力,这种方式被称为“Scaling Law”。但我们认为,算法创新同样重要。现在,架构性、核心算法的创新正在成为一种趋势,而不仅仅是算力的堆砌。实际上,MoE架构与架构与传统非传统非MoE架构、硬件堆砌与算法创新之间并不矛盾,它们是相辅相成的。架构、硬件堆砌与算法创新之间并不矛盾,它们是相辅相成的。当算力堆砌达到一定程度后,自然会有团队和公司去考虑算法创新。而在算法创新的过程中,也会进一步推动数据利用、算力利用和应用创新方面的“Scaling Law”。这种动态的、相辅相成的发展模式更适合未来AI在企业中的落地。I

    322、nfoQ:有观众提问:企业在部署:有观众提问:企业在部署DeepSeek后,如果使用自有数据,是否需要采用后,如果使用自有数据,是否需要采用RAG?谢国斌谢国斌:RAG技术,中文称为“检索增强生成”,它与大模型的最大区别在于:大模型像是一个已经内化了知识的学生,比如一个学生学习数学,知识被吸收并理解后存储在模型内部。而RAG技术则通过向量检索和文档切技术则通过向量检索和文档切片的方式,从数据库中调取与问题最相片的方式,从数据库中调取与问题最相关的片段,这种能力属于模型外部的增强关的片段,这种能力属于模型外部的增强,与大模型的内部知识存储有本质区别。简单来说,一个是模型内部的知识运用,另一个是模

    323、型外部外挂的辅助检索。RAG技术本身可以通俗地分为三个步骤:1.文档处理。文档处理。将文档(例如一千页的内容)进行切片,可以按段落、每1000词或每页等不同方式切分,然后将这些切片存入向量数据库。目前有很多开源和商业版的向量数据库可供选择。124 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 2.检索和召回检索和召回。当用户提出问题时,系统会通过向量大模型算法计算问题与文档片段之间的相似度,从一千页文档中找出与问题最相关的5个片段。这一步主要是基于向量运算的相似度匹配。3.答案生成答案生成。最后将问题和这5个最相关的片段一起输入到大模型(如V3或R1)中,由大模型理解

    324、并生成最终答案。只有这最后一步真正利用了大模型的能力,而前两步主要依赖于向量运算,与大模型关系不大。InfoQ:可以这样理解吗:“引入:可以这样理解吗:“引入RAG技术能够让大模型的搜索变得更加精准,尤其是在技术能够让大模型的搜索变得更加精准,尤其是在企业内部使用私有数据时,这种精准性会更加凸显。”企业内部使用私有数据时,这种精准性会更加凸显。”谢国斌谢国斌:RAG技术确实能让大模型的搜索更加精准。一方面,大模型的训练数据通常有一个截止日期,比如截止到今天。这意味着模型在上线后无法实时处理新信息,例如明天北京下雨这样的实时信息或新闻。这时,就需要通过外部知识或企业内部知识,以数据灌入的方式临时

    325、更新模型的知识库。这就是RAG的切片和检索增强生成过程。另一方面,企业内部数据量庞大,不适合直接用于模型训练,而RAG技术提供了一种低成本的解决方案。目前,许多云厂商提供的向量数据库报价非常低廉,几乎可以忽略不计。RAG技术不仅能实时更新信息,还能快速处理数据。如果RAG配置得当,其检索速度可达毫秒级,尤其在文档切片合理、数据量较小时,性能优势尤为明显。不过,RAG的语义理解能力相比大模型内化的语义理解稍弱。因此,RAG技术在2024年得到了广泛应用,尤其是在企业知识管理领域。InfoQ:中小企业如何低成本接入:中小企业如何低成本接入DeepSeek的生态,实现低成本创新?此外,在这个领的生态

    326、,实现低成本创新?此外,在这个领域里,哪些应用可能会率先爆发?能否通过一两个案例来回答这个问题?域里,哪些应用可能会率先爆发?能否通过一两个案例来回答这个问题?谢国斌谢国斌:对于中小企业而言,大模型DeepSeek的影响主要体现在以下几个方面。首先,在具体场景中选择落点时,中小企业可能对数据隐私和准确性要求并不那么敏感。因此,我们建议的低成本接入方法是,选择一个数据隐私要求不高、对准确性要求不那么严格我们建议的低成本接入方法是,选择一个数据隐私要求不高、对准确性要求不那么严格的场景,先将其跑通的场景,先将其跑通。在这个阶段,企业可以使用DeepSeek的开源云API,利用云上的数据进行开发。这

    327、样可以让企业内部的IT人员和业务人员对整个流程有一个全新的认识,了解对话机器人或内部问答系统是如何运作的。125 AIAI前线前线|特刊特刊 当企业对流程有了全面理解后,可迅速切换到更敏感的场景,就可以开始考虑私有化部署DeepSeek。在私有化部署的初期,可以选择一些小参数模型,比如14B、32B,或者是DeepSeek蒸馏版本的模型。通过小参数模型的私有化部署,企业既能保证数据安全,又不会因为一次性部署满血版模型而承担过高的服务器成本。当某些场景对精度要求较高时,企业可以选择两条路径:一是直接使用DeepSeek的满血版开源模型;二是基于企业自身数据进行微调或模型蒸馏,从而提升精度。这些方

    328、案对中小企业来说较为友好,关键在于先跑通流程。我们判断,金融、医疗、教育和汽车等行业的应用可能会率先爆发我们判断,金融、医疗、教育和汽车等行业的应用可能会率先爆发。这些行业对AI技术的需求大,市场空间广阔,但同时也面临着较高的开发成本和门槛。通过我们提到的技术落地方案,如模型微调、数据蒸馏等,结合平台工程能力,可以大幅降低开发门槛,释放行业潜力。当然,除了这些行业,制造业、企业办公制造业、企业办公等应用也有很大的发展空间。InfoQ:神州数码是否有已经落:神州数码是否有已经落地的金融大模型相关应用,或者在这一领域有什么研究地的金融大模型相关应用,或者在这一领域有什么研究方向?方向?谢国斌谢国斌

    329、:在金融领域,我们已经有了一些大模型的应用案例。神州数码在金融领域已有多年布局,尤其是通过上市公司神州信息与相关企业展开合作,专注于金融科技和金融软件的研发和服务。在银行核心系统的开发中,以前代码编写和业务场景设计代码编写和业务场景设计主要依赖人工。现在,我们通过DeepSeek和大模型技术,将其应用于银行核心系统,提升编程效率和交付能力,同时优化与企业业务相关的流程设计。在银行获客和营销银行获客和营销方面,我们利用大模型处理结构化和非结构化数据,帮助银行更好地理解客户、获取客户,并助力零售业务发展。大模型不仅可以作为对话机器人,还能优化企业内部信息沟通流程,尤其在客户认知和客户获取方面,提供

    330、了很大帮助。此外,我们在金融风控和监管报送金融风控和监管报送领域也进行了实践探索。例如,在银行、监管部门的一些业务应用中,大模型能够快速分析数据之间的复杂关系,帮助防范金融风险。因为银行流程中存在大量控制点,仅靠人工判断有时难以快速响应,而大模型可以高效处理这些复杂关系,从而在金融风控和监管报送领域发挥重要作用。InfoQ:有观众提问:在第三方:有观众提问:在第三方IT运维和服务行业,如何利用运维和服务行业,如何利用DeepSeek来提升客户服务来提升客户服务 126 DeepSeekDeepSeek:AIAI赛道的超级引擎赛道的超级引擎 的价值,的价值,特别是在特别是在IT运维方面?运维方面

    331、?谢国斌谢国斌:在为ToB客户提供IT运维服务时,DeepSeek可以从两方面带来价值。一方面是为客户(甲方)创造价值。对于客户的机房和后台系统,包括安全系统、日志系统、邮件系统等,运维过程中涉及大量非结构化数据,如计算机日志和文档。这些场景非常适合利用大模型进行处理。过去依赖人工的环节,现在可以通过运维框架中的运维智能体来过去依赖人工的环节,现在可以通过运维框架中的运维智能体来实现实现,从而降低服务成本,优化流程。这正是AI for Process在运维领域的体现,能够为甲方带来显著的流程优化价值。另一方面,对于提供IT运维服务的企业自身而言,DeepSeek也具有巨大价值。在运维过程中,企

    332、业可以基于大模型开发小型工具,例如代码工具、自动检测工具、警报工具或BI工具等。这些工具能够降低企业在服务过程中的自身人力成本和研发成本降低企业在服务过程中的自身人力成本和研发成本,提高服务效率。因此,从服务甲方和优化自身成本两方面来看,DeepSeek都具有潜在的巨大收益。InfoQ:现在很多中小企业都在利用模型蒸馏技术来降低:现在很多中小企业都在利用模型蒸馏技术来降低AI开发的门槛,并推动开发的门槛,并推动AI应用从应用从头部企业的垄断向长尾场景渗透,比如金融、医疗、教育等领域。蒸馏技术为什么对中头部企业的垄断向长尾场景渗透,比如金融、医疗、教育等领域。蒸馏技术为什么对中小企业在开发小企业

    333、在开发AI应用非常重要?应用非常重要?谢国斌谢国斌:从学术和常识角度来看,蒸馏分为数据蒸馏和模型蒸馏数据蒸馏和模型蒸馏。数据蒸馏是指通过调用优质模型的API,以问答形式按照固定格式生成标准答案,甚至推理过程。DeepSeek在其论文中就采用了数据蒸馏的方式。模型蒸馏则是用大模型去指导小模型学习。业界有一个通俗的比喻:假设有一个资深的高级数学教师(大模型,如R1/V3),他要教一个聪明的学生(小尺寸模型,如32B)。教师将自己的知识和技能逐步传递给学生,这个过程就是蒸馏。经过蒸馏,小尺寸模型在企业应用中会有两个显著好处:1.模型尺寸变小,推理时算力需求降低,从而极大节省成本模型尺寸变小,推理时算力需求降低,从而极大节省成本。例如,一个满血版的大模型(如R1-671B)可能需要两台机器、16张显卡来部署,成本极高。但如果将其蒸馏到32B模型,仅需一张显卡即可部署,成本节约可达十几倍到几十倍。2