《2025年DeepSeek背景、模型技术及其对AI行业的影响分析报告(43页).pdf》由会员分享,可在线阅读,更多相关《2025年DeepSeek背景、模型技术及其对AI行业的影响分析报告(43页).pdf(43页珍藏版)》请在薪酬报告网上搜索。
1、2 0 2 5 年深度行业分析研究报告5目录目录一、一、DeepSeek背景介绍背景介绍1.1、DeepSeek股权结构及创始人背景1.2、DeepSeek母公司幻方量化,早期确立AI战略为后续出圈埋下伏笔1.3、DeepSeek重视年轻团队且兼具深厚技术底蕴,薪酬对标字节跳动研发岗1.4、DeepSeek产品家族全梳理1.5、DeepSeek日活远超同期ChatGPT,下载量霸榜全球140个市场移动应用榜首1.6、DeepSeek获得海内外市场认可,中国AI产业首次步入引领位置二、二、DeepSeek模型家族技术详解模型家族技术详解2.1、DeepSeek模型家族技术创新框架总揽2.2、De
2、epSeek v3:性能对齐海外领军闭源模型,DeepSeek2024年巅峰之作2.3、DeepSeek R1 Zero核心创新点RL(强化学习)替代SFT(有监督微调)2.4、DeepSeek R1:高质量冷启动数据+多阶段训练,将强推理能力泛化2.5、开源大模型:打破OpenAI等闭源模型生态,提升世界对中国AI大模型认知三、三、DeepSeek对对AI应用的影响?应用的影响?3.1、DeepSeek打开低成本推理模型边界,加速AI应用布局进程3.2、DeepSeek R1蒸馏赋予小模型高性能,端侧AI迎来奇点时刻四四、DeepSeek对算力影响?对算力影响?4.1、DeepSeek V3
3、训练中GPU成本558万美元,对比海外成本降低4.2、DeepSeek或有约5万Hopper GPU,训练总成本或较高4.3、推理化:推理算力需求占比提升,GenAI云厂商有望受益一一、DeepSeekDeepSeek背景背景介绍介绍1.1、DeepSeek股权结构及创始人股权结构及创始人背景背景 DeepSeek DeepSeek是一家于是一家于20232023年成立的中国初创企业,创始人是年成立的中国初创企业,创始人是AIAI驱动量化对冲基金幻方量化的掌门人梁文锋驱动量化对冲基金幻方量化的掌门人梁文锋。从股权结构图显示,DeepSeek由四名自然人通过五层控股掌握100%股份(其中梁文锋间
4、接持股比例83.29%,直接持股1%,累计84.2945%)。创始人梁文锋出生于广东湛江,浙江大学毕业,拥有信息与电子工程学系本科和硕士学位,创始人梁文锋出生于广东湛江,浙江大学毕业,拥有信息与电子工程学系本科和硕士学位,2008年起开始带领团队使用机器学习等技术探索全自动量化交易,2015年幻方量化正式成立。2021年,幻方量化的资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。2023年梁文锋宣布正式进军通用人工智能领域,创办DeepSeek,专注于做真正人类级别的人工智能。资料来源:商界观察图图:DeepSeekDeepSeek股权股权结构结构图图:幻方创始人梁文峰幻方创
5、始人梁文峰(图右图右)1.2、DeepSeek母公司幻方量化母公司幻方量化,早期确立早期确立AI战略为后续出圈埋下伏笔战略为后续出圈埋下伏笔 母公司幻方量化确立以母公司幻方量化确立以AIAI为发展方向为发展方向。2016年,幻方量化第一个由深度学习算法模型生成的股票仓位上线实盘交易,使用GPU进行计算。随后不久,该公司明确宣布AI为主要发展方向。量化投资全面量化投资全面AIAI化驱动囤卡需求化驱动囤卡需求,为后续蜕变埋下伏笔为后续蜕变埋下伏笔。复杂的模型计算需求使得单机训练遭遇算力瓶颈,训练需求和有限的计算资源产生矛盾,幻方需要解决算力受限难题。于是幻方在2019年成立了一家AI基础研究公司,
6、并推出自研的“萤火一号”AI集群,搭载500块显卡。2021年,幻方又斥资10亿元建设“萤火二号”,为AI研究提供算力支持。幻方在构建AI算力过程中的“囤卡”动作为它赢得了市场机会。作为国内早期的英伟达芯片大买家之一,2022年其用于科研支持的闲时算力高达1533万GPU时,大大超越了后来很多大模型公司。图图:幻方量化发展幻方量化发展历程历程图图:幻方官网首页标语幻方官网首页标语,以以AIAI为核心发展为核心发展方向方向资料来源:公司官网,国海证券研究所1.3、DeepSeek重视年轻团队且兼具深厚技术底蕴重视年轻团队且兼具深厚技术底蕴,薪酬水平对标字节跳动薪酬水平对标字节跳动研发岗研发岗 团
7、队以年轻化为主团队以年轻化为主,具备深厚技术底蕴具备深厚技术底蕴。创始人梁文锋曾在36氪的采访中,给出了DeepSeek的员工画像:“都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。”自2023年5月诞生以来,DeepSeek始终维持约150人的精英团队,推行无职级界限、高度扁平化的文化,以此激发研究灵感,高效调配资源。早在2022年,幻方量化便着手为DeepSeek筹建AI团队,至2023年5月DeepSeek正式成立时,团队已汇聚近百名卓越工程师。如今,即便不计杭州的基础设施团队,北京团队亦拥有百名工程师。技术报告的致谢栏揭示,参与DeepSeek V
8、3研发的工程师阵容,已壮大至139人。团队薪酬水平对标字节跳动研发岗位团队薪酬水平对标字节跳动研发岗位,且不限制人才的算力使用且不限制人才的算力使用。据36氪资料显示,DeepSeek薪酬水平对标的字节研发,“根据人才能拿到的字节offer,再往上加价”;同时只要梁文锋判断技术提案有潜力,DeepSeek给人才的算力,“不限”。图图:DeepSeekDeepSeek公开招聘职位信息公开招聘职位信息汇总汇总资料来源:华尔街见闻,国海证券研究所职位名称面向群体申请要求薪酬水平深度学习研究员校招&实习熟练掌握至少两种编程语言;在国际顶会或期刊发表相关论文;知名比赛成绩8-11万元/月,一年14薪资深
9、ui设计师经验不限,本科优秀的艺术类教育背景;有互联网或科技公司UI设计工作经验;4-7万元/月,一年14薪深度学习研发工程师在校/应届,本科较强的工程能力;工程能力;知名比赛成绩4-7万元/月,一年14薪数据架构工程师在校/应届,本科有搜索、推荐、广告等业务数据的处理经验;有 规模中文网页数据收集和清洗经验者优先4.5-6.5万元/月,一年14薪全栈开发工程师在校/应届,本科对主流的开源软件有深入的了解,并且对此有做出贡献2.5-5万元/月,一年14薪客户端研发工程师在校/应届,本科计算机或相关专业优先;有独立开发App经验,有优秀开源项目者优先。2-4万元/月,一年14薪深度学习实习生计算
10、机及相关专业研究生,特别优秀的本科生;具有扎实的编程功底;有顶级AI会议论文发表经验或开源项目贡献经验者优先500元/天,4天一周,6个月;非北京地区学生来京实习有租房补助3000元/月1.4、DeepSeek产品家族全产品家族全梳理梳理资料来源:新浪人工智能,国海证券研究所模型类别日期名称内容对标LLM2023年11月2日DeepSeek Coder模型包括 1B,7B,33B 多种尺寸,开源内容包含 Base 模型和指令调优模型。Meta的CodeLlama是业内标杆,但DeepSeek Coder展示出多方位领先的架势。2024年6月17日DeepSeek Coder V2 代码大模型,
11、提供了 236B 和 16B 两种版本。DeepSeek Coder V2 的 API 服务也同步上线,价格依旧是1元/百万输入,2元/百万输出。能力超越了当时最先进的闭源模型 GPT-4-Turbo。2023年11月29日DeepSeek LLM 67B首款通用大语言模型,且同步开源了 7B 和 67B 两种不同规模的模型,甚至将模型训练过程中产生的 9 个 checkpoints 也一并公开,Meta的同级别模型 LLaMA2 70B,并在近20个中英文的公开评测榜单上表现更佳。2024年3月11日DeepSeek-VL多模态 AI 技术上的初步尝试,尺寸为 7B 与1.3B,模型和技术论
12、文同步开源。2024年5月DeepSeek-V2通用 MoE 大模型的开源发布,DeepSeek-V2 使用了 MLA(多头潜在注意力机制),将模型的显存占用率降低至传统 MHA 的 5%-13%对标 GPT-4-Turbo,而 API 价格只有后者的 1/702024年9月6日DeepSeek-V2.5 融合模型Chat模型聚焦通用对话能力,Code模型聚焦代码处理能力合二为一,更好的对齐了人类偏好,2024年12月10日DeepSeek-V2.5-1210DeepSeek V2 系列收官之作,全面提升了包括数学、代码、写作、角色扮演等在内的多方能力。2024年12月26日DeepSeek-
13、V3开源发布,训练成本估算只有 550 万美金性能上全面对标海外领军闭源模型,生成速度也大幅提升。推理模型2024年2月5日DeepSeekMat数学推理模型,仅有 7B 参数数学推理能力上直逼 GPT-42024年8月16日DeepSeek-Prover-V1.5数学定理证明模型在高中和大学数学定理证明测试中,均超越了多款知名的开源模型。2024年11月20日DeepSeek-R1-Lite推理模型,为之后 V3 的后训练,提供了足量的合成数据。媲美 o1-preview2025年1月20日DeepSeek-R1 发布并开源,开放了思维链输出功能,将模型开源 License 统一变更为 MI
14、T 许可证,并明确用户协议允许“模型蒸馏”。在性能上全面对齐 OpenAI o1 正式版多模态模型2023年12月18日DreamCraft3D文生 3D 模型,可从一句话生成高质量的三维模型,实现了 AIGC 从 2D 平面到 3D 立体空间的跨越。2024年12月13日DeepSeek-VL2多模态大模型,采用了 MoE 架构,视觉能力得到了显著提升,有 3B、16B 和 27B 三种尺寸,在各项指标上极具优势。2025年1月27日DeepSeek Janus-Pro 开源发布的多模态模型。架构开源2024年1月11日DeepSeekMoE开源了国内首个 MoE(混合专家架构)大模型 De
15、epSeekMoE:全新架构,支持中英,免费商用,在 2B、16B、145B 等多个尺度上均领先被普遍认为是 OpenAI GPT-4 性能突破的关键所在本报告来源于薪酬报告网站(),由用户Id:93117下载,文档Id:612293,下载日期:2025-02-181.4.1、DeepSeek V3性能位居全球领先水平性能位居全球领先水平,代码代码/数学数学/中文能力测试表现中文能力测试表现优异优异 DeepSeek-V3 DeepSeek-V3 为自研为自研 MoE MoE 模型,模型,671B 671B 参数,激活参数,激活 37B 37B,在,在 14.8Ttoken14.8Ttoke
16、n上进行了预训练。上进行了预训练。V3多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。在具体的测试集上,DeepSeek-V3在知识类任务上接近当前表现最好的模型 Claude-3.5-Sonnet-1022;长文本/代码/数学/中文能力上均处于世界一流模型位置。资料来源:DeepSeek官方公众号图图:DeepSeek-V3DeepSeek-V3对比领域开源对比领域开源/闭源闭源模型模型图图:DeepSeek-V3DeepSeek-V3在英文在英文、
17、代码代码、数学领域表现数学领域表现优异优异1.4.2、DeepSeek-R1性能对标性能对标OpenAI o1正式版正式版,实现发布即实现发布即上线上线 DeepSeek-R1 DeepSeek-R1性能比较性能比较OpenAI-o1OpenAI-o1。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。DeepSeek R1DeepSeek R1同步登录同步登录DeepSeekDeepSeek官网或官方官网或官方AppApp。网页或者app端打开“深度思考”
18、模式,即可调用最新版 DeepSeek-R1 完成各类推理任务。开放的许可证和用户协议开放的许可证和用户协议。DeepSeekDeepSeek在发布并开源 R1 的同时,同步在协议授权层面也进行了如下调整:1 1)模型开源模型开源 License License 统一使用统一使用 MITMIT,开源仓库(包括模型权重)统一采用标准化、宽松的 MIT License,完全开源,不限制商用,无需申请。2 2)产品协议明确可产品协议明确可“模型蒸馏模型蒸馏”;为了进一步促进技术的开源和共享,支持用户进行“模型蒸馏”,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。资料来源:DeepSeek
19、官方公众号图图:DeepSeek-R1DeepSeek-R1性能比肩性能比肩 OpenAI o1 OpenAI o1 正式版正式版图图:DeepSeek-R1DeepSeek-R1发布即发布即上线上线1.4.2、DeepSeek-V3/R1均具备领先的性价比均具备领先的性价比优势优势 DeepSeek DeepSeek 系列模型均极具定价优势系列模型均极具定价优势。DeepSeek V3DeepSeek V3模型定价模型定价:随着性能更强、速度更快的 DeepSeek-V3 更新上线,模型API服务定价也将调整为每百万输入tokens 0.5 元(缓存命中)/2 元(缓存未命中),每百万输出t
20、okens 8元。DeepSeek-R1DeepSeek-R1百万百万tokenstokens输出输出价格约为价格约为o1o1的的1/271/27。DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/4 元(缓存未命中),每百万输出 tokens 16 元。对比OpenAI-o1每百万输入tokens为55元(缓存命中),百万tokens输出为438元。资料来源:DeepSeek官方公众号图图:DeepSeek-V3 APIDeepSeek-V3 API定价对比海内外主流定价对比海内外主流模型模型图图:DeepSeek-R1DeepSeek-R1定价对比同为
21、推理模型的定价对比同为推理模型的o1o1系列系列1.5、DeepSeek日活远超同期日活远超同期ChatGPT,下载量霸榜全球下载量霸榜全球140个市场移动应用榜个市场移动应用榜首首 DeepSeek DeepSeek远超同期远超同期ChatGPTChatGPT,AIAI格局或迎来重塑格局或迎来重塑。2025年1月15日,DeepSeek 官方 App 正式发布,并在 iOS/Android 各大应用市场全面上线。数据显示,DeepSeek在上线18天内达到日活跃用户1500万的成就,相较之下,同期ChatGPT则耗费244天才实现相同日活;2月4日,上线20天后日活突破2000万,创下又一个
22、新纪录。DeepSeek在发布的前18天内累计下载量达到1600万次,峰值日下载量高达500万次,几乎是ChatGPT同期900万次下载量的两倍。此外,DeepSeek在全球140个市场中的移动应用下载量排行榜上位居榜首。图图:DeepSeekDeepSeek对话对话助手助手图图:DeepSeekDeepSeek霸榜下载榜榜首霸榜下载榜榜首 资料来源:公司官网,苹果APP Store,Sensor Tower图图:DeepSeekDeepSeek成全球增速最快的成全球增速最快的AIAI应用应用1.6、DeepSeek获得海内外市场认可获得海内外市场认可,中国中国AIAI产业首次步入引领位置产业
23、首次步入引领位置 DeepSeek DeepSeek惊艳海外市场惊艳海外市场,中国中国AIAI产业首次步入引领位置产业首次步入引领位置。英伟达表示英伟达表示,DeepSeek为推理、数学和编码等任务提供了“最先进的推理能力”“高推理效率”以及“领先的准确性”。MetaMeta首席首席AIAI科学家科学家Yann LecunYann Lecun表示表示“DeepSeek-R1面世与其说意味着中国公司在AI领域正在超越美国公司,不如说意味着开源大模型正在超越闭源。”OpenAI首席执行官Sam Altman首次承认OpenAI的闭源策略“站在了历史错误的一边”。微软COE纳德拉表示,公司的Deep
24、SeekR1模型展现了真正的创新力。国内黑神话制作人悟空冯冀表示,DeepSeek 可能是个国运级别的科技成果。图图:Sam AltmanSam Altman评价评价DeepSeekDeepSeek图:黑悟空神话图:黑悟空神话制作人评价制作人评价DeepSeekDeepSeek资料来源:澎湃新闻、IT之家1.7、微软微软/英伟达英伟达/亚马逊亚马逊/腾讯腾讯/华为等一众华为等一众科技巨头拥抱科技巨头拥抱DeepSeek 微软、英伟达、亚马逊、英特尔、微软、英伟达、亚马逊、英特尔、AMDAMD等科技巨头陆续上线等科技巨头陆续上线DeepSeekDeepSeek模型服务模型服务。1)1 月 30
25、日,英伟达宣布DeepSeek-R1可作为 NVIDIA NIM 微服务预览版使用。2)1月,DeepSeek-R1 模型被纳入微软平台 Azure AI Foundry 和 GitHub 的模型目录,开发者将可以在Copilot+PC上本地运行 DeepSeek-R1 精简模型,以及在Windows上的 GPU 生态系统中运行,此外还宣布将 DeepSeek-R1部署在云服务Azure上。3)AWS(亚马逊云科技)宣布,用户可以在Amazon Bedrock 和Amazon SageMaker AI两大AI服务平台上部署DeepSeek-R1模型。4)Perplexity 宣布接入了 Dee
26、pSeek 模型,将其与 OpenAI 的 GPT-o1 和 Anthropic 的 Claude-3.5 并列作为高性能选项。5)华为:已上线基于其云服务的DeepSeek-R1相关服务;6)腾讯:DeepSeek-R1大模型可一键部署至腾讯云HAI上,开发者仅需3分钟就能接入调用。7)百度:DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平台上架;8)阿里:阿里云PAI Model Gallery支持云上一键部署DeepSeek-R1和DeepSeek-V3模型。图图:英伟达上线英伟达上线DeepSeekDeepSeek图:微软宣布接入图:微软宣布接入DeepSeekD
27、eepSeek资料来源:英伟达、微软二二、DeepSeekDeepSeek模型模型家族技术家族技术详解详解2.1、DeepSeek模型模型家族技术创新框架家族技术创新框架总揽总揽资料来源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,DeepSeek-V3 Technical Report,国海证券研究所MoE架构模型核心创新1、多头潜在注意力(MLA)使用低秩联合压缩方法减少注意力计算的缓存需求,同时保持多头注意力的性能。2、混合专家架构(DeepSeekMoE)细粒度专家分
28、割共享专家隔离辅助损失优化的专家负载平衡策略。3、多 Token 预测目标(MTP)扩展模型在每个位置预测多个未来 token 的能力,提高训练数据效率。4、DualPipe算法。5、支持 FP8 混合精度训练。DeepSeek V3DeepSeek V3以V3作为基础模型,纯强化学习替代有监督微调核心创新1、强化学习算法:使用 GRPO框架,通过群体奖励优化策略模型。奖励设计包括准确性奖励和格式奖励。2、自我演化与顿悟时刻:模型通过 RL 自动学习复杂的推理行为,如自我验证和反思。随着训练过程的深入,模型逐步提升了复杂任务的解答能力,并在推理任务上显现突破性的性能提升。DeepSeek R1
29、 DeepSeek R1 ZeroZero以V3作为基础模型,结合冷启动数据的多阶段训练核心创新1、冷启动数据引入:从零开始的 RL 容易导致初期性能不稳定,为此设计了包含高质量推理链的冷启动数据集。该数据提高了模型的可读性和训练初期的稳定性。2、推理导向的强化学习:通过多轮 RL,进一步优化模型在数学、编程等推理密集型任务中的表现。3、监督微调与拒绝采样:使用RL检查点生成额外的推理和非推理任务数据,进一步微调模型。4、全场景强化学习:在最终阶段结合多种奖励信号,提升模型的有用性和安全性。DeepSeek R1DeepSeek R12.2.1、MLA(多头潜在注意力机制多头潜在注意力机制):
30、):显著显著节省计算资源及内存节省计算资源及内存占用占用 MLA MLA从传统的从传统的MHAMHA(多头注意力机制多头注意力机制)出发出发,MHAMHA通过并行通过并行运行多个运行多个Self-AttentionSelf-Attention层并综合其结果,能够同时捕捉输入序层并综合其结果,能够同时捕捉输入序列在不同子空间中的信息,从而增强模型的表达能力列在不同子空间中的信息,从而增强模型的表达能力。通过将输入的查询、键和值矩阵分割成多个头,并在每个头中独立计算注意力,再将这些头的输出拼接线性变换,从而实现在不同表示子空间中同时捕获和整合多种交互信息,提升模型的表达能力。处理长序列时处理长序列
31、时MHAMHA会面临计算和内存效率上的局限性会面临计算和内存效率上的局限性,MLAMLA显显著降低计算及内存占用问题著降低计算及内存占用问题。MLA的核心思想则是使用低秩分解(LoRA)来近似Key和Value的投影,以在推理期间减少键值缓存(KV cache),显著降低计算和内存占用的复杂度。资料来源:DeepSeek-V3 Technical Report图图:DeepSeek V3DeepSeek V3的创新的创新架构架构2.2.2、DeepSeekMoE架构以及创新性负载均衡架构以及创新性负载均衡策略策略 MoE MoE架构架构:传统MoE架构的主要优势是利用稀疏激活的性质,将大模型拆
32、解成若干功能模块,每次计算仅激活其中一小部分,而保持其余模块不被使用,从而大大降低了模型的计算与学习成本,能够在同等计算量的情况下产生性能优势。DeepSeekMoE DeepSeekMoE在传统在传统MoEMoE架构之上架构之上,更新了两个主要的策略更新了两个主要的策略:1 1)细粒度专家分割细粒度专家分割:在保持模型参数和计算成本一致的情况下,用更精细的颗粒度对专家进行划分,更精细的专家分割使得激活的专家能够以更灵活和适应性更强的方式进行组合;2 2)共享专家隔离共享专家隔离:采用传统路由策略时,分配给不同专家的token可能需要一些共同的知识或信息,因此多个专家可能会有参数冗余。专门的共
33、享专家致力于捕获和整合不同上下文中的共同知识,有助于构建一个具有更多专业专家且参数更高效的模型。负载均衡负载均衡:MoE架构下容易产生每次都由少数几个专家处理所有tokens的情况,而其余大量专家处于闲置状态,此外,若不同专家分布在不同计算设备上,同样会造成计算资源浪费以及模型能力局限;负载均衡则类似一个公平的“裁判”,鼓励专家的选择趋于均衡,避免出现上述专家激活不均衡的现象。DeepSeek在专家级的负载均衡外,提出了设备级的负载均衡,确保了跨设备的负载均衡,大幅提升计算效率,缓解计算瓶颈。图图:DeepSeekMoEDeepSeekMoE对比传统对比传统MoEMoE架构架构图图:MoEMo
34、E架构理解架构理解框架框架资料来源:DeepSeekMoE:Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models、量子位2.2.3、MTP(多多token预测预测)大幅提升模型大幅提升模型性能性能MTPMTP显著提升模型性能显著提升模型性能。训练过程训练过程:传统语言模型一次只预测一个token的范式。它就像是让模型从一字一句地朗读,进化为整句整段地理解和生成。在训练过程中,模型不再局限于预测序列中的下一个token,而是学会同时预测多个连续位置的token。这种并行预测机制不仅提高了训练效率,
35、还让模型能够更好地捕捉token之间的依赖关系。在保持输出质量的同时,模型整体性能提升2-3%。推理阶段推理阶段:MTP的优势更加明显。传统模型生成文本时就像是在一笔一划地写字,而MTP则像是提前打草稿,可以同时生成多个token。通过创新的推测解码机制,模型能够基于当前上下文同时预测多个可能的token序列。即使某些预测不准确需要回退,整体效率仍然显著提升。这种并行生成机制使推理速度提升了1.8倍,还显著降低了计算开销。资料来源:DeepSeek-V3 Technical Report图图:MTPMTP架构架构2.2.4、DeepSeek-FP8混合精度训练:实现更高的计算效率混合精度训练:
36、实现更高的计算效率DeepSeek V3DeepSeek V3采用了采用了FP8FP8混合精度训练框架。混合精度训练框架。在训练过程中,大部分核心计算内核均采用FP8精度实现。例如,在前向传播、激活反向传播和权重反向传播中,输入数据均使用FP8格式,而输出结果则使用BF16或FP32格式。这种设计使得计算速度相较于原始BF16方法提升一倍。FP8格式是一种低精度的数据格式,具有较小的存储空间和计算开销。通过使用通过使用FP8FP8格式,格式,DeepSeekDeepSeek能够在有限的计算资源下,实现更高的计算效率。能够在有限的计算资源下,实现更高的计算效率。例如,在处理大规模数据集时,FP8
37、格式可以显著减少显存的占用,从而提高模型的训练速度。图图:具有具有 FP8 FP8 数据格式的整体混合精度框架数据格式的整体混合精度框架资料来源:DeepSeek-V3 Technical Report,NVIDIA英伟达企业解决方案公众号图图:多种精度数据类型结构多种精度数据类型结构2.2.5、DeepSeek-DualPipe算法:减少流水线气泡,提升算法:减少流水线气泡,提升GPU利用率利用率DeepSeek-V3 DeepSeek-V3 采用了一种名为采用了一种名为DualPipeDualPipe的创新流水线并行策略。的创新流水线并行策略。与传统的单向流水线(如 1F1B)不同,Dua
38、lPipe 采用双向流水线设计,即同时从流水线的两端馈送 micro-batch。这种设计可以显著减少流水线气泡这种设计可以显著减少流水线气泡(Pipeline Bubble)(Pipeline Bubble),提,提高高 GPU GPU 利用率。利用率。DualPipe 还将每个 micro-batch 进一步划分为更小的 chunk,并对每个 chunk 的计算和通信进行精细的调度。随后将一个 chunk 划分为 attention、all-to-all dispatch、MLP 和 all-to-all combine 等四个组成部分,并通过精细的调度策略,并通过精细的调度策略,使得计算
39、和通信可以高度重叠。使得计算和通信可以高度重叠。图图:DualPipeDualPipe性能优越性能优越图图:DualPipeDualPipe示意图示意图资料来源:DeepSeek-V3 Technical ReportChunk拆分DualPipe8 个 PP rank 和 20 个 micro-batch 的 DualPipe 调度示例DualPipe 在流水线气泡数量和激活内存开销方面均优于 1F1B 和 ZeroBubble 等现有方法2.2.6、英伟达英伟达PTX:位于:位于CUDA与机器代码之间,实现细粒度控制与性能优化与机器代码之间,实现细粒度控制与性能优化英伟达英伟达PTXPTX
40、(并行线程执行)是专门为其(并行线程执行)是专门为其GPUGPU设计的中间指令集架构,设计的中间指令集架构,位于高级GPU编程语言(如CUDA C/C+或其他语言前端)和低级机器代码(流处理汇编或SASS)之间。PTX是一种接近底层的指令集架构,将GPU呈现为数据并行计算设备,因此能够实现寄存器分配、线程/线程束级别调整等细粒度优化,这些是CUDA C/C+等语言无法实现的。DeepSeek V3DeepSeek V3采用定制的采用定制的 PTX PTX(并行线程执行)指令并自动调整通信块大小,这大大减少了(并行线程执行)指令并自动调整通信块大小,这大大减少了 L2 L2 缓存的使用和对其他缓
41、存的使用和对其他 SM SM 的的干扰。干扰。PTX PTX 允许对允许对 GPU GPU 硬件进行细粒度控制,这在特定场景下可以带来更好的性能。硬件进行细粒度控制,这在特定场景下可以带来更好的性能。图图:C+C+与与PTXPTX代码的区别代码的区别图:图:英伟达英伟达PTXPTX是专门为其是专门为其GPUGPU设计的中间指令集架构设计的中间指令集架构资料来源:新智元,量子位公众号2.3、DeepSeek R1 Zero核心创新点核心创新点RL(强化学习强化学习)替代替代SFT(有监督微调有监督微调)DeepSeek DeepSeek探索探索LLMLLM在没有任何监督数据的情况下发力推理能力的
42、潜力在没有任何监督数据的情况下发力推理能力的潜力,通过纯通过纯RLRL(强化学习强化学习)的过程实现自我进化的过程实现自我进化。具体来说,DS使用 DeepSeek-V3-Base 作为基础模型,并使用GRPO(群体相对策略优化)作为RL框架来提高模型在推理中的性能。在训练过程中,DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。经过数千次经过数千次 RL RL 步骤后,步骤后,DeepSeekDeepSeek-R1-Zero-R1-Zero 在推理基准测试中表现出卓越的性能。在推理基准测试中表现出卓越的性能。例如,AIME 2024 的 pass1 分数从15.6%增
43、加到 71.0%,在多数投票的情况下,分数进一步提高到86.7%,与OpenAI-o1-0912的性能相当图图:R1-ZeroR1-Zero在不同测试基准下超过在不同测试基准下超过o1minio1mini甚至比肩甚至比肩o1o1的的水平水平图图:随时间推移随时间推移DSDS模型性能显著模型性能显著提升提升资料来源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning2.3.1、DeepSeek强化学习核心框架强化学习核心框架GRPO(群体相对策略优化群体相对策略优化)GRPO GRPO
44、相对相对PPOPPO节省了与策略模型规模相当的价值模型节省了与策略模型规模相当的价值模型,大幅缩减模型训练成本大幅缩减模型训练成本。传统强化学习更多使用PPO(近端策略优化),PPO中有3个模型,分别是参考模型(reference model)、奖励模型(reward model)、价值模型(value model),参考模型作为稳定参照,与策略模型的输出作对比;奖励模型根据策略模型的输出效果给出量化的奖励值,价值模型则根据对策略模型的每个输出预测未来能获得的累计奖励期望。ppo中的价值模型规模与策略模型相当,由此带来巨大的内存和计算负担。GRPO(群里相对策略优化)中省略了价值模型,采用基于