• 首页 >  人工智能 >  AI产业
  • 2025年DeepSeek背景、模型技术及其对AI行业的影响分析报告(43页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《2025年DeepSeek背景、模型技术及其对AI行业的影响分析报告(43页).pdf》由会员分享,可在线阅读,更多相关《2025年DeepSeek背景、模型技术及其对AI行业的影响分析报告(43页).pdf(43页珍藏版)》请在薪酬报告网上搜索。

    1、2 0 2 5 年深度行业分析研究报告5目录目录一、一、DeepSeek背景介绍背景介绍1.1、DeepSeek股权结构及创始人背景1.2、DeepSeek母公司幻方量化,早期确立AI战略为后续出圈埋下伏笔1.3、DeepSeek重视年轻团队且兼具深厚技术底蕴,薪酬对标字节跳动研发岗1.4、DeepSeek产品家族全梳理1.5、DeepSeek日活远超同期ChatGPT,下载量霸榜全球140个市场移动应用榜首1.6、DeepSeek获得海内外市场认可,中国AI产业首次步入引领位置二、二、DeepSeek模型家族技术详解模型家族技术详解2.1、DeepSeek模型家族技术创新框架总揽2.2、De

    2、epSeek v3:性能对齐海外领军闭源模型,DeepSeek2024年巅峰之作2.3、DeepSeek R1 Zero核心创新点RL(强化学习)替代SFT(有监督微调)2.4、DeepSeek R1:高质量冷启动数据+多阶段训练,将强推理能力泛化2.5、开源大模型:打破OpenAI等闭源模型生态,提升世界对中国AI大模型认知三、三、DeepSeek对对AI应用的影响?应用的影响?3.1、DeepSeek打开低成本推理模型边界,加速AI应用布局进程3.2、DeepSeek R1蒸馏赋予小模型高性能,端侧AI迎来奇点时刻四四、DeepSeek对算力影响?对算力影响?4.1、DeepSeek V3

    3、训练中GPU成本558万美元,对比海外成本降低4.2、DeepSeek或有约5万Hopper GPU,训练总成本或较高4.3、推理化:推理算力需求占比提升,GenAI云厂商有望受益一一、DeepSeekDeepSeek背景背景介绍介绍1.1、DeepSeek股权结构及创始人股权结构及创始人背景背景 DeepSeek DeepSeek是一家于是一家于20232023年成立的中国初创企业,创始人是年成立的中国初创企业,创始人是AIAI驱动量化对冲基金幻方量化的掌门人梁文锋驱动量化对冲基金幻方量化的掌门人梁文锋。从股权结构图显示,DeepSeek由四名自然人通过五层控股掌握100%股份(其中梁文锋间

    4、接持股比例83.29%,直接持股1%,累计84.2945%)。创始人梁文锋出生于广东湛江,浙江大学毕业,拥有信息与电子工程学系本科和硕士学位,创始人梁文锋出生于广东湛江,浙江大学毕业,拥有信息与电子工程学系本科和硕士学位,2008年起开始带领团队使用机器学习等技术探索全自动量化交易,2015年幻方量化正式成立。2021年,幻方量化的资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。2023年梁文锋宣布正式进军通用人工智能领域,创办DeepSeek,专注于做真正人类级别的人工智能。资料来源:商界观察图图:DeepSeekDeepSeek股权股权结构结构图图:幻方创始人梁文峰幻方创

    5、始人梁文峰(图右图右)1.2、DeepSeek母公司幻方量化母公司幻方量化,早期确立早期确立AI战略为后续出圈埋下伏笔战略为后续出圈埋下伏笔 母公司幻方量化确立以母公司幻方量化确立以AIAI为发展方向为发展方向。2016年,幻方量化第一个由深度学习算法模型生成的股票仓位上线实盘交易,使用GPU进行计算。随后不久,该公司明确宣布AI为主要发展方向。量化投资全面量化投资全面AIAI化驱动囤卡需求化驱动囤卡需求,为后续蜕变埋下伏笔为后续蜕变埋下伏笔。复杂的模型计算需求使得单机训练遭遇算力瓶颈,训练需求和有限的计算资源产生矛盾,幻方需要解决算力受限难题。于是幻方在2019年成立了一家AI基础研究公司,

    6、并推出自研的“萤火一号”AI集群,搭载500块显卡。2021年,幻方又斥资10亿元建设“萤火二号”,为AI研究提供算力支持。幻方在构建AI算力过程中的“囤卡”动作为它赢得了市场机会。作为国内早期的英伟达芯片大买家之一,2022年其用于科研支持的闲时算力高达1533万GPU时,大大超越了后来很多大模型公司。图图:幻方量化发展幻方量化发展历程历程图图:幻方官网首页标语幻方官网首页标语,以以AIAI为核心发展为核心发展方向方向资料来源:公司官网,国海证券研究所1.3、DeepSeek重视年轻团队且兼具深厚技术底蕴重视年轻团队且兼具深厚技术底蕴,薪酬水平对标字节跳动薪酬水平对标字节跳动研发岗研发岗 团

    7、队以年轻化为主团队以年轻化为主,具备深厚技术底蕴具备深厚技术底蕴。创始人梁文锋曾在36氪的采访中,给出了DeepSeek的员工画像:“都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。”自2023年5月诞生以来,DeepSeek始终维持约150人的精英团队,推行无职级界限、高度扁平化的文化,以此激发研究灵感,高效调配资源。早在2022年,幻方量化便着手为DeepSeek筹建AI团队,至2023年5月DeepSeek正式成立时,团队已汇聚近百名卓越工程师。如今,即便不计杭州的基础设施团队,北京团队亦拥有百名工程师。技术报告的致谢栏揭示,参与DeepSeek V

    8、3研发的工程师阵容,已壮大至139人。团队薪酬水平对标字节跳动研发岗位团队薪酬水平对标字节跳动研发岗位,且不限制人才的算力使用且不限制人才的算力使用。据36氪资料显示,DeepSeek薪酬水平对标的字节研发,“根据人才能拿到的字节offer,再往上加价”;同时只要梁文锋判断技术提案有潜力,DeepSeek给人才的算力,“不限”。图图:DeepSeekDeepSeek公开招聘职位信息公开招聘职位信息汇总汇总资料来源:华尔街见闻,国海证券研究所职位名称面向群体申请要求薪酬水平深度学习研究员校招&实习熟练掌握至少两种编程语言;在国际顶会或期刊发表相关论文;知名比赛成绩8-11万元/月,一年14薪资深

    9、ui设计师经验不限,本科优秀的艺术类教育背景;有互联网或科技公司UI设计工作经验;4-7万元/月,一年14薪深度学习研发工程师在校/应届,本科较强的工程能力;工程能力;知名比赛成绩4-7万元/月,一年14薪数据架构工程师在校/应届,本科有搜索、推荐、广告等业务数据的处理经验;有 规模中文网页数据收集和清洗经验者优先4.5-6.5万元/月,一年14薪全栈开发工程师在校/应届,本科对主流的开源软件有深入的了解,并且对此有做出贡献2.5-5万元/月,一年14薪客户端研发工程师在校/应届,本科计算机或相关专业优先;有独立开发App经验,有优秀开源项目者优先。2-4万元/月,一年14薪深度学习实习生计算

    10、机及相关专业研究生,特别优秀的本科生;具有扎实的编程功底;有顶级AI会议论文发表经验或开源项目贡献经验者优先500元/天,4天一周,6个月;非北京地区学生来京实习有租房补助3000元/月1.4、DeepSeek产品家族全产品家族全梳理梳理资料来源:新浪人工智能,国海证券研究所模型类别日期名称内容对标LLM2023年11月2日DeepSeek Coder模型包括 1B,7B,33B 多种尺寸,开源内容包含 Base 模型和指令调优模型。Meta的CodeLlama是业内标杆,但DeepSeek Coder展示出多方位领先的架势。2024年6月17日DeepSeek Coder V2 代码大模型,

    11、提供了 236B 和 16B 两种版本。DeepSeek Coder V2 的 API 服务也同步上线,价格依旧是1元/百万输入,2元/百万输出。能力超越了当时最先进的闭源模型 GPT-4-Turbo。2023年11月29日DeepSeek LLM 67B首款通用大语言模型,且同步开源了 7B 和 67B 两种不同规模的模型,甚至将模型训练过程中产生的 9 个 checkpoints 也一并公开,Meta的同级别模型 LLaMA2 70B,并在近20个中英文的公开评测榜单上表现更佳。2024年3月11日DeepSeek-VL多模态 AI 技术上的初步尝试,尺寸为 7B 与1.3B,模型和技术论

    12、文同步开源。2024年5月DeepSeek-V2通用 MoE 大模型的开源发布,DeepSeek-V2 使用了 MLA(多头潜在注意力机制),将模型的显存占用率降低至传统 MHA 的 5%-13%对标 GPT-4-Turbo,而 API 价格只有后者的 1/702024年9月6日DeepSeek-V2.5 融合模型Chat模型聚焦通用对话能力,Code模型聚焦代码处理能力合二为一,更好的对齐了人类偏好,2024年12月10日DeepSeek-V2.5-1210DeepSeek V2 系列收官之作,全面提升了包括数学、代码、写作、角色扮演等在内的多方能力。2024年12月26日DeepSeek-

    13、V3开源发布,训练成本估算只有 550 万美金性能上全面对标海外领军闭源模型,生成速度也大幅提升。推理模型2024年2月5日DeepSeekMat数学推理模型,仅有 7B 参数数学推理能力上直逼 GPT-42024年8月16日DeepSeek-Prover-V1.5数学定理证明模型在高中和大学数学定理证明测试中,均超越了多款知名的开源模型。2024年11月20日DeepSeek-R1-Lite推理模型,为之后 V3 的后训练,提供了足量的合成数据。媲美 o1-preview2025年1月20日DeepSeek-R1 发布并开源,开放了思维链输出功能,将模型开源 License 统一变更为 MI

    14、T 许可证,并明确用户协议允许“模型蒸馏”。在性能上全面对齐 OpenAI o1 正式版多模态模型2023年12月18日DreamCraft3D文生 3D 模型,可从一句话生成高质量的三维模型,实现了 AIGC 从 2D 平面到 3D 立体空间的跨越。2024年12月13日DeepSeek-VL2多模态大模型,采用了 MoE 架构,视觉能力得到了显著提升,有 3B、16B 和 27B 三种尺寸,在各项指标上极具优势。2025年1月27日DeepSeek Janus-Pro 开源发布的多模态模型。架构开源2024年1月11日DeepSeekMoE开源了国内首个 MoE(混合专家架构)大模型 De

    15、epSeekMoE:全新架构,支持中英,免费商用,在 2B、16B、145B 等多个尺度上均领先被普遍认为是 OpenAI GPT-4 性能突破的关键所在本报告来源于薪酬报告网站(),由用户Id:93117下载,文档Id:612293,下载日期:2025-02-181.4.1、DeepSeek V3性能位居全球领先水平性能位居全球领先水平,代码代码/数学数学/中文能力测试表现中文能力测试表现优异优异 DeepSeek-V3 DeepSeek-V3 为自研为自研 MoE MoE 模型,模型,671B 671B 参数,激活参数,激活 37B 37B,在,在 14.8Ttoken14.8Ttoke

    16、n上进行了预训练。上进行了预训练。V3多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。在具体的测试集上,DeepSeek-V3在知识类任务上接近当前表现最好的模型 Claude-3.5-Sonnet-1022;长文本/代码/数学/中文能力上均处于世界一流模型位置。资料来源:DeepSeek官方公众号图图:DeepSeek-V3DeepSeek-V3对比领域开源对比领域开源/闭源闭源模型模型图图:DeepSeek-V3DeepSeek-V3在英文在英文、

    17、代码代码、数学领域表现数学领域表现优异优异1.4.2、DeepSeek-R1性能对标性能对标OpenAI o1正式版正式版,实现发布即实现发布即上线上线 DeepSeek-R1 DeepSeek-R1性能比较性能比较OpenAI-o1OpenAI-o1。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。DeepSeek R1DeepSeek R1同步登录同步登录DeepSeekDeepSeek官网或官方官网或官方AppApp。网页或者app端打开“深度思考”

    18、模式,即可调用最新版 DeepSeek-R1 完成各类推理任务。开放的许可证和用户协议开放的许可证和用户协议。DeepSeekDeepSeek在发布并开源 R1 的同时,同步在协议授权层面也进行了如下调整:1 1)模型开源模型开源 License License 统一使用统一使用 MITMIT,开源仓库(包括模型权重)统一采用标准化、宽松的 MIT License,完全开源,不限制商用,无需申请。2 2)产品协议明确可产品协议明确可“模型蒸馏模型蒸馏”;为了进一步促进技术的开源和共享,支持用户进行“模型蒸馏”,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。资料来源:DeepSeek

    19、官方公众号图图:DeepSeek-R1DeepSeek-R1性能比肩性能比肩 OpenAI o1 OpenAI o1 正式版正式版图图:DeepSeek-R1DeepSeek-R1发布即发布即上线上线1.4.2、DeepSeek-V3/R1均具备领先的性价比均具备领先的性价比优势优势 DeepSeek DeepSeek 系列模型均极具定价优势系列模型均极具定价优势。DeepSeek V3DeepSeek V3模型定价模型定价:随着性能更强、速度更快的 DeepSeek-V3 更新上线,模型API服务定价也将调整为每百万输入tokens 0.5 元(缓存命中)/2 元(缓存未命中),每百万输出t

    20、okens 8元。DeepSeek-R1DeepSeek-R1百万百万tokenstokens输出输出价格约为价格约为o1o1的的1/271/27。DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/4 元(缓存未命中),每百万输出 tokens 16 元。对比OpenAI-o1每百万输入tokens为55元(缓存命中),百万tokens输出为438元。资料来源:DeepSeek官方公众号图图:DeepSeek-V3 APIDeepSeek-V3 API定价对比海内外主流定价对比海内外主流模型模型图图:DeepSeek-R1DeepSeek-R1定价对比同为

    21、推理模型的定价对比同为推理模型的o1o1系列系列1.5、DeepSeek日活远超同期日活远超同期ChatGPT,下载量霸榜全球下载量霸榜全球140个市场移动应用榜个市场移动应用榜首首 DeepSeek DeepSeek远超同期远超同期ChatGPTChatGPT,AIAI格局或迎来重塑格局或迎来重塑。2025年1月15日,DeepSeek 官方 App 正式发布,并在 iOS/Android 各大应用市场全面上线。数据显示,DeepSeek在上线18天内达到日活跃用户1500万的成就,相较之下,同期ChatGPT则耗费244天才实现相同日活;2月4日,上线20天后日活突破2000万,创下又一个

    22、新纪录。DeepSeek在发布的前18天内累计下载量达到1600万次,峰值日下载量高达500万次,几乎是ChatGPT同期900万次下载量的两倍。此外,DeepSeek在全球140个市场中的移动应用下载量排行榜上位居榜首。图图:DeepSeekDeepSeek对话对话助手助手图图:DeepSeekDeepSeek霸榜下载榜榜首霸榜下载榜榜首 资料来源:公司官网,苹果APP Store,Sensor Tower图图:DeepSeekDeepSeek成全球增速最快的成全球增速最快的AIAI应用应用1.6、DeepSeek获得海内外市场认可获得海内外市场认可,中国中国AIAI产业首次步入引领位置产业

    23、首次步入引领位置 DeepSeek DeepSeek惊艳海外市场惊艳海外市场,中国中国AIAI产业首次步入引领位置产业首次步入引领位置。英伟达表示英伟达表示,DeepSeek为推理、数学和编码等任务提供了“最先进的推理能力”“高推理效率”以及“领先的准确性”。MetaMeta首席首席AIAI科学家科学家Yann LecunYann Lecun表示表示“DeepSeek-R1面世与其说意味着中国公司在AI领域正在超越美国公司,不如说意味着开源大模型正在超越闭源。”OpenAI首席执行官Sam Altman首次承认OpenAI的闭源策略“站在了历史错误的一边”。微软COE纳德拉表示,公司的Deep

    24、SeekR1模型展现了真正的创新力。国内黑神话制作人悟空冯冀表示,DeepSeek 可能是个国运级别的科技成果。图图:Sam AltmanSam Altman评价评价DeepSeekDeepSeek图:黑悟空神话图:黑悟空神话制作人评价制作人评价DeepSeekDeepSeek资料来源:澎湃新闻、IT之家1.7、微软微软/英伟达英伟达/亚马逊亚马逊/腾讯腾讯/华为等一众华为等一众科技巨头拥抱科技巨头拥抱DeepSeek 微软、英伟达、亚马逊、英特尔、微软、英伟达、亚马逊、英特尔、AMDAMD等科技巨头陆续上线等科技巨头陆续上线DeepSeekDeepSeek模型服务模型服务。1)1 月 30

    25、日,英伟达宣布DeepSeek-R1可作为 NVIDIA NIM 微服务预览版使用。2)1月,DeepSeek-R1 模型被纳入微软平台 Azure AI Foundry 和 GitHub 的模型目录,开发者将可以在Copilot+PC上本地运行 DeepSeek-R1 精简模型,以及在Windows上的 GPU 生态系统中运行,此外还宣布将 DeepSeek-R1部署在云服务Azure上。3)AWS(亚马逊云科技)宣布,用户可以在Amazon Bedrock 和Amazon SageMaker AI两大AI服务平台上部署DeepSeek-R1模型。4)Perplexity 宣布接入了 Dee

    26、pSeek 模型,将其与 OpenAI 的 GPT-o1 和 Anthropic 的 Claude-3.5 并列作为高性能选项。5)华为:已上线基于其云服务的DeepSeek-R1相关服务;6)腾讯:DeepSeek-R1大模型可一键部署至腾讯云HAI上,开发者仅需3分钟就能接入调用。7)百度:DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平台上架;8)阿里:阿里云PAI Model Gallery支持云上一键部署DeepSeek-R1和DeepSeek-V3模型。图图:英伟达上线英伟达上线DeepSeekDeepSeek图:微软宣布接入图:微软宣布接入DeepSeekD

    27、eepSeek资料来源:英伟达、微软二二、DeepSeekDeepSeek模型模型家族技术家族技术详解详解2.1、DeepSeek模型模型家族技术创新框架家族技术创新框架总揽总揽资料来源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,DeepSeek-V3 Technical Report,国海证券研究所MoE架构模型核心创新1、多头潜在注意力(MLA)使用低秩联合压缩方法减少注意力计算的缓存需求,同时保持多头注意力的性能。2、混合专家架构(DeepSeekMoE)细粒度专家分

    28、割共享专家隔离辅助损失优化的专家负载平衡策略。3、多 Token 预测目标(MTP)扩展模型在每个位置预测多个未来 token 的能力,提高训练数据效率。4、DualPipe算法。5、支持 FP8 混合精度训练。DeepSeek V3DeepSeek V3以V3作为基础模型,纯强化学习替代有监督微调核心创新1、强化学习算法:使用 GRPO框架,通过群体奖励优化策略模型。奖励设计包括准确性奖励和格式奖励。2、自我演化与顿悟时刻:模型通过 RL 自动学习复杂的推理行为,如自我验证和反思。随着训练过程的深入,模型逐步提升了复杂任务的解答能力,并在推理任务上显现突破性的性能提升。DeepSeek R1

    29、 DeepSeek R1 ZeroZero以V3作为基础模型,结合冷启动数据的多阶段训练核心创新1、冷启动数据引入:从零开始的 RL 容易导致初期性能不稳定,为此设计了包含高质量推理链的冷启动数据集。该数据提高了模型的可读性和训练初期的稳定性。2、推理导向的强化学习:通过多轮 RL,进一步优化模型在数学、编程等推理密集型任务中的表现。3、监督微调与拒绝采样:使用RL检查点生成额外的推理和非推理任务数据,进一步微调模型。4、全场景强化学习:在最终阶段结合多种奖励信号,提升模型的有用性和安全性。DeepSeek R1DeepSeek R12.2.1、MLA(多头潜在注意力机制多头潜在注意力机制):

    30、):显著显著节省计算资源及内存节省计算资源及内存占用占用 MLA MLA从传统的从传统的MHAMHA(多头注意力机制多头注意力机制)出发出发,MHAMHA通过并行通过并行运行多个运行多个Self-AttentionSelf-Attention层并综合其结果,能够同时捕捉输入序层并综合其结果,能够同时捕捉输入序列在不同子空间中的信息,从而增强模型的表达能力列在不同子空间中的信息,从而增强模型的表达能力。通过将输入的查询、键和值矩阵分割成多个头,并在每个头中独立计算注意力,再将这些头的输出拼接线性变换,从而实现在不同表示子空间中同时捕获和整合多种交互信息,提升模型的表达能力。处理长序列时处理长序列

    31、时MHAMHA会面临计算和内存效率上的局限性会面临计算和内存效率上的局限性,MLAMLA显显著降低计算及内存占用问题著降低计算及内存占用问题。MLA的核心思想则是使用低秩分解(LoRA)来近似Key和Value的投影,以在推理期间减少键值缓存(KV cache),显著降低计算和内存占用的复杂度。资料来源:DeepSeek-V3 Technical Report图图:DeepSeek V3DeepSeek V3的创新的创新架构架构2.2.2、DeepSeekMoE架构以及创新性负载均衡架构以及创新性负载均衡策略策略 MoE MoE架构架构:传统MoE架构的主要优势是利用稀疏激活的性质,将大模型拆

    32、解成若干功能模块,每次计算仅激活其中一小部分,而保持其余模块不被使用,从而大大降低了模型的计算与学习成本,能够在同等计算量的情况下产生性能优势。DeepSeekMoE DeepSeekMoE在传统在传统MoEMoE架构之上架构之上,更新了两个主要的策略更新了两个主要的策略:1 1)细粒度专家分割细粒度专家分割:在保持模型参数和计算成本一致的情况下,用更精细的颗粒度对专家进行划分,更精细的专家分割使得激活的专家能够以更灵活和适应性更强的方式进行组合;2 2)共享专家隔离共享专家隔离:采用传统路由策略时,分配给不同专家的token可能需要一些共同的知识或信息,因此多个专家可能会有参数冗余。专门的共

    33、享专家致力于捕获和整合不同上下文中的共同知识,有助于构建一个具有更多专业专家且参数更高效的模型。负载均衡负载均衡:MoE架构下容易产生每次都由少数几个专家处理所有tokens的情况,而其余大量专家处于闲置状态,此外,若不同专家分布在不同计算设备上,同样会造成计算资源浪费以及模型能力局限;负载均衡则类似一个公平的“裁判”,鼓励专家的选择趋于均衡,避免出现上述专家激活不均衡的现象。DeepSeek在专家级的负载均衡外,提出了设备级的负载均衡,确保了跨设备的负载均衡,大幅提升计算效率,缓解计算瓶颈。图图:DeepSeekMoEDeepSeekMoE对比传统对比传统MoEMoE架构架构图图:MoEMo

    34、E架构理解架构理解框架框架资料来源:DeepSeekMoE:Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models、量子位2.2.3、MTP(多多token预测预测)大幅提升模型大幅提升模型性能性能MTPMTP显著提升模型性能显著提升模型性能。训练过程训练过程:传统语言模型一次只预测一个token的范式。它就像是让模型从一字一句地朗读,进化为整句整段地理解和生成。在训练过程中,模型不再局限于预测序列中的下一个token,而是学会同时预测多个连续位置的token。这种并行预测机制不仅提高了训练效率,

    35、还让模型能够更好地捕捉token之间的依赖关系。在保持输出质量的同时,模型整体性能提升2-3%。推理阶段推理阶段:MTP的优势更加明显。传统模型生成文本时就像是在一笔一划地写字,而MTP则像是提前打草稿,可以同时生成多个token。通过创新的推测解码机制,模型能够基于当前上下文同时预测多个可能的token序列。即使某些预测不准确需要回退,整体效率仍然显著提升。这种并行生成机制使推理速度提升了1.8倍,还显著降低了计算开销。资料来源:DeepSeek-V3 Technical Report图图:MTPMTP架构架构2.2.4、DeepSeek-FP8混合精度训练:实现更高的计算效率混合精度训练:

    36、实现更高的计算效率DeepSeek V3DeepSeek V3采用了采用了FP8FP8混合精度训练框架。混合精度训练框架。在训练过程中,大部分核心计算内核均采用FP8精度实现。例如,在前向传播、激活反向传播和权重反向传播中,输入数据均使用FP8格式,而输出结果则使用BF16或FP32格式。这种设计使得计算速度相较于原始BF16方法提升一倍。FP8格式是一种低精度的数据格式,具有较小的存储空间和计算开销。通过使用通过使用FP8FP8格式,格式,DeepSeekDeepSeek能够在有限的计算资源下,实现更高的计算效率。能够在有限的计算资源下,实现更高的计算效率。例如,在处理大规模数据集时,FP8

    37、格式可以显著减少显存的占用,从而提高模型的训练速度。图图:具有具有 FP8 FP8 数据格式的整体混合精度框架数据格式的整体混合精度框架资料来源:DeepSeek-V3 Technical Report,NVIDIA英伟达企业解决方案公众号图图:多种精度数据类型结构多种精度数据类型结构2.2.5、DeepSeek-DualPipe算法:减少流水线气泡,提升算法:减少流水线气泡,提升GPU利用率利用率DeepSeek-V3 DeepSeek-V3 采用了一种名为采用了一种名为DualPipeDualPipe的创新流水线并行策略。的创新流水线并行策略。与传统的单向流水线(如 1F1B)不同,Dua

    38、lPipe 采用双向流水线设计,即同时从流水线的两端馈送 micro-batch。这种设计可以显著减少流水线气泡这种设计可以显著减少流水线气泡(Pipeline Bubble)(Pipeline Bubble),提,提高高 GPU GPU 利用率。利用率。DualPipe 还将每个 micro-batch 进一步划分为更小的 chunk,并对每个 chunk 的计算和通信进行精细的调度。随后将一个 chunk 划分为 attention、all-to-all dispatch、MLP 和 all-to-all combine 等四个组成部分,并通过精细的调度策略,并通过精细的调度策略,使得计算

    39、和通信可以高度重叠。使得计算和通信可以高度重叠。图图:DualPipeDualPipe性能优越性能优越图图:DualPipeDualPipe示意图示意图资料来源:DeepSeek-V3 Technical ReportChunk拆分DualPipe8 个 PP rank 和 20 个 micro-batch 的 DualPipe 调度示例DualPipe 在流水线气泡数量和激活内存开销方面均优于 1F1B 和 ZeroBubble 等现有方法2.2.6、英伟达英伟达PTX:位于:位于CUDA与机器代码之间,实现细粒度控制与性能优化与机器代码之间,实现细粒度控制与性能优化英伟达英伟达PTXPTX

    40、(并行线程执行)是专门为其(并行线程执行)是专门为其GPUGPU设计的中间指令集架构,设计的中间指令集架构,位于高级GPU编程语言(如CUDA C/C+或其他语言前端)和低级机器代码(流处理汇编或SASS)之间。PTX是一种接近底层的指令集架构,将GPU呈现为数据并行计算设备,因此能够实现寄存器分配、线程/线程束级别调整等细粒度优化,这些是CUDA C/C+等语言无法实现的。DeepSeek V3DeepSeek V3采用定制的采用定制的 PTX PTX(并行线程执行)指令并自动调整通信块大小,这大大减少了(并行线程执行)指令并自动调整通信块大小,这大大减少了 L2 L2 缓存的使用和对其他缓

    41、存的使用和对其他 SM SM 的的干扰。干扰。PTX PTX 允许对允许对 GPU GPU 硬件进行细粒度控制,这在特定场景下可以带来更好的性能。硬件进行细粒度控制,这在特定场景下可以带来更好的性能。图图:C+C+与与PTXPTX代码的区别代码的区别图:图:英伟达英伟达PTXPTX是专门为其是专门为其GPUGPU设计的中间指令集架构设计的中间指令集架构资料来源:新智元,量子位公众号2.3、DeepSeek R1 Zero核心创新点核心创新点RL(强化学习强化学习)替代替代SFT(有监督微调有监督微调)DeepSeek DeepSeek探索探索LLMLLM在没有任何监督数据的情况下发力推理能力的

    42、潜力在没有任何监督数据的情况下发力推理能力的潜力,通过纯通过纯RLRL(强化学习强化学习)的过程实现自我进化的过程实现自我进化。具体来说,DS使用 DeepSeek-V3-Base 作为基础模型,并使用GRPO(群体相对策略优化)作为RL框架来提高模型在推理中的性能。在训练过程中,DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。经过数千次经过数千次 RL RL 步骤后,步骤后,DeepSeekDeepSeek-R1-Zero-R1-Zero 在推理基准测试中表现出卓越的性能。在推理基准测试中表现出卓越的性能。例如,AIME 2024 的 pass1 分数从15.6%增

    43、加到 71.0%,在多数投票的情况下,分数进一步提高到86.7%,与OpenAI-o1-0912的性能相当图图:R1-ZeroR1-Zero在不同测试基准下超过在不同测试基准下超过o1minio1mini甚至比肩甚至比肩o1o1的的水平水平图图:随时间推移随时间推移DSDS模型性能显著模型性能显著提升提升资料来源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning2.3.1、DeepSeek强化学习核心框架强化学习核心框架GRPO(群体相对策略优化群体相对策略优化)GRPO GRPO

    44、相对相对PPOPPO节省了与策略模型规模相当的价值模型节省了与策略模型规模相当的价值模型,大幅缩减模型训练成本大幅缩减模型训练成本。传统强化学习更多使用PPO(近端策略优化),PPO中有3个模型,分别是参考模型(reference model)、奖励模型(reward model)、价值模型(value model),参考模型作为稳定参照,与策略模型的输出作对比;奖励模型根据策略模型的输出效果给出量化的奖励值,价值模型则根据对策略模型的每个输出预测未来能获得的累计奖励期望。ppo中的价值模型规模与策略模型相当,由此带来巨大的内存和计算负担。GRPO(群里相对策略优化)中省略了价值模型,采用基于

    45、组的奖励归一化策略,简言之就是策略模型根据输入q得到输出o(1,2,3),再计算各自的奖励值r(1,2,3),而后不经过价值模型,而是制定一组规则,评判组间价值奖励值的相对关系,进而让策略模型以更好的方式输出。图图:GRPOGRPO相对传统相对传统PPOPPO强化学习方式强化学习方式对比对比资料来源:AWS、DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning图图:GRPOGRPO核心方法核心方法详解详解2.3.2、强化学习框架下的强化学习框架下的“顿悟顿悟”时刻时刻,模型思维能力跃升

    46、的模型思维能力跃升的关键关键 模型训练过程中会迎来顿悟时刻模型训练过程中会迎来顿悟时刻。引用DeepSeek相关论文中的表述,GRPO强化学习框架下,不是人类教模型如何解决问题,而仅仅为其提供正确的激励措施,模型会自主开发高级问题解决策略,模型训练过程中会出现“Aha moment”,这表示模型意识到了更好的解决办法并重新评估,为问题分配更多思考时间。这些顿悟时刻是模型思维能力跃升的关键这些顿悟时刻是模型思维能力跃升的关键。据DeepSeek的研究,模型的进步并非均匀渐进的。在强化学习过程中,响应长度会出现突然的显著增长,这些跳跃点往往伴随着解题策略的质变。这种模式酷似人类在长期思考后的突然顿

    47、悟,暗示着某种深层的认知突破。图图:GRPOGRPO相对传统相对传统PPOPPO强化学习方式强化学习方式对比对比u例如模型在解决这个例如模型在解决这个 a-(a+x)=x 的问题时的问题时,模型突然模型突然停下来说停下来说Wait,wait.Wait.Thats an aha moment I can flag here(等等、等等、这是个值得标记的啊哈时刻),随后(等等、等等、这是个值得标记的啊哈时刻),随后重新审视了整个解题过程。这种类似人类顿悟的行为完全是重新审视了整个解题过程。这种类似人类顿悟的行为完全是自发产生的,而不是预先设定的。自发产生的,而不是预先设定的。图图:强化学习过程中强

    48、化学习过程中,模型会出现跳跃点模型会出现跳跃点,这就是顿悟这就是顿悟时刻时刻资料来源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning2.4、DeepSeek R1:高质量冷启动数据高质量冷启动数据+多阶段训练多阶段训练,将强推理能力将强推理能力泛化泛化 纯强化学习后出来的DeepSeek R1 zero存在可读性差以及语言混乱等问题,主要因其全通过奖惩信号来优化其行为,没有任何人类示范的标准答案作为参考,因此DeepSeek团队使用冷启动+多阶段训练推出DeepSeek R1模型

    49、。具体训练步骤:1 1)高质量冷启动数据高质量冷启动数据:与DeepSeek R1 zero同理,以DeepSeek v3 base作为强化学习的起点,但为了克服可读性差的问题,选择可读性更强的cot(长思维链)数据作为冷启动数据,包括以可读格式收集DeepSeek-R1 Zero输出,并通过人工注释者进行后处理来提炼结果。2 2)面向推理的强化学习面向推理的强化学习,这与DeepSeek R1 zero的强化学习过程相同,但是在RL期间引入语言一致性奖励,虽然语言对齐可能会造成一定的性能损失,但是提高了可读性。3 3)抑制采样和监督微调抑制采样和监督微调,拒绝采用指模型训练过程中生成的一些不

    50、符合特定标准或质量要求的样本数据进行舍弃,同时选取了v3的SFT数据集一部分作为微调数据。4 4)全场景强化学习全场景强化学习,属于一个二级强化学习阶段,目的是与人类偏好保持一致。图图:DeepSeek R1 DeepSeek R1 模型训练模型训练过程过程图图:DeepSeek R1DeepSeek R1与其他模型的性能与其他模型的性能对比对比资料来源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning、澎湃新闻2.5、开源大模型:打破开源大模型:打破OpenAI等闭源模型生态,等

    51、闭源模型生态,提升世界对中国提升世界对中国AI大模型认知大模型认知开源即代码层面开源,可以调用与进行二次开发。开源免费调用有助于先行占据市场份额,成为规则制定者,率先拓展生态粘性。开源免费调用有助于先行占据市场份额,成为规则制定者,率先拓展生态粘性。如,谷歌将安卓开源,获得了全球80%的移动手机端市场份额,同时也覆盖电视、汽车等使用场景。DeepSeek V3DeepSeek V3与与R1R1模型实现了开源,采用模型实现了开源,采用MITMIT协议。协议。这产生多方面影响:对大模型发展:对大模型发展:这提升了世界对中国AI大模型能力的认知,一定程度打破了OpenAI与Anthropic等高级闭

    52、源模型的封闭生态。DeepSeek R1在多个测试指标中对标OpenAI o1,通过模型开源,也将大模型平均水平提升至类OpenAI o1等级。对下游生态:对下游生态:优质的开源模型可更好用于垂类场景,即使用者针对自身需求蒸馏,或用自有数据训练,从而适合具体下游场景;此外,模型训推成本降低,将带来使用场景的普及,带动AIGC、端侧等供给和需求。图图:DeepSeekMoEDeepSeekMoE对比传统对比传统MoEMoE架构架构图图:开源许可证协议标准开源许可证协议标准资料来源:DeepSeek官网,51TCO,国海证券研究所三三、DeepSeekDeepSeek对对AIAI应用的影响应用的影

    53、响?3.1、DeepSeek打开低成本推理模型边界打开低成本推理模型边界,加速加速AI应用布局进程应用布局进程核心观点核心观点:DeepSeekDeepSeek在推动降本在推动降本、强推理三大层面驱动下强推理三大层面驱动下,有望加速有望加速AIAI应用普及度迎来跨越式提升应用普及度迎来跨越式提升。OpenAIOpenAI上线性价比模型上线性价比模型o3-minio3-mini,加速低成本推理模型边界加速低成本推理模型边界。2025年2月1日,OpenAI深夜上线o3-mini系列推理模型,其也是OpenAI系列推理模型中最具性价比的模型。性能方面,o3-mini在数学、编程、科学等领域表现优异

    54、,以数学能力为例,o3-mini(low)达到了与o1-mini相当的水平;o3-mini(medium)能力媲美满血版o1;o3-mini(high)表现超越o1系列一众模型。对比DeepSeek-R1在数学能力、编程能力上的测试结果,DeepSeek R1处于OpenAI o3-mini(medium)水平。DeepSeekDeepSeek价格优势仍大幅领先于价格优势仍大幅领先于OpenAIOpenAI系列推理模型系列推理模型。DeepSeek定价为百万tokens输入0.014美元(缓存命中,未命中则0.55美元),百万tokens输出价格2.19美元;o3-mini百万tokens输入

    55、价格0.55美元(缓存命中,未命中则1.1美元),百万tokens输出价格为4.4美元。图图:DeepSeekDeepSeek和和OpenAIOpenAI能力能力对比对比图图:DeepSeekDeepSeek和和OpenAIOpenAI推理模型定价对比推理模型定价对比0.0140.552.197.515600.551.14.4010203040506070百万tokens输入(缓存命中)百万tokens输入(缓存未命中)百万tokens输出价格OpenAI-o3-miniOpenAI-o1DeepSeek r1Benchmark03-mini(Low)03-mini(Medium)03-min

    56、i(High)DeepSeek-R1AIME 2024(Math)6079.687.379.8GPQA Diamond(Science)70.676.879.771.5Codeforces(Coding)1831(ELO)2036(ELO)2130(ELO)96.3(Percentile)SWE-bench Verified(Software Eng.)40.842.949.349.2资料来源:DeepSeek官方公众号,OpenAI官网,国海证券研究所3.1.1、模型成本下降模型成本下降+性能第一梯队性能第一梯队+开源开源,国内国内AI应用商业模式有望加速应用商业模式有望加速跑通跑通 我们认

    57、为我们认为DeekSeekDeekSeek或推动或推动AIAI投资回报率加速提升投资回报率加速提升,AIAI应用商业模式加速跑通应用商业模式加速跑通。据中国工业互联网研究院数据,2024年以字节火山引擎、阿里云、百度云为代表的云厂商掀起了大模型价格战,降价幅度普遍达到90%以上。海外以OpenAI为例,5月发布GPT-4o,模型性能升级且价格较GPT-4-Turbo下降50%;8月上线GPT-4o新版本,更强更便宜,但输出价格节省33%。国内以阿里为例,12月31日阿里云宣布2024年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%。全球及中国全球及中国AIAI应用市场规模加速提升应用

    58、市场规模加速提升。据IDC数据,全球生成式AI市场规模在2024年达到360.6美元,同比+76%,预计在2028年达到2154亿美元;中国AI软件市场规模在2024年达到5.7亿美元,预计2028年达到35.4亿美元。图图:大模型降本趋势大模型降本趋势明确明确图图:全球生成式全球生成式AIAI市场市场规模规模图图:中国中国AIAI软件市场软件市场规模规模资料来源:IDC、艾瑞咨询、中国工业互联网研究院、国海证券研究所204.8360.6627.210351569215476%74%65%52%37%0%10%20%30%40%50%60%70%80%050010001500200025002

    59、02320242025E2026E2027E2028E全球生成式AI市场规模(亿美元)yoy5.78.513.422.335.449%58%66%59%0%10%20%30%40%50%60%70%051015202530354020242025E2026E2027E2028E中国AI软件市场规模(亿美元)yoy3.1.1、强推理模型强推理模型加速步入加速步入AGI之路之路 R1-Zero R1-Zero展现出强大展现出强大的通用推理能力。的通用推理能力。它不仅在数学竞赛中取得惊人成绩,更重要的是,R1-Zero不仅是在模仿思考,而是真正发展出了某种形式的推理能力。DeepSeekDeepSe

    60、ek最终目标最终目标:AGIAGI。传统的AI训练方法可能一直在重复于让AI模仿人类的思维方式。通过纯粹的强化学习,AI系统似乎能够发展出更原生的问题解决能力,而不是被限制在预设的解决方案框架内。虽然R1-Zero在输出可读性上存在明显缺陷,但这个缺陷本身可能恰恰印证了其思维方式的独特性。就像一个天才儿童发明了自己的解题方法,却难以用常规语言解释一样。这提示我们:真正的通用人工智能可能需要完全不同于人类的认知方式。图图:我国我国AGIAGI产业产业图谱图谱资料来源:infoQ,国海证券研究所3.2、DeepSeek R1蒸馏赋予小模型高性能蒸馏赋予小模型高性能,端侧端侧AI迎来迎来奇点时刻奇点

    61、时刻蒸馏法具有强大的潜力蒸馏法具有强大的潜力,端侧小模型迎来发展契机端侧小模型迎来发展契机。如下表所示,只需提取 DeepSeek-R1 的输出即可使高效的DeepSeekR1-7B全面优于GPT-4o-0513等非推理模型,DeepSeek-R1-14B在所有评估指标上都超过了QwQ-32BPreview,而 DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中明显超过了 o1-mini。此外,我们发现将 RL 应用于这些蒸馏模型会产生显着的进一步收益。我们认为这值得进一步探索,因此在这里只提供简单的 SFT 蒸馏模型的结果。DeepSeekDeepSeek产品协

    62、议明确可产品协议明确可“模型蒸馏模型蒸馏”。DeepSeek决定支持用户进行“模型蒸馏”,已更新线上产品的用户协议,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。图图:DeepSeek R1DeepSeek R1蒸馏小模型性能蒸馏小模型性能对比对比AIME2024pass1AIME2024cons64MATH-500pass1GPQADiamondpass1LiveCodeBenchpass1CodeForcesratingGPT-4o-05139.313.474.649.932.9759Claude-3.5-Sonnet-10221626.778.36538.9717o1-min

    63、i63.680906053.81820QwQ-32B446090.654.541.91316DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189DeepSeek-R1-Distill-Qwen-14B69.78093.959.153.11481DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691DeepSeek-R1-Distill-Llama-8B50.48089.14939.61205D

    64、eepSeek-R1-Distill-Llama-70B7086.794.565.257.51633图图:端侧与云端部署端侧与云端部署AIAI的规模的规模区别区别资料来源:DeepSeek公司公众号,国海证券研究所3.2、DeepSeek R1蒸馏赋予小模型高性能蒸馏赋予小模型高性能,端侧端侧AI迎来奇点时刻迎来奇点时刻全球端侧全球端侧AIAI市场规模预计从市场规模预计从2022 2022 年的年的152152亿美元增长到亿美元增长到20322032年的年的14361436亿美元亿美元。这一近十倍的增长不仅反映了市场对边缘 AI 解决方案的迫切需求,也预示着在制造、汽车、消费品等多个行业中,边

    65、缘 AI 技术将发挥越来越重要的作用。在资源受限的设备上部署性能强大的模型,必须面对内存与计算能力的双重挑战,自2023年起,随着参数量低于 10B 的模型系列如 Meta 的 LLaMA、Microsoft 的 Phi 系列等的涌现,LLMs 在边缘设备上运行的可行性逐步明朗。图图:全球端侧全球端侧AIAI市场市场规模规模图图:端侧端侧AIAI产业链产业链图谱图谱资料来源:On-Device Language Models:A Comprehensive ReviewJiajun Xu、公司官网四四、DeepSeekDeepSeek对算力影响对算力影响?4.1、DeepSeek V3训练中训

    66、练中GPU成本成本558万美元,对比海外成本降低万美元,对比海外成本降低 DeepSeek V3模型训练成本达278.8万H800小时,共花费557.6万美元。对比OpenAI、Anthropic、LlaMA3等模型,DeepSeek V3单次训练成本显著降低,主要系DeepSeek公司通过优化模型结构、模型训练方法、针对性GPU优化等部分,提升了模型训练过程中的算力使用效率。模型结构模型结构 Architecture Architecture模型训练方法模型训练方法 Pre-Train Pre-Train针对性针对性GPUGPU优化优化专家模型专家模型 MOE+MOE+多头潜在自注意力多头潜

    67、在自注意力 MLAMLA用于负载均衡的辅助无损策略用于负载均衡的辅助无损策略多标记预测多标记预测(MTP)(MTP)Dual PipeDual PipeAll To ALL All To ALL 通信内核通信内核IB+NVLinkIB+NVLink无张量并行无张量并行 TPTP低精度低精度FP8FP8训练训练PTXPTX语言语言带宽限制带宽限制资料来源:DeepSeek论文,国海证券研究所(注:表格为DeepSeek V3官方训练费用,不包含此前对架构、算法、或数据进行研究和实验的相关费用)训练成本预训练上下文扩展后训练总计H800GPU小时(万小时)266.411.90.5278.8美元(万

    68、元)532.823.810557.6表:表:DeepSeekDeepSeek V3 V3训练成本(假设训练成本(假设H800H800租赁价格为租赁价格为 2 2 美元美元/每每GPUGPU小时)小时)图:图:DeepSeekDeepSeek V3 V3节省训练成本的方法,包括调整模型结构、训练方法、节省训练成本的方法,包括调整模型结构、训练方法、GPUGPU优化等优化等4.2、DeepSeek或有约或有约5万万Hopper GPU,训练总成本或较高,训练总成本或较高 据Semianalysis,DeepSeek大致拥有10000张H800 GPU芯片、10000张H100 GPU芯片以及大量H

    69、20 GPU芯片,用于模型训练/推理、研究等任务。其估计,DeepSeek的总服务器资本支出(CapEx)约为13亿美元(约90亿元人民币),其中仅集群运营成本就高达7.15亿美元。DeepSeek V3论文中557.6万美元成本,仅为预训练中消耗的GPU计算成本,但模型完整训练成本包括研发、数据清洗、人员薪资、硬件总拥有成本TCO(服务器、电力、冷却系统、数据中心维护)等,会带来训练总成本体量更高。作为对比,Anthropic训练Claude 3.5 Sonnet的成本就高达数千万美元。表:表:DeepSeekDeepSeek AI TCO AI TCO(总拥有成本)(总拥有成本)ChipU

    70、nitA100H20H800H100TotalYears#4444#ofGPUs#10,00030,00010,00010,00060,000NVDA$ASP$13,50012,50020,00023,00046,000ServerCapEx/GPU$23,71624,22831,72834,72879,672TotalServerCapEx$m2377273173471,281CosttoOperation$m157387170230715TotalTCO(4yOwnership)$m/hr3951,1144875771,996资料来源:Semianalysis,国海证券研究所 AI的演进路

    71、径中,推理成本不断下降,计算效率持续提高是长期趋势。的演进路径中,推理成本不断下降,计算效率持续提高是长期趋势。例如:算法进步的速度约为每年4倍,即每年达到相同能力所需的计算量减少到四分之一;Anthropic CEO Dario甚至认为,这一进步速度可能达到10倍。Jevons 悖论悖论:技术进步提高了资源使用效率,效率提高降低了资源使用成本,成本下降刺激了资源需求的增长,需求增长可能超过效率提升带来的节约,最终导致资源总消耗增加。短期训练侧算力需求或受影响,但短期训练侧算力需求或受影响,但DeepSeek推理价格下降吸引更多用户调用模型,带来英伟达推理价格下降吸引更多用户调用模型,带来英伟

    72、达H100 GPU的租赁价格提升,故表的租赁价格提升,故表明算力需求量短期仍呈提升趋势明算力需求量短期仍呈提升趋势,中长期推理算力需求有望持续增长。,中长期推理算力需求有望持续增长。4.2、Jevons悖论:悖论:AI计算提效引总需求提升,计算提效引总需求提升,NV H100租赁价格上涨租赁价格上涨资料来源:Semianalysis图:大模型成本持续下降,效率提升图:大模型成本持续下降,效率提升图:关键模型的测试情况图:关键模型的测试情况4.3、推理化:推理算力需求占比提升,推理化:推理算力需求占比提升,GenAI云厂商有望受益云厂商有望受益 DeepSeek降低推理成本,引降低推理成本,引算

    73、力需求结构变化算力需求结构变化。模型算法改进提升了训练算力使用效率、降低了训练成本,促进了模型商品化和更便宜的推理。据Semianalysis,DeepSeek推理服务可能以成本价运营,以此抢占市场份额,还在推理端优化英伟达H20 GPU的使用(H20内存与带宽容量高于H100,推理效率更具优势)。推理占比持续提升。推理占比持续提升。更低的推理成本有望提升下游应用与端侧对大模型推理使用需求,推理算力需求占比有望增长。2024H1,用于推理的人工智能芯片市占率为61%。据IDC,预期2023-2027年,推理AI服务器工作负载占比从41%提升至73%左右。集合多种模型的云服务厂商有望受益。集合多

    74、种模型的云服务厂商有望受益。无论是开源还是闭源模型,计算资源都很重要,如果云厂商基于计算资源打造上层服务或产品,那么计算资源的价值就有可能提升,这意味着更多的Capex流向硬件领域,软件也有望受益。ModelPrice/1MInputTokensPrice/1MOutputTokensMMLU(Pass1)SWEVerified(Resolved)AIME2024MATH-500Claude-3.5-Sonnet-1022$3.00$15.00 88.350.81678.3GPT-4o-0513$2.50$10.00 87.238.89.374.6DeepSeek-V3(TogetherAI)

    75、$1.25$1.25 88.542.039.290.2DeepSeek-V3MedianProvider$0.90$1.10 DeepSeek-V3(NormalPrice)$0.27$1.10 DeepSeek-V3(DiscountPrice)$0.14$0.28 Gemini1.5Pro$1.25$5.00 862088GPT-4o-mini$0.15$0.60 8233.26.779Llama3.1405B$3.50$3.50 88.624.523.373.8Llama3.270B$0.59$0.73 862064表:表:DeepSeekDeepSeek V3 V3性能优越,推理价格较

    76、低性能优越,推理价格较低资料来源:Semianalysis,IDC,国海证券研究所图:图:2024H12024H1,中国,中国 Top5 GenAl laaS Top5 GenAl laaS服务厂服务厂商市场份额商市场份额4.3.1、国产化:推理化国产化:推理化+中美博弈加剧,国产中美博弈加剧,国产AI芯片需求有望提升芯片需求有望提升 模型推理对大型集群要求弱于训练,这与目前国产模型推理对大型集群要求弱于训练,这与目前国产算力单卡实力较强、互联能力不足的情况匹配,并算力单卡实力较强、互联能力不足的情况匹配,并考虑到目前中美半导体博弈加剧,考虑到目前中美半导体博弈加剧,DeepSeek积极积极适

    77、配适配昇昇腾、海光等国产芯片,国产化推理算力需求腾、海光等国产芯片,国产化推理算力需求有望持续增长。有望持续增长。图:图:2024H12024H1,中国人工智能芯片市场份额,中国人工智能芯片市场份额图:图:美国限制高端美国限制高端NV GPUNV GPU出口中国出口中国图:图:DeepSeekDeepSeek R1&V3 R1&V3推理服务适配推理服务适配昇昇腾云腾云图:图:DeepSeekDeepSeek R1&V3 R1&V3推理服务适配海光推理服务适配海光DCUDCU资料来源:IDC,Semianalysis,华为云公众号,光合组织公众号4.3.1、国产化:国产国产化:国产AI芯片硬件性

    78、能提升,市占率持续提升芯片硬件性能提升,市占率持续提升 2024H1,全国,全国AI芯片出货中,国产化比例达芯片出货中,国产化比例达20%。2024H1,中国加速芯片的市场规模达超过90万张。GPU卡占据80%的市场份额;中国本土人工智能芯片品牌出货量已接近20万张,约占整个市场份额的20%。在加速卡入口受在加速卡入口受限之后,由于数质化转型大趋势对于算力的持续需求,中国本土品牌加速卡限之后,由于数质化转型大趋势对于算力的持续需求,中国本土品牌加速卡持续优化硬件能力,持续优化硬件能力,市场份额存在一定程度的增长。市场份额存在一定程度的增长。图:国内外主流人工智能芯片性能对比情况图:国内外主流人

    79、工智能芯片性能对比情况641161844378501206230281%59%138%95%42%91%0%50%100%150%050010001500200025002018201920202021202220232024E中国AI芯片市场规模(亿元)同比(%,右轴)图:图:2018-20242018-2024年中国年中国AIAI芯片市场规模预测芯片市场规模预测资料来源:各公司官网,海光信息招股书,壁仞科技公众号,镁客网,中商情报网、国海证券研究所4.3.1、国产化:软件调用能力提升,国产国产化:软件调用能力提升,国产AI芯片生态蓬勃发展芯片生态蓬勃发展 使用使用GPU过程中,通常需经过多

    80、个层级才能调用到底层硬件。过程中,通常需经过多个层级才能调用到底层硬件。从上到下依次是高层编程语言(如 Python、C+)、硬件接口(如 CUDA、OpenCL 等)、驱动程序,最后才是底层硬件。在这个过程中,CUDA 作为一个相对高层的接口,为用户提供编程接口,而 PTX 则隐藏在驱动背后。DeepSeek-V3模型在多节点通信时绕过了 CUDA 直接使用 PTX(Parallel Thread Execution),有望实现以算法的方式来高效利用硬件层面的加速。PTX 与底层硬件直接交互,编写和调用 PTX 代码能更精确地控制底层硬件,实现更高效的计算。国内国内AI工作者在工作者在AI芯

    81、片的底层软件能力增强,为国产芯片的底层软件能力增强,为国产AI芯片的性能提升指明了新的方向,有利于国产芯片的性能提升指明了新的方向,有利于国产AI芯片发展。芯片发展。例如,海光持续拓展软件栈DTK(DCU ToolKit)、寒武纪自建软件生态、华为昇腾发展AI框架CANN8.0版。图:图:NV GPU CUDANV GPU CUDA结构图结构图图:图:昇昇腾全栈腾全栈 AI AI 软硬件平台,赋能软硬件平台,赋能昇昇腾生态不断发展腾生态不断发展资料来源:NVIDIA,华为昇腾官网,迈向智能世界,昇腾计算产业发展白皮书,华为官网,新智元公众号,网易,国海证券研究所4.3.2、ASIC:互联网厂商

    82、资本开支指引提升,:互联网厂商资本开支指引提升,ASIC服务器采购占比增长服务器采购占比增长公司公司20242024年年互联网大厂资本开支预期情况互联网大厂资本开支预期情况MicrosoftMicrosoft2024Q4(FY2025Q2),含融资租赁资本支出226亿美元,同比增长96.5%,环比增长13%,同比和环比增速均扩大,其中购买PP&E现金支出为158亿美元(高于一致预期1.2%)。与AI和云相关的支出中,超过一半用于15年折旧的长期基础设施资产,服务器CPU和GPU的占比有所下降。预计第三季度和第四季度的季度支出将与第二季度的支出保持相似水平。预计第三季度和第四季度的季度支出将与第

    83、二季度的支出保持相似水平。Alphabet Alphabet (谷歌)(谷歌)2024Q3公司资本开支达到131亿美元。公司预计全年每季度资本支出将大致维持第一季度公司预计全年每季度资本支出将大致维持第一季度120120亿美元或略高。亿美元或略高。MetaMeta2024Q4公司资本支出(包括融资租赁本金支付)为 148 亿美元,主要用于服务器、数据中心和网络基础设施的投资。公司预计公司预计20252025年的资本支出将在年的资本支出将在600-650600-650亿美元之间亿美元之间,服务器仍将是最大的支出增长驱动力,非人工智能计算能力需求也会增长。服务器仍将是最大的支出增长驱动力,非人工智

    84、能计算能力需求也会增长。亚马逊亚马逊2024Q3资本开支为213亿美元。公司预计下半年的资本投资将更高,大部分支出将用于支持对公司预计下半年的资本投资将更高,大部分支出将用于支持对AWS AWS 基础设施日益增长的需求基础设施日益增长的需求图:图:2022-2024Q2022-2024Q4 4 各厂商资本性开支各厂商资本性开支资料来源:Wind,Microsoft Start,澎湃新闻,搜狐,财联社,财经涂鸦官网,Trendforce,国海证券研究所22%19%15%9%6%9%20%20%17%16%11%6%5%25%MicrosoftGoogleAWSMetaCoreWeaveBBAT其

    85、他图:图:2023-20242023-2024年全球年全球CSPCSP对高阶对高阶AIAI服务器需求占比服务器需求占比内圈:2023外圈:2024E0501001502002502022Q12022Q22022Q32022Q42023Q12023Q22023Q32023Q42024Q12024Q22024Q32024Q4Meta谷歌Alphabet微软亚马逊(亿美元)4.3.2、ASIC:互联网厂商资本开支指引提升,:互联网厂商资本开支指引提升,ASIC服务器采购占比增长服务器采购占比增长 ASIC芯片在性能、能效以及成本上优于标准芯片在性能、能效以及成本上优于标准GPU等芯片,更加契合等芯片

    86、,更加契合AI推理场景的需求。推理场景的需求。CSP资本开支持续投向资本开支持续投向AI服务器采购。服务器采购。据TrendForce预估,2024年北美CSPs业者(如AWS、Meta等)持续扩大自研ASIC,以及中国的阿里巴巴、百度、华为等积极扩大自主ASIC 方案,促ASIC服务器占整体AI服务器的比重在2024年将升至26%,而主流搭载GPU的AI服务器占比则约71%。表表1 1:20242024年搭载年搭载ASICASIC芯片芯片AIAI服务器出货占比将逾服务器出货占比将逾2.52.5成成公司公司20222022202320232024E2024ENVIDIANVIDIA67.6%6

    87、5.5%63.6%AMDAMD(包括(包括XilinxXilinx)5.7%7.3%8.1%IntelIntel(包括(包括AlteraAltera)3.1%3.0%2.9%OthersOthers23.6%24.1%25.3%全部全部100%100%100%资料来源:Trendforce,国海证券研究所4.3.3、重塑价值链,机柜重塑价值链,机柜/铜缆铜缆/液冷液冷/HBM占比提升占比提升资料来源:Semianalysis,国海证券研究所整机柜HBM铜连接散热GB200H100$12k$12k每GPU服务器ODM毛利情况$6k$6k2X2X$3k$3k每GPUHBM花费$1k$1k3X3X$

    88、3k$3k每GPU$0.3k$0.3k10X10X$1.4k$1.4k每GPU BOM$0.4k$0.4k3X3X GB200 NVL系列的发布,有望带来系列的发布,有望带来机柜机柜、HBM、铜缆铜缆、液冷液冷等市场的等市场的价值量占比提升。价值量占比提升。整机柜:整机柜:机柜采用MGX架构,由计算托盘与交换托盘组成,提升组装复杂度,带来ODM整机厂的加工价值量提升。HBM:H100采用5颗HBM3,Blackwell Ultra预期采用8颗HBM3e,单颗GPU采用HBM数量与单价均实现提升。铜 连 接:铜 连 接:GB200 NVL 7 2 采用NVLink铜缆链接。散热:散热:B200 GPU功耗约1200W,GB200功耗约2700W,或达到风冷上线,有望推动液冷组件价值量提升。

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 举报,一经查实,本站将立刻删除。如若转载,请注明出处:http://zkbg.com.cn/_aibin__/9014.html

    加载中~

    相关推荐

    加载中~