当前位置: 首页 > news >正文

国产算力的DeepSeek时刻

微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
事件:DeepSeek更新V3.1版本,并表示其使用的UE8M0 FP8 Scale参数精度是针对即将发布的下一代国产芯片设计,引起市场广泛关注。
周二已经在群里发了,今天关注点在UE8M0 FP8,再续近期国产算力的热度,《海外算力VS国产算力》《辟谣龙
 
 
添加图片注释,不超过 140 字(可选)
1、重要变化:V3.1 vs GPT-5
1)一个模型支持思考/非思考模式。全球似乎都在走这种混合模型的路子(阿里Qwen走过这个路子但是后来放弃了),GPT-5是一个系统拖三个模型,而DeepSeek是一个模型,两者原理有别但殊途同归。
2)提效。V3.1和V3.1 Think相比V3和R1,达到同样效果需要的token数明显减少。注意这是提效而不是通缩,因为后续可以通过加算力获得额外性能。
3)Agent。通过后训练,增强了工具使用能力,Agent任务提升显著。
4)预训练。V3.1 Base在V3基础上重新做了外扩训练,增加训练了 840B tokens(vs V3训练了14.8T,大概比例是5.7%)。虽然增加的token不多,但是依然证明预训练和智能性是正比的,预训练还未结束。这840B我们推测有很多Agent数据。
2)和3)都明显利好应用,尤其是Agent类应用。至于上下文扩展到128k,其实V3论文是支持128k,只是DS官方为了成本优化到了64k,这次又加回来了。
 
2、另一个关注点就是使用UE8M0 FP8,明确指出“是针对即将发布的下一代国产芯片设计 ”,官方把这句话置顶在公众号评论里了。在DeepSeek-V3.1模型卡的说明文档中,确实提到了一句:使用UE8M0 FP8精度数据格式进行训练。
FP8是原版V3采用的精度,FP8的两种主流编码是E4M3和E5M2(英伟达、Arm、Intel定的),UE8M0代表在E4M3和E5M2的一种缩放,但是本质还是8位代表一个数。
目前支持FP8的是英伟达H和B系列,国产芯片中,明确已经支持FP8的只有摩尔线程。
 
3、什么是UE8M0 FP8?
1)基本概念
- FP8:FP代表浮点数(小数),8代表数据用8bit(8位0、1)表示。计算机里的小数都是用科学计数法表示的,只不过与通常的科学计数法不同,不是10的次方,而是2的次方,例如3.14可以表示为1.57*2^1,0.618可以表示为1.236*2^(-1)。
- U:Unsigned,无符号,与有符号(Signed)相对应,也就是数字不带正负号,这种数据格式无法表示负数,但是可以用同样的数据长度表示更多正数。
- E:Exponent,指数,科学计数法的“次方”。
- M:Mantissa,尾数,科学计数法的“头”或“有效数字”。
- UE8M0:无符号(只能取0或正数),用8位数字表达指数,用0位数字表达尾数(此时尾数默认为1),也就是说这种数字格式只能表示2的n次方,从2的0次方到2的255次方。
- UE8M0与常规FP8的区别:常规FP8通常是“(S1)E5M2”或者“(S1)E4M3”,对数据的表示范围有所不同。
2)FP8精度:E4M3、E5M2、UE8M0等多种格式都代表什么?
-E4M3=1位符号+4位指数+3 位尾数。动态范围小,精度较高,就像一本“小本子”,能记细节,但容量有限。
-E5M2:1 位符号+5 位指数+2 位尾数。动态范围大,精度差,就像一张“粗略地图”,范围很广,但细节模糊。
- UE8M0:8位指数,没有符号和尾数,只能表示 2^n 倍数,非常适合存缩放因子、就像相机的调焦光圈,让画面(E4M3/E5M2)放大或者缩小,来适应相框(训练/推理)的需要。
总结:计算/存储数值用E4M3/E5M2省算力和显存,缩放用UE8M0提高稳定性和生态兼容性。
3)UE8M0是怎么来的?
UE8M0首先出自NVIDIA PTX指令集,主要用来作为 MXFP8 训练推理中的缩放因子。DS-V3/R1在对FP8 稳定训练方面做出了突出贡献,并通过 DeepGEMM 这样的开源库把这种实现公开出来。DeepGEMM 的README就直接写了“SM100 需要 packed UE8M0 缩放因子”,并提供了相应kernel,帮助整个生态在工程上落地。
总结:NVIDIA 提供了标准(UE8M0 格式),而DeepSeek贡献了工程实现与大规模实践(DeepGEMM代码、FP8 稳定训练方案)
 
4、UE8M0 FP8,对算力有何影响?
1)FP8:相比FP16可以节约一半算力/显存容量/通信带宽,相比FP32能节约3/4。数据长度的缩短,有利于提升计算速度,并且可以用更少的算力卡、更小的集群装下模型。沿着该思路,使用FP6、FP4更能节约算力、显存、带宽。
2)UE8M0:可以把计算中占据大多数的乘法转化为更简单的加法。由于科学计数法的“头”全是1,所以数据只能是2的n次方。由于神经网络中,主要的运算是矩阵乘法,而2的n次方乘法,比通常的乘法简单很多,可以简化为加法,例如2^m * 2^n = 2^(m+n)。
3)加法相比乘法,快很多、简单很多。通常,加法器电路的面积比乘法器小很多,一次乘法运算消耗的时间是加法的数倍。
- 国产芯片要支持FP8,需要同时满足①芯片硬件在算子层面原生支持E4M3/E5M2和②支持UE8M0 等FP8缩放标准
- 对原本只支持BF16/FP16精度的老芯片,可以通过 FP8 存储 + 转换 BF16/FP16 计算,节省显存/带宽
- 对未来新发布的原生支持FP8的国产芯片,即可享受满血版的算力/显存/带宽约2x的效率提升
结论:UE8M0格式的乘法,比其他FP8快数倍,且明显节约芯片面积。我们认为,推出更灵活的数据格式UE8M0 FP8,是Deepseek通过更进一步的工程优化(类似采用FP8数据训练),针对国产AI芯片算力不足的问题做的优化(动态的去减少尾数可以使得更多的计算采用整数乘法器进行操作,可以较大程度的释放算力,在国产芯片设计端,未来在有限的制程下也可以塞入更多的整形计算单元来堆砌更多算力)。
核心1:低精度训练可以提高吞吐量,降低内存与带宽消耗,强调了FP8等低精度训练的重要性。
核心2:采用UE8M0 FP8可以帮助平衡FP8训练的动态范围和精度,在国产卡支持FP8精度的初期阶段,通过软件层的优化、带来国产卡FP8精度的调优与使用效率提升。
 
5、UE8M0 FP8,对模型有何影响?
- 在现有算力条件下,采用新数据格式可以大幅提升训练推理效率,加快模型迭代。
- 同样的显存容量下,可以增大等效KV Cache容量,增加上下文长度,对于模型的记忆能力、复杂项目分析能力大有助益。
- 同样的网络带宽下,可以增加网络效率、集群效率,降低模型公司成本,改善用户体验。
国产算力支撑国产模型,本次DeepSeek V3.1有望助推国产算力竞争力提升,看好国产算力与国产模型合力支撑下的中国AI产业。
 
6、对存储需求的影响:我们认为不同的FP8格式实际上在存储单元的占用均为8 bit,实际上对内存单元以及内存带宽的需求并没有任何优化或者变化,因此部分公众号中解读的所谓利空HBM,降低存储需求的表述是明显错误的。只要为FP8的格式,那么读写都是8bit的存储单元占用。
 
7、电话会议纪要
1)芯片技术讨论
• 华为下一代芯片(可能命名为910x)将支持FP8精度,预计第四季度送测厂商。当前910B库存积压,主要用于推理而非训练。
• 寒武纪690、摩尔线程S5000等国产芯片已支持FP8,但华为生态软件适配更优。
• 国产GPU架构自主可控问题:计算公司公告称“力争解决”,实际未完全自主(采用Imagination IP)。
2)AI模型与部署
• DeepSeek V3.1更新:增加训练token数量、优化Agent支持、增强Function Calling(如Anthropic Code API接入)。
• FP8精度的意义:降低推理存储占用(100B模型从200G压缩至100G),提升吞吐量,但需与国产芯片(如华为、寒武纪)深度适配。
• 国产芯片推理部署:华为升腾910C不支持FP8,下一代芯片将支持;寒武纪受限于FP16,需转换精度。
3)行业动态与市场情绪
• 中兴通讯:中标移动集采,但AI卡依赖第三方(如壁仞),实际技术能力存疑。
• 半导体设备国产化:国产设备订单增长,政策要求新建晶圆厂提高国产设备比例。
• 摩尔线程:融资70亿,软件生态是优势,但技术门槛低(对比计算、汉博等竞品)。
4)投资观点
• 看好标的:中兴通讯(组织优化)、中芯国际(14nm独家产能)、华为系(升腾下一代芯片)。
• 风险提示:东芯架构非自研,炒作需谨慎;华宏收购华利威为扩产,但市场反应负面。
• AI应用方向:DeepSeek开源可能利好办公(如金山)、编程、游戏领域,Agent生态将成变现重点。
5)其他要点
• 鸿蒙系统适配:9月30日前应用需适配鸿蒙,但实际效果待观察;小米汽车利润超预期,与华为差异化竞争。
• 国产替代趋势:下半年至明年,设备、材料、芯片全链条受益政策驱动(如算力采购补贴倾斜国产)。
 
微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
 
参考文献链接
国产算力的DeepSeek时刻
 
 
http://www.sczhlp.com/news/30160/

相关文章:

  • 抢占 AIGS 先机,JBoltAI 框架让 Java 团队在 AI 时代领跑
  • 用 JBoltAI 优化 CRM 客户跟进:批量总结功能的实践价值
  • Adobe InCopy 2025(IC2025)下载安装教程(一键安装包)包含详细图文安装步骤
  • 关于学校的网站模板免费下载百度网站推广教程
  • 妇幼保健院人流价格表搜索引擎关键词优化有哪些技巧
  • 外贸网站建设 如何做河北网站建设公司排名
  • wordpress文章内链指定关键词seo网站外链工具
  • 火车头提取wordpress抓包数据郑州seo关键词优化公司
  • 建设网站的策划书性能优化大师
  • phpcms v9网站建设黄冈网站推广软件视频下载
  • 做h5网站公司天天外链
  • AE 2025下载安装教程(附一键安装包下载)2025最新整理AE 2025详细下载安装步骤
  • DeepSeek FP8针对的下一代国产芯片是哪家?
  • 告别传统开发模式,JBoltAI 框架引领 Java AI 应用进入智能体时代
  • 想让 Java 系统秒变智能?JBoltAI 框架的 AIGS 解决方案太香了
  • 宁波做网站gs网站搭建教程
  • 舟山网站建设公司如何推广网页
  • 网页制作书籍推荐seo推广是什么
  • 深圳网站品牌建设品牌营销平台
  • 自学网站建设要多久网络营销案例分析论文
  • 在K8S中,Pod的LivenessProbe 探针的常见方式有哪些?
  • P4876 The Lazy Cow G 非常神奇有意思
  • 在K8S中,Pod 的健康检查方式有哪些?
  • 上海人工智能实验室2026届全球校招开启
  • 做欧美网站曼联目前积分榜
  • 深圳家装网站建设多少钱北京全网推广
  • 微信公众号小说代理和网站结合怎么做网站运营推广选择乐云seo
  • 专业集团门户网站建设服务商搜索引擎排名优化方法
  • 俄语网站推广批量查询指数
  • 电子类网站建设需要多少钱深圳seo优化排名