正文内容 评论(0)
【XDNA 2 NPU架构:算力全球第一、首发全新数据格式】
锐龙7040系列是全球第一款集成NPU AI独立引擎的x86处理器,锐龙8040系列在此基础上大幅提升性能。
目前,AMD已经积累了丰富的AI PC生态,硬件方面有宏碁、华硕、戴尔、惠普、联想等各大品牌的支持,软件方面发展了100多个AI优化功能,无论是Windows 11系统本身,还是Adobe、Black Magic、Blender、Topaz Labs、Webex、Zoom等头部应用都已支持。
AMD预计今年会有150多家ISV软件商支持AMD AI PC功能。
锐龙AI 300系列升级到了全新的XDNA 2架构,也是AMD的新一代NPU。
最直观的变化,就是AI引擎单元从20个大幅增加到32个(分为四行八列),而每个单元内的MAC数量也翻了一番。
再加上板载内存容量增加1.6倍、Block FP16块状浮点格式支持、非线性增强支持、8条并发空间流(翻倍),算力从初代的10 TOPS大幅增加到50 TOPS (INT8和Block FP16)。
这是全球第一个达到如此高度的NPU,远超Intel Lunar Lake、高通骁龙X Elite、苹果M4等竞品。
值得一提的是,XDNA 2不但增加了核心单元,还可以灵活分区使用,包括空间分区、时间分区。
空间分区适合并发实时模型,可以将不同列的核心单元分配给不同的任务,比如2个列负责实时视频、2个列负责实时音频、4个列负责App应用。
时间分区适合大模型,可以整体先后执行不同的任务,比如先全力处理LLM大语言模型,然后集体进行视频编辑。
根据负载不同,XDNA 2可以按照一个或多个列分别开关(4/8/16/20/24/28/32),也就是轻度任务下能关掉部分核心,从而节省功耗,能效比初代提高了一倍。
对于AI应用来说,数据类型是至关重要的,XDNA 2架构行业首创支持了开放的Block FP16浮点格式,综合了8位数据的性能、16位数据的精度。
它本质上也是一种16位格式,因此拥有非常接近传统FP16(单精度)甚至是FP32(双精度)的高精度,AMD官方数据显示一般可以做到FP32格式的99.7%到100%,也就是几乎无损,可以无缝衔接使用FP16、FP32、BF16训练的模型,不需要额外的量化。
此外,Block FP16还有着类似9位格式的存储空间、8位格式的吞吐性能,因此模型体积相比于FP16可减小足足44%,计算性能与INT8格式相当、是FP16的两倍。
AMD宣称,Llamav2 7B大模型用上锐龙AI 300系列、Block FP16格式,响应速度可以达到Intel酷睿Ultra 100处理器的整整5倍。
AMD现场就演示了锐龙AI 300处理器运行Llama 2 7B大模型时的RAG(检索增强能力)。
比如直接问它AMD的新一代NPU架构的名字,因为没有学习过,就会胡乱回答什么7nm RDNA,然后喂给它AMD在台北电脑展上的演讲,它立刻就能学习并给出正确的答案,不仅知道XDNA 2架构的名字,还知道它的新特性。
NPU能力的发挥,离不开开发平台的支持,AMD也制定了长期、稳定的锐龙AI路线图。
第三季度将有锐龙AI 1.2版本,正式支持Block FP16数据格式、C++ API,以及各种最新AI模型,比如Llama 2/3、通义千问1.5、Stable Diffusion XL-Turbo等等。
第四季度升级到1.3版本,扩展支持更多模型,并首次支持WSL Linux子系统。
明年第一季度继续升级到1.4版本,首次带来AMD一体化AI堆栈,并继续为新的SOTA Gen模型进行优化。
AMD还举了一个典型案例,能将手机作为专业摄像头的免费软件Camo,已经支持AMD NPU,而且得益于方便的锐龙AI开发套件,可以轻松将现有的ONNX运行模型从GPU集显迁移到NPU上。
AMD还披露了下一代NPU的规划,算力、能力进一步强化,可以直接处理大模型,更多接手和分担CPU、GPU的工作。