正文内容 评论(0)
在介绍本文的主角——高通Snapdragon S4 MSM8960之前,先让我们来回顾一下现有的智能手机/平板电脑ARM架构SoC方案,这些处理器全部基于40nm等级的工艺,由GlobalFoundries、三星、台积电或联电生产。明年各大厂商的制造工艺均将进化为28nm,带来性能以及续航能力的提升。在完全进化至28nm工艺之前市面上主流的SoC方案可以说是五花八门:
2011/2012年常见SoC方案比较
|
|||||
SoC名称
|
制造工艺
|
处理器
|
图形核心
|
内存总线
|
发布日期
|
苹果A5
|
45nm
|
2*Cortex-A9@1GHz
|
PowerVR SGX 543MP2
|
2*32bit LPDDR2
|
已经发布
|
NVIDIA Tegra 2
|
40nm
|
2*Cortex-A9(不含NEON)@1GHz
|
GeForce ULP
|
1*32bit LPDDR2
|
已经发布
|
NVIDIA Kal-El
|
40nm
|
4*Cortex-A9@约1.3GHz
|
GeForce++
|
1*32bit LPDDR2
|
2011年第四季度
|
三星Exynos 4210
|
45nm
|
2*Cortex-A9@1.2GHz
|
ARM Mali-400 MP4
|
2*32bit LPDDR2
|
已经发布
|
三星Exynos 4212
|
32nm
|
2*Cortex-A9@1.5GHz
|
ARM Mali-400 MP4
|
2*32bit LPDDR2
|
2012年
|
TI OMAP 4430
|
45nm
|
2*Cortex-A9@1.2GHz
|
PowerVR SGX 540
|
2*32bit LPDDR2
|
已经发布
|
TI OMAP 4460
|
45nm
|
2*Cortex-A9@1.5GHz
|
PowerVR SGX 540
|
2*32bit LPDDR2
|
2011年第四季度-2012年上半年
|
TI OMAP 4470
|
45nm
|
2*Cortex-A9@1.8GHz
|
PowerVR SGX 544
|
2*32bit LPDDR2
|
2012年上半年
|
TI OMAP 5
|
28nm
|
2*Cortex-A15@2GHz
|
PowerVR SGX 544MPx
|
2*32bit LPDDR2
|
2012年下半年
|
高通MSM8x60
|
45nm
|
2*Scorpion@1.5GHz
|
Adreno 220
|
2*32bit LPDDR2
|
已经发布
|
高通MSM8960
|
28nm
|
2*Krait@1.5GHz
|
Adreno 225
|
2*32bit LPDDR2
|
2012年上半年
|
Krait架构
Krait处理器是高通第二代Snapdragon的心脏,也是所有Snapdragon S4 SoC的核心,它在Scorpion的基础上作出了不少改进。
在架构的前端方面,Krait显然要更“宽”,一个时钟周期可以执行三次fetch与decode操作。每个Decoder都相当于ARM11的single issue能力模块,对比前代Scorpion的2-wide,能力也提高了50%。
后端执行单元方面则是简单的扩张,从Scorpion的三个增加到了七个,可以并行执行4条指令。而在指令执行阶段,Krait终于进入了Cortex-A9阶段,可实现完全乱序执行。
核心架构比较
|
|||||
|
ARM11
|
ARM Cortex-A8
|
ARM Cortex-A9
|
高通Scorpion
|
高通Krait
|
Decode能力
|
Single-issue
|
2-wide
|
2-wide
|
2-wide
|
3-wide
|
流水线长度
|
8级
|
13级
|
8级
|
10级
|
11级
|
乱序执行
|
否
|
否
|
是
|
部分
|
是
|
FPU
|
VFP11(流水线化)
|
VFPv3(非流水线化)
|
可选VFPv3-D16(流水线化)
|
VFPv3(流水线化)
|
VFPv3(流水线化)
|
NEON视频解码模块
|
无
|
有(64bit)
|
可选MPE(64bit)
|
有(128bit)
|
有(128bit)
|
制造工艺
|
90nm
|
65nm/45nm
|
40nm
|
45nm
|
28nm
|
典型时钟频率
|
412MHz
|
600MHz/1GHz
|
1.2GHz
|
1GHz
|
1.5GHz
|
流水线方面,Krait的整数流水线由Scorpion的10级略微提高至11级,对比Cortex-A15的15级流水线,高通的设计含有更多的定制化逻辑模块,同样使得处理器的频率容易提升。
此外,Krait对比Scorpion,还支持在A15中才加入的新虚拟化指令集和40bit内存寻址。双核型号的二级缓存也从512KB升至1MB。一个恰当的类比例子是,ARM Cortex-A8时代的设计就像当年的P54C Pentium,而Krait的完全乱序支持就像P6 Pentium Pro,整体设计则是把SoC带入了Pentium II的时代。
在后端完全乱序执行引擎的加持下,Krait架构的预期性能将高于Intel 45nm Atom。2012年面世的部分智能手机可能将拥有超过采用Banias核心Pentium M处理器的初代“迅驰”笔记本的性能。
性能期望
通常ARM核心性能是用老旧的DMIPS(Dhrystone Millions of Instructions per Second)来衡量,这个老旧的整数性能测试基本与多数读者同龄但在桌面市场早已被弃之不用。但对于架构相同点颇多的各ARM系核心还是有一些意义的:
ARM单核DMIPS/每MHz性能比较
|
|||||
|
ARM11
|
ARM Cortex-A8
|
ARM Cortex-A9
|
高通Scorpion
|
高通Krait
|
DMIPS/MHz
|
1.25
|
2.0
|
2.5
|
2.1
|
3.3
|
Krait的DMIPS/MHz性能为3.3,比同频的Cortex A9快上约30%。预计Krait在发布时将拥有超过目前市面上A9架构CPU约20-25%的性能。依高通推出的频率版本不同,新的智能手机领先市场上A9架构CPU机种的性能达30-50%也不奇怪。目前ARM还没有公布Cortex-A15的性能数据,业界传言在3.5 DMIPS/MHz左右。(译者按:从设计角度来看,高通两代核心的定位差不多是这样,Scorpion在A8与A9之间,Krait在A9与A15之间)
新的VeNum视频解码单元
在ARM架构SoC中,所有NEON指令都由专用单元去处理。Krait也不例外,高通将这代NEON专用模块命名为VeNum,吞吐容量比之前的Scorpion提高约50%,可同时处理3个NEON指令。
高通处理器的NEON数据位宽均为128bit,以上也是为什么采用高通SoC的智能设备解码视频流能力强的原因。
缓存和内存的层次结构高通Krait核心具有三级缓存结构,低级别的两级缓存为每个核心独享,而第三级别缓存为所有核心共享,高通将每个级别缓存按级别从低至高命名为L0、L1和L2.
每个Krait核心具有8KB L0缓存(4KB指令+4KB数据)。L0缓存可在单周期中直接存取,高通称L0缓存有85%的高命中率,使得CPU不必经常访问L1缓存以节省能耗。高通采用的缓存层次结构为独家设计,L0缓存中的数据不必在L1中留有副本。
每个核心还具有32KB L1缓存(16KB指令+16KB数据),采用4路组相联设计,同样可以在单周期中访问。
L2缓存为所有核心共享,双核Krait中L2容量为1MB,相比之下Scorpion中为512KB;四核Krait容量将进一步上升到2MB。Krait的L2缓存为8路组相联设计。
Krait的缓存结构
|
|||
|
容量
|
架构
|
频率
|
L0
|
4KB+4KB
|
直接存取
|
与核心相同
|
L1
|
16KB+16KB
|
4路
|
与核心相同
|
L2
|
1MB(双核)/2MB(四核)
|
8路
|
最大1.3GHz
|
L0与L1缓存频率与核心相同,电压也一样。而L2缓存为省电采用独立设计方式,拥有自己的运行频率,将根据任务负载实时调整,最大为1.3GHz。
内存控制器部分,尽管上代Scorpion内置双通道LPDDR2内存控制器,但通常情况下内存只能利用到其中一条通道。要利用完整的两条32bit通道,必须在PCB上采用两块32bit DRAM封装的形式。由于高通单通道控制器的效率不低,很多OEM厂商都弃另外一通道不用。
而Krait解除了这一限制,现在OEM常常可以简单把两个32bit DRAM堆叠在一个封装内即可完整利用双32bit内存控制器,预计在性能上对比Scorpion会有不少提升。
制造工艺与频率、功耗控制
Krait将是世界首个采用28nm制程的智能手机/平板电脑CPU,高通目前的制造合作方包括台积电与GlobalFoundries两家,而前者将制造首个Krait芯片也是制造主力。因高通考虑采用TSMC的非HKMG工艺会有更小的风险,Krait前期将采用台积电标准28nm LP工艺制造。在高通白皮书PDF给出的对比图中,Krait核心MSM8960的对比对象为NVIDIA采用40nm LPG混合工艺的Kal-El。高通对于制造工艺的态度是,40nm G晶体管只有在全程高频时才有意义,其余多余情况下纯LP工艺晶体管三个更有优势。
和Scorpion一样,Krait每个核心也有自己的独立频率/电压控制机能。高通称这种设计可在多种不同负载率下拥有功耗优势。
首个使用Krait核心的高通SoC为双核1.5GHz的MSM8960,明年该CPU预计将推出制程进一步改进的版本,频率可达1.7-2.0GHz。高通称当Krait与Scorpion核心电压同为1.05V时,Krait的极限频率为1.7GHz,相比之下Scorpion最多只能达到1.55GHz;此时运行相同的某个任务时Krait的功耗为265mW,Scorpion 432mW。虽然满载时Krait可能会比Scorpion消耗更多的电能,但总体上来说Krait运行任务效率高,进入待机状态时功耗下降速度快,总体看来电源管理方面对比上代Scorpion还是有所提高。以此推算,智能手机与平板电脑的实际续航即使没有改进,最坏情况也是与之前持平。
L0与L1缓存频率与核心相同,电压也一样。而L2缓存为省电采用独立设计方式,拥有自己的运行频率,将根据任务负载实时调整,最大为1.3GHz。
内存控制器部分,尽管上代Scorpion内置双通道LPDDR2内存控制器,但通常情况下内存只能利用到其中一条通道。要利用完整的两条32bit通道,必须在PCB上采用两块32bit DRAM封装的形式。由于高通单通道控制器的效率不低,很多OEM厂商都弃另外一通道不用。
而Krait解除了这一限制,现在OEM常常可以简单把两个32bit DRAM堆叠在一个封装内即可完整利用双32bit内存控制器,预计在性能上对比Scorpion会有不少提升。
新的Adreno 225 GPU之前高通向来很少透露SoC中集成的GPU细节,从MSM8960开始这一情况得到了改变:该SoC采用的Adreno 225 GPU是明年Krait改进版采用新架构的Adreno 3xx前最后一代老架构产品。
高通MSM8960(Krait)实际播放1080p视频演示:
从ALU上来看,Adreno 225的规格等于Adreno 205的2倍。所有Adreno 2xx家族图形核心均为DirectX 9.0级别,Adreno 225与其他主流SoC中采用的图形核心对比如下:
常见SoC芯片GPU比较
|
|||||||
|
Adreno 225
|
PowerVR SGX540
|
PowerVR SGX543
|
PowerVR SGX543MP2
|
Mali-400 MP4
|
GeForce ULP
|
GeForce++ (Kal-El)
|
SIMD名称
|
-
|
USSE
|
USSE2
|
USSE2
|
Core
|
Core
|
Core
|
SIMD对应数据流数量
|
8
|
4
|
4
|
8
|
4+1
|
8
|
12
|
每SIMD的MAD数量
|
4
|
2
|
4
|
4
|
4/2
|
1
|
?
|
总MAD
|
32
|
8
|
16
|
32
|
18
|
8
|
?
|
运算能力(GFLOPS)@200MHz
|
12.8
|
3.2
|
6.4
|
12.8
|
7.2
|
3.2
|
?
|
运算能力(GFLOPS)@300MHz
|
19.2
|
4.8
|
9.6
|
19.2
|
10.8
|
4.8
|
?
|
从表中可以看出Adreno 225的理论运算能力与iPad2中苹果A5 SoC的PowerVR SGX543MP2相当。此外,与MSM8660中266MHz的Adreno 220相比,Adreno 225得益于28nm制程的优势,频率提升到400MHz。另外,高通还称Adreno 225在驱动层面上做出了显著的改进。两点结合使得Adreno 225要比Adreno 220快上50%。
高通称,MSM8960在GLBenchmark 2.x qHD(960*540)分辨率测试中可以打败苹果在iPad2中使用的Apple A5,不过我们只有等到基于MSM8960的设备实际出货后才能验证这一说法。总之,有更多堪比iPad2硬件性能的设备出现是好事,并且得益于制程改进,高通的SoC芯片发热量和面积都远小于A5。
此外,目前Adreno 225还只支持Direct3D feature level 9.3级别的效果,高通称将在适当的时机推出拥有专利、支持DirectX 11(D3D11)的图形核心,此前关于高通将以授权方式采用第三方GPU以在Windows 8相关产品中占据有利位置的传言看来可以休矣。不过高通没有透露这个“合适的时间”到底是什么时候。
高通MSM8960平台运行Xbox 360/Windows Phone平台3D游戏ilomilo:
MSM8960的网络连接能力及制式支持到目前为止,所有支持4G LTE网络的智能手机的都需要两个基带——其中一个带来4G LTE连接,另一个则是传统的语音及2G/3G数据传输用。就拿美国最大运营商Verizon的4G LTE智能手机产品线来说,很多都采用MSM8655(集成的基带芯片提供语音传输)+MDM9600(提供CDMA2000 1x EVDO以及LTE基带)的组合,并且这些芯片都基于45nm工艺制造。
而采用28nm工艺的MSM8960则是支持几乎世界所有制式的SoC,它集成的基带芯片基于高通第二代(3GPP rel.9)LTE MODEM,与MDM9x15中的几乎一样。这也是苹果为什么还没有推出LTE版iPhone的原因(等待高通28nm基带芯片)。以下是Snapdragon S4 MSM8960支持的所有制式:
- FDD-LTE(100Mbps下行/50Mbps上行)
- TDD-LTE(68Mbps下行/17Mbps上行)
- UMTS/HSPA+ (42Mbps下行/11Mbps上行)
- CDMA2000 1x Advanced,EVDO Rev.B (14.7Mbps下行/5.4Mbps上行)
- TD-SCDMA(4.2Mbps下行/2.2Mbps上行)
- GSM/GPRS/EDGE
此外,MSM8960中的基带部分比起高通现有LTE MODEM的MDM9600,还接近于完整支持VoLTE,即语音通过LTE网络传输。另外802.11 b/g/n WiFi、蓝牙和GPS功能当然也在新的SoC支持范围内。
Anandtech还从高通处拿到一台采用MSM8960的移动平台研发用工程样机,并使用它在旧金山测试Verizon的4G LTE网络:测试中实时播放Youtube的1080p级别视频流无压力。而采用Speedtest.net应用测试实时速度,结果下行约为6Mbps,上行约8Mbps。
总结
高通拿到MSM8960的实际样品是在大约3、4个月之前,预计将在2012年上半年正式发布。综合多方面提供的数据,Snapdragon S4的实力足以对消费者构成吸引:性能大幅提升,改进的电源管理以及完全整合LTE基带。
在多种新一代SoC的加持下,2012年的智能手机与平板电脑性能也终将迈上一个新的台阶,终端用户也可随之受益,同时高通LTE基带芯片的完善也可促使更多高端用户选择LTE网络。