【A73架构解析:性能与功耗兼得】
为了便于理解A73的不同,我们先来看看A72的架构图:
15+级乱序流水线,128位预取,3宽度解码,每时钟周期可分派最多5个微操,满足最多7个发射队列,进入8个执行流水线。
A73十分类似A17,因为顺序前端的优化流水线短得多,预取阶段也只有4级深度(A72 5级),整个流水线深度也才11-12级。
相比于A17,它将整体最大分配率从4个微操增加到了6个。NEON发射序列仍然是2个微操,但是整数部分翻番到了4个。
浮点流水线还是2条,预取监视器也是1个,但是AGU部分可同时执行载入和存储操作。整数流水线则分成了2个复杂的ALU,分别负责乘法和除法。
A73继承了A17的架构理念,优化流水线、资源和接口,以求在最低功耗下获得最大性能,并且特别注意了32/64位架构之间的平衡。
A73依然坚持四核心理念,即每个簇可拥有1-4个核心,然后使用SCU单元互联各个簇。二级缓存最多8MB,等同于A17而两倍于A72,但相信多数芯片厂商都会选择1-2MB。
A15/57/72还肩负着冲击工业、大规模服务器系统的重任,A73就简单了,只针对消费级市场,这让它轻松了不少,比如去掉了AMBA5 CHI接口,仅支持AMBA4 ACE,一级缓存也不再支持ECC。
内存系统的变化也异常重要,双发射载入/存储单元扮演了大角色,提高了发射率。
数据缓存寻址机制从PIPT(物理索引物理标签)变成了VIPT(虚拟索引物理标签),数据缓存最大64KB,翻了一番,号称仅此就能提升4%的性能。
一级和二级缓存的预取器也有了大幅改进,再加上其他种种完善,号称外部内存带宽可提升最多20%。
更深入的架构细节我们暂时就不谈了,技术性太强,一般用户也无需关心,只要知道A73的成果就行了:
相比A72,典型移动应用性能提升10%,SIMD媒体和计算性能提升5%,内存吞吐能力提升15%。
整数应用功耗节省最多30%,浮点和二级缓存应用节省最多25%。同等工艺频率下至少节省20%。
迄今最小的高端核心,同等工艺、性能下比A72小最多25%。
扩展性强,10nm FinFET工艺下再为性能优化一番,如果是四核心、2.8GHz频率、64KB/64KB一级缓存、2MB二级缓存,核心面积只需大约5平方毫米,功耗不到0.75W。
28nm HPC工艺下,双核心、2.0GHz频率、32KB/64KB一级缓存、1MB二级缓存,核心面积约6平方毫米。
看这样子,16nm下A73核心就应该能达到2.8GHz,10nm有望突破3GHz。
相比于四大A53四小A53的八核心,两大A73四小53组成六核心后,可以在核心面积相同的情况下,性能提升30%,最佳响应时间提升90%!