首页 > 业绩展示 > 国内业绩
CortexA76没出生就已被它干掉——三星ExynosM3架构详解:亚博ag到账速度快的

2021-09-21 

本文摘要:ExynosM1以来的多调度形式,解码器收到的微指令可以同时分配给多个调度器,但在乱序提交窗口中仍只作为调度和条目。

ExynosM1以来的多调度形式,解码器收到的微指令可以同时分配给多个调度器,但在乱序提交窗口中仍只作为调度和条目。在流水线上,ExynosM3的整数部分增加了两个额外的调度器,微指令发射能力从前代的7升强化到9升。两个追加端口之一是具有乘法功能的可选ALU单元,使MUL吞吐量倍增,非常简单的整数算术吞吐量上升25%。另一个额外的端口是阻抗AGU,它可以使核心阻抗比特率翻倍。

暴力的浮点运算能力与前代相比,Exynos?M3的浮点运算能力可谓是暴力,三星为其减少了第三条流水线,就非常简单的浮点能力而言,其乘法和算术吞吐量减少了三倍。ExynosM3在ExynosM1的FMACFADD单元的基础上,减少了128个FMAC/FADD单元,仅次于吞吐量从3(1*FMAC(2)的1*FADD(1)减少到6(3*FMAC(2)。当然,由于吞吐量的急剧减少,需要扩大调度窗口和物理寄存器页面。ExynosM3的调度窗口大小从32减少到62,FP的PRF大小也从96扩展到192。

亚博ag到账速度快的

三星仍希望减少执行延迟,这也限于浮点生产线。ExynosM3乘法机组的继续执行周期从4延长到3,乘法相加机组的继续执行周期也从5上升到4,非常简单的浮点乘法的继续执行周期从3延长到2,浮点乘法机组Radix-64BTW、Arm在Cortex、A76发表时宣传了新的浮点生产线,被称为新的VX(矢量继续执行)生产线感到自豪。但是,从ExynosM3的情况来看,三星可能在一年内再次领先Arm,ExynosM3和Cortex的A76有完全相同的浮点,但是有更高的继续吞吐量和更低的ASIMD的延迟。

全新阅读/存储单元ExynosM3阅读/存储单元减少第二个128bit阅读端口,加载比特率翻倍。读取调用延迟在4个周期内保持一定,存储比特率在每个周期一次存储时只有一个周期延迟。ExynosM3的两个读书单元都是128bit/周期运营,与CortexA76完全相同,CortexA75是64bit/周期。

总体来说,ExynosM3的读取/存储调度器容量已经减少,存储缓冲区减少了一倍。在这里,三星的预加载单元必须具有非常低的性能,构建最终击中内存的目标,防止内存瓶颈。随后,三星提到了以前提到的新的TLB级结构。ExynosM3享有与ExynosM1完全相同的32个入口DTLB(DataTranslationLookasidebufer、数据切换检测缓冲区),但ExynosM3有512个新的中级DTLB和ITLB(InstructionTranslationLosidebuffer,命令切换检测缓冲区)和DTLB获得服务的统一L2TLB(ITLB(InstranstructiontiontrtiontionTr)也从上一代1049个目的配套到了。

有得有失的高性能生产线很明显,扩大结构规模要付出代价,与ExynosM1的15级生产线相比,ExynosM3的生产线深度减少了2级,达到了17级,进入了辅助调度阶段存器加载的第二阶段。相比之下,Cortex和Cortex的装配线深度为13级。ExynosM3的分支预测错误的处罚也从ExynosM1的14个周期减少到了16个周期。

ExynosM3和ExynosM1对Arm公开版结构的缺点是,其指向和解码单元比Arm公开版多2级,寄存器重命名单元多1级,需要第二个调度阶段(再继续1级)。三星没有泄露ExynosM3在生产线各阶段之间是否有其他缓慢的路径,以增加重要情况下的延迟,但这是设计大规模高性能结构的适当成本。理论上更长的生产线级数不利于频率的提高(Intel为了给Cyrix4带来冲击,曾在NetBurst结构的Prescott中心使用过31级超长生产线)。但奇怪的是,三星的17级生产线没有给ExynosM3带来频率优势,反而在冲击高频时代花费了很大的电力成本。

这可能意味着三星在EDA的能力有待提高。新的内存水平结构与Cortex、A75和Cortex、A76相同,ExynosM3引进了新的霸权L2内存作为核心和最后一级共享内存之间的中间水平。新霸L2是每个核心512KB,与Exynos的M1共享L2相比,采访延迟从22个周期增加到12个周期。

但CortexA7575的L2只推迟了8个周期,ExynosM3在这方面处于劣势。ExynosM3的L2内存比特率也减少了一倍,为每钟32Byte读取,CortexA75为每钟16Byte读取/32Byte写作。

值得注意的是,由于实际芯片不受物理布局的影响,实际延迟数据可能不会更高。据估计,小龙845的L2延迟在2.8GHz时约为4.4ns,Exynos9810在2.7GHz时延迟L2延迟约为4.6ns。ExynosM3的共享L3存储器是以NUCA(Non-uniformcachebarchitecture、非一致性存储器系统)方式构筑的大型4MB存储器,由位于CPU核心对面的4个1MB分区构成。由于布局不均匀分布,CPU核心在采访内存分区时的延迟不同,采访相邻分区时的延迟为32个周期,采访距离更远的分区时的延迟为44个周期,三星对整体的平均值采访延迟为37个周期。

与L2的情况相似,Exynosm3在L3内存方面也比Arm的公开版架构弱,CortexA75的L3采访延迟只有25个周期,在计算数据中也要求小龙845的L3采访延迟约为11.4ns,Exynos9810的延迟约为11ns~20ns。三星在会议上说明,该内存区域的设计目的是高端移动设备以外的设计构筑更好的配置性,言外之意可能与S.LSI计划转移到汽车领域有关。总的来说,三星否认最后产品的内存水平结构设计没有超过他们确实想的水平。

硅芯片上的物理布局三星今年发布了芯片物理布局数据,详细分析了处理器内核的平面图。以下是图片中一些术语的最后解释:pl2:独占L2内存,每个核心512KB都是Exynosm3。

FPB:浮点数据路径浮点单元/ASIMD单元。FRS:浮点调度器和浮点/向量寄存器。MC:解码单元和重命名单元。

DFX:这是调整/测试逻辑,代表DFD(调整设计)、DFT(测试设计)、DFM(生产设计)等杂项逻辑。LS:读取/存储单元和64KB的L1高速数据存储器。

亚博ag到账速度快的

IXU:整数继续执行单元,包括继续执行单元、调度器和寄存器。TBW:半透明缓冲器也包括TLB结构。FE:结构前端还包括分支预测单元、取指示单元和64KBL1高速指示内存。

与ExynosM1相比,ExynosM3的功能单元尺寸大幅增加,最后ExynosM3的核心功能模块面积为2.52mm,还有0.98mm的面积作为512KBL2存储器使用。ExynosM1的核心布局Exynos,M1的核心布局三星也展示了ExynosM3集团整体的平面图,将L2和L3的核心相邻排序,L2和L3也有序地相邻排列。这种布局可以大大节省芯片布局的工作,只需要将每个模块非常简单地复制4次。

IPC平均上升59%的会议最后,三星分析了Exynosm3的性能表现,IPC的增长幅度约为59%。当然,在不同的工作阻力下,IPC的快速增长不是线性的,在低ILP(多项命令同时继续)的工作阻力下,IPC的快速增长只有25%,在MLP(存储级别)的工作阻力下完全没有减少,在其他很多混合工作阻力中,IPC的增长幅度达到了80%。

亚博ag到账速度快的

三星展示了ExynosM2、ExynosM3和CortexA75之间的GeekBench4性能对比,代表Exynos895、Exynos9810和小龙845的性能表现。除了三星展示的对比数据外,我还添加了一些新的Spec分数,这些分数改进了最初的评论数据,新的Spec分数考虑了动态电压频率调整和更综合的测试环境。能效比仍然是处理器最重要的评价标准,但三星似乎忽略了ExynosM3。正如上述所提到的,ExynosBos3在冲击高频时代花费了很大的电力成本,尽管在2.7GHz时具有领先的性能,但此时的能源效率比ExynosBosM高。

将频率减少到与ExynosM2完全相同的2.3GHz后,ExynosM3表明了有效的优势。右图显示了测试中的电力消耗量和平均电力消耗量,左侧的条形对消耗量作出反应,以j(焦耳)为单位,条形越高消耗电力越少,适当的平台效率越高右侧的条形表示性能分数,条形越宽表示性能越强。从结果来看,ExynosM3享有非常明确的能效比区间。

与CortexA75相比,ExynosM3在2.3GHz之后可以享受更强的性能和相似的能源消耗比,与ExynosM2相比,ExynosM3低于1.8GHz的频率,性能和能源效率比2.3GHz的满血ExynosM2(公共编号:)Exynos.9810中的Exynos.M3集群在单核、双核、四核装载时频率分别为2.7GHz、2.3GHz、1.8GHz,功耗均为3.5瓦左右。换句话说,M3核心从1.8GHz到2.3GHz,在提高500MHz频率的功耗后翻了一番,从2.3GHz提高到2.7GHz,仅400MHz的提高就再次减少了功耗,从1.8GHz到2.7GHzExynos9810的四核Exynosm3全部运营在完全相同的电压和频率上,多数情况下继续执行次要线程的核心不需要完全与主要线程的核心完全相同的最低性能点,但其所需的性能达到了CortexA55的小核心能源范围,因此继续执行次要线程的核心与主要线程的核心完全相同的高频率三星未来战略和结论最后,三星更好地讨论了Exynos项目的时间表。

正如开篇讲解所说,ExynosM3原计划于2014年第2季度开始,但随着M1的完成,RTL从2015年第1季度开始,开发计划再次发生很大变化,目标更高,原ExynosM3被分解为ExynosM2,新的ExynosM3的设计方案非常保守。RTL于2017年第一季度交付给SoC团队,作为Exynos的第一部EVT0流片(实际产量芯片为EVT1)于2017年中期脱机,最后发表的Exynos的9810于2018年3月发售。

ExynosM3对三星设计团队来说是一个相当大的挑战,整个结构设计完全颠倒,而且必须面对极端的时间压力,在项目累计日之前发售产品。总的来说,ExynosM3是一个非常坚固的微系统结构,感觉更像桌面结构。三星为了加强结构性能,采用了最简单的横向方法扩大规模,这也导致了其巨大的核心尺寸。但是,由于时间允许,三星可能还有很多没有进入Exynosm3的改良,特别是存储水平结构可能是该结构中最脆弱的部分,三星否认他们的反应并不失望。

三星的黄鼠狼结构经历了Exynos、Exynos、M3的改良,IPC的增长率分别达到了20%和59%。据报道,SARC设计团队现在每年都有持续的结构改进,三星应对ArmcortexA76的确是明年的ExynosM4,而不是现在的ExynosM3。前几天,Arm发表了今后3年的CPU路线图,说明了Cortexa76的继承人Deimos和Hercules,约定了15%和10%的代际收益。

从目前的测试数据来看,Exynos(Exynos)M3在性能方面可能超过Cortex(Exynos)A76的水平,预计在Exynos(Exynos)M4中,可以看到三星自我研究结构的竞争优势。感谢三星至今为止的构造。曝光,这个细节在业界很少见。S.LSI和SARC需要解决问题Exynos、M3架构的弱点,希望明年的新架构更加顺利。

via:Anandtech相关文章:ARM新Cortex、A76框架:2.4GHz后可以杀死小龙845版权文章,允许禁止发表。下一篇文章发表了注意事项。


本文关键词:亚博ag到账速度快的

本文来源:亚博ag到账速度快的-www.cnzjmgs.com

  • 首页| 关于我们| 新闻中心| 产品中心| 业绩展示| 联系我们|
  • Add:四川省达州市上蔡县天时大楼996号

    Tel:0605-633436285

    川ICP备26184164号-7 | Copyright © 亚博APP取款速度快 - 亚博提款到账速度超快 Rights Reserved