能否推倒i7AMD推土机CPU架构全解析APU性能喜忧参半推土机能否推倒i7
泡泡网CPU频道7月21日 AMD终于发布了让人期待已久的Llano高性能APU 加速处理器 APU的真正实力毫无保留的展现在了世人面前详细的评测参见《AMD桌面级APU发布 Llano A8深度评测》一文。
简单来说 APU的表现可谓是喜忧参半喜的是GPU部分确实强大绝对可以秒杀主流级独立显卡性能是Intel SandyBridge集显HD3000的2-3倍甚至更多忧的是CPU部分原地踏步与Intel CPU的差距越来越大。
APU的CPU部分使用的还是Phenom II架构而且还是没有三级缓存的精简版。PhenomII的架构相比Phenom I改进不大还停留在Intel Core 2 Quad的级别。而Intel此后已经推出了两代Core i7产品性能节节攀升 AMD想要与SandyBridge架构的第二代Core i7抗衡使用老架构简单扩充核心是毫无胜算的。
AMD下一代CPU架构——Bulldozer 推土机就肩负起了对抗SandyBridge Core i7的重任。现在距离推土机发布已经不远了相信更多的DIY玩家都在期待AMD全新CPU架构的表现那么首先我们就来详细了解一下推土机架构到底有什么值得期待之处吧。
Intel的杀手锏——HT同步多线程技术
我们知道在Core 2时代 AMD和Intel的CPU性能差距还不算太大。但Core i7问世之后性能有了质的提升其中贡献最大的非HT Hyper-Threading超线程技术莫属。HT技术可以轻易地把4核虚拟成8线程在任务管理器中看到的“8个核心”不仅仅是看着爽而已它确实带来了不小的性能增益进一步与AMD CPU拉开了差距。
●SMT同步多线程技术的工作原理
SMT Simultaneous Multi-threading 同步多线程的设计初衷非常简单就是为了充分利用CPU物理核心的资源防止运算能力被浪费。
左没有超线程时的CPU处理过程 右超线程模式CPU处理过程
一般情况下 CPU的物理核心只有一个执行线程很多时候CPU核心会处在等待内存中关键代码或数据的状态此时线程为暂停状态核心运算能力被闲置。而SMT技术可以允许一颗核心运行两个或多个线程当第一个线程暂停时将第二个资源准备充分的线程安排给核心处理这样动态切换的结果就是 CPU的运算能力得到了最大的利用。
简言之 SMT的设计理念就是用多个线程“喂饱” CPU物理核心尽可能不让CPU运算单元闲置。
SMT是一种非常廉价的技术因为CPU的物理内核并没有增加只需要为CPU赋予两套架构寄存器和重命名寄存器即可而这些寄存器并不会消耗太多的晶体管。最终在操作系统
中的呈现方式和物理核心没有区别操作系统会把4核8线程的CPU当作8核CPU来使用并安排运算任务。
四核八线程CPU在系统中就是“八核”的
SMT技术对那些CPU负载不是很高且支持多路并发处理的线程比较有意义典型的比如文件压缩解压缩、视频编码解码等。如果两个线程都需要花费较长的时间等待内存和缓存准备数据的话那么一个双线程SMT核心几乎就可以等同于一个双核处理器。
但SMT的效率根据应用的不同会有很大差异如果内存和缓存的压力不大 CPU核心一直都在忙于处理线程的话另一个线程迟迟排不上队此时SMT核心的效率可能还不如单颗物理核心。这就是此前测试时关闭HT技术反而在部分项目中性能更好的根本原因
根据Intel公布的数据来看在真实的应用环境下超线程技术能够给CPU带来20-30%额外的性能提升也就是说一颗双线程SMT核心相当于1.2个常规核心的效能。
AMD又一次创新——反其道而行之
通过前面的介绍我们可以知道 Intel的同步多线程技术实际上并不能提升CPU的理论运算性能只是消除了CPU等待指令时的瓶颈在部分应用中提升了效能。这样HT技术就存在很大的局限性如果主内存不再是瓶颈 SMT的执行单元就过剩了而一个SMT核心也
就不再比一个单纯的核心更高效毕竟SMT核心需要增加一些电路设计比一个单纯的核心成本要高一些。
所以AMD并没有照搬Intel的做法走SMT路线也不是继续暴力增加CPU的物理核心数目 CPU的未来并不是只有这两条路可走于是AMD有了一个新的想法 Intel是把一颗物理核心虚拟成两颗来用而AMD是把两颗物理核心组合成一颗大核心来用——这颗大核心的官方名称叫做“推土机模块” 。
为什么要把两颗核心合成一颗来用呢有两个好处一是可以共享运算单元和缓存提升效能二是共享之后会节约晶体管重复单元合二为一 而不是像SMT那样增加晶体管两份寄存器 。
AMD认为随着CPU的物理内核数目越来越多4/6/8核甚至更多 CPU的核心面积也会越来越大功耗成倍增加。传统CMP暴力复制核心的方式会造成大量重复性的电路。而减少冗余电路的最好方法就是整合把两颗核心整合在一起共用一套指令发射器和解码器还有缓存。
相信细心的读者已经发现了 AMD并不是简单的把两颗核心放在了一起而是有所精简——两颗核心的整数运算单元都被完整的保留了下来而浮点运算单元只留了一份这又是为什么呢
数据显示存在于服务器和超级计算机上80%的操作都是纯粹的整数运算 CPU的浮点运算器利用率很低所以AMD在开发新一代CPU架构时强化了整数运算而忽视浮点运算。
另一方面随着CPU和GPU异构计算应用越来越多 GPU将会越来越多的负担起浮点运算的操作预计未来3-5年的时间内据大多数浮点运算都将会交给最擅长做浮点运算的GPU这也就是推土机加强整数运算而精简浮点运算的真正目的虽然推土机CPU并未整合GPU因为它定位高端不论企业还是玩家都需要最强的CPU和GPU 但下一代APU Trinity将会使用推土机的CPU核心加HD69004D架构的GPU核心推土机架构依然在为Fusion APU而准备着可以说AMD继64b i t、整合内存控制器、 HT总线、三个层级缓存之后又一次采用创新的设计理念引领业界走在了巨头Intel前面
推土机模块化设计的四大优势
其实在上一页介绍推土机架构的设计理念时已经将其优势体现了出来下面就再强调一下。
第一 AMD虽然将两颗物理内核设计成为一个推土机模块但每个模块依然是真双核设计操作系统深信不疑
第二模块化设计节约了大量重复性晶体管 8核心的推土机CPU在晶体管数、核心面积、功耗发热方面也不会很大 因为它比传统意义上的8核心处理器“瘦身”不少
第三一个推土机模块内部的两颗物理内核共享二级缓存四个推土机模块共8颗物理内核共享三级缓存缓存利用率大大提升
一级数据缓存有8份一级指令缓存和二级缓存都只有4份三级缓存为1份
第四 CPU的单核效能不仅不会下降而且还可以共享推土模块内部相邻核心的运算资源。 Intel处理器开启超线程在部分应用中性能不升反降的情况在推土机上是不会出现的。
当然推土机架构的缺点也是很明显的它虽然拥有8颗物理核心但浮点运算能力只相当于是传统4核心的水平。
理论上 Intel的HT超线程技术能够一定程度上提升多任务性能每颗物理核心相当于是1.2核的性能而AMD的每个推土机模块则可以达到1.8核的性能。
推土机模块相对于羿龙II的改进
AMD推土机架构的设计理念不难理解但更多人担心的是其核心执行效率毕竟这些年来AMD在效能方面改进缓慢。如果CPU内核效率不行的话整体架构再怎么优秀也不会有很好的综合表现。现在我们就来看看推土机内核相对于羿龙有何改进
根据AMD官方发布的Bul ldozer架构资料推土机模块的指令解码宽度将从K7/K8/K10的每时钟周期三条微指令提升为四条。
推土机的前端指令解码和分派模块
这里我们把一个推土机的模块看作是一颗核心的话里面有两个独立的整数核心每一个都拥有自己的指令、数据缓存。虽然两个整数运算核心要比K10的三个少但实际上其中任何一个核心的运算能力都要强于Phenom II。
Intel的Core架构无论整数或者浮点都采用了统一的Scheduler 调度派发指令。推土机构架使用独立的整数和浮点派发器而且整数派发器有两个对应推土机模块里面的两颗核心。
推土机模块和K10微架构对比图
推土机模块的两个核心支持执行两个线程会共享对延迟要求较高的功能、平缓突发和低效应用、线程间动态分配资源好处是比两个线程共享一个核心更高的伸缩性和可预测性、多线程负载的吞吐优势、单线程时所有共享资源均可访问、以少得多的面积和功耗提供物理核心80的性能。
推土机模块的浮点运算单元是两个128位的FMAC 乘加运算器 这两个运算器可以被两个整数核心共享如果其中一个整数核心获得的线程支持纯粹的整数操作那么另外一个核心就可以获得全部的浮点执行资源。
这样设计的结果就是推土机的单核效能将会比Phenom II强不少而多核效能部分整数运算能力很强而浮点运算能力也不会太弱。
推土机的初步性能小胜i7-2600K
虽然距离推土机正式发布还有一段时间但国外网站已经放出了很多工程样品的测试成绩其中最为可信的当属donanimhaber网站给出的测试报告我们可以拿它与Intel的当红明星Core i7 2600K做一个简单对比。
Contabo自4月份在新加坡增设数据中心以后,这才短短的过去不到3个月,现在同时新增了美国纽约和西雅图数据中心。可见Contabo加速了全球布局,目前可选的数据中心包括:德国本土、美国东部(纽约)、美国西部(西雅图)、美国中部(圣路易斯)和亚洲的新加坡数据中心。为了庆祝美国独立日和新增数据中心,自7月4日开始,购买美国地区的VPS、VDS和独立服务器均免设置费。Contabo是德国的老牌服务商,...
reliablesite怎么样?reliablesite是一家于2006年成立的老牌美国主机商,主要提供独服,数据中心有迈阿密、纽约、洛杉矶等,均免费提供20Gbps DDoS防护,150TB月流量,1Gbps带宽。月付19美金可升级为10Gbps带宽。洛杉矶/纽约/迈阿密等机房,E3-1240V6/64GB内存/1TB SSD硬盘/DDOS/150TB流量/1Gbps带宽/DDOS,$95/月,...
提速啦(www.tisula.com)是赣州王成璟网络科技有限公司旗下云服务器品牌,目前拥有在籍员工40人左右,社保在籍员工30人+,是正规的国内拥有IDC ICP ISP CDN 云牌照资质商家,2018-2021年连续4年获得CTG机房顶级金牌代理商荣誉 2021年赣州市于都县创业大赛三等奖,2020年于都电子商务示范企业,2021年于都县电子商务融合推广大使。资源优势介绍:Ceranetwo...