英特尔物理内存使用率过高

物理内存使用率过高时间:2021-01-19 阅读:()

2011年4月白皮书为DELLPRECISION工作站选择适当的CPU配置MitchMarkow,CoreTechnologies的总监在针对您的业务需求优化DellPrecision工作站时,选择适当的处理器是一个重要注意事项.
虽然内存容量和图形卡硬盘对于特定工作负载会更重要,但处理器性能经常会决定工作完成得有多快.
通过与行业领先公司合作,戴尔为塔式、机架式和移动工作站提供多种中央处理器(CPU)配置选择.
许多DellPrecision工作站型号使用用于高性能服务器中的同样的英特尔至强处理器,以便提供超过台式机级别系统的更高的可靠性与性能.
选择CPU平台时的考虑事项选择CPU时,大家通常会想到的第一个问题是性能与成本.
技术考虑事项包括1个插槽(1S)还是2个插槽(2S)、核心数量、处理器频率和内存通道数量.
虽然这些确实是重要的考虑事项,但却不能脱离业务环境来回答这些问题.
选择处理器时,首先有必要确定对于您的业务而言什么是重要的,因为处理器要求取决于您尝试做的事情.
了解您的应用程序和工作负载模式对于处理器性能的依赖程度,是选择适当的处理器的重要前提条件.
台式机系统(DT)中的1个插槽与2个插槽与1个插槽相比,2个插槽的主要益处在于核心数量以及可用于一个或多个并发应用程序的内存容量/带宽.
2S设计能够通过英特尔设计中名为QuickPath互连的一致总线来添加第二个处理器.
此总线的速度(通常以GT/秒为单位)非常重要,因为它是确定互联的带宽、处理器与相关内存之间的延迟(在NUMA[非统一内存访问]配置的系统中非常关键)的重要因素.
确保您的应用程序可以通过更多核心或更高的内存带宽和内存量来进行扩展,因为2S设计有成本和功耗方面的劣势.
核心数量、SMT和应用程序线程您需要的核心数量取决于两个重要因素:1.
您的工作负载/代码的平行程度有多高(同样,了解您的工作负载至关重要)2.
您希望同时运行多少项任务一般来讲,如果您的工作负载高度平行,可通过英特尔的超线程技术(HTT)来使用物理和逻辑核心很好地扩展性能.
它的工作原理是:一些处理器支持同步多线程(SMT),这意味着它们能够在一次循环中从多个线程发布多条指令.
HTT提供基本的双线程SMT引擎,该引擎使得两个线程能够在单个核心上同时运行.
请注意,在一些单线程和双线程工作负载上,由于算法的额外开销,SMT实际上会导致性能稍微降低.
戴尔建议在以下情况下关闭SMT.
由于每处理器的核心数量不断增加,并引进了HTT等技术,运行AutoCAD或其他设计应用程序、不需要扩展至更高的核心数量的DellPrecision客户,可能不需要双插槽配置.
对于这些客户,戴尔提供PrecisionT1500(多达四个核心)和T3500(多达六个核心)单插槽工作站.
了解编写的应用程序的线程或平行程度有多高,对于确定核心数量的值和是否使用SMT很有必要.
请注意,我们开发了戴尔工作站顾问工具,来帮助客户将处理器(以及其他平台组件)与许多当今的顶级应用程序相匹配.
戴尔ISV还能够提供关于工作负载硬件和软件敏感性的宝贵信息.
处理器频率和英特尔睿频加速处理器频率仍是许多工作站应用程序性能的重要因素,尤其是对于数据密集型单线程和双线程工作负载,运行这些工作负载时,性能不会因处理器的核心数量更高而显著提高.
较新的处理器中经常被提到的两难选择是增加的频率会随着核心数量的增加而降低.
处理器供应商通过提供频率更高、核心数量更少的处理器以及新的操作模式来应对这一问题.
英特尔也推出了其英特尔睿频加速技术,它实现了一种算法使处理器以超过发布频率的时钟频率运行,前提是散热和电力在设定的特定点以下.
请关注睿频频率,因为当选择处理器时,堆栈中越高级的产品频率会越高.
但请记住,虽然高处理器频率通常意味着更快地解决问题,但系统的其他方面可能会产生瓶颈.
高速缓存大小很重要选择处理器时,较大的高速缓存大小是另一个要考虑的重要因素.
处理器高速缓存是处理器单元中的芯片内内存,其访问速度比系统内存(DRAM)高得多,并且在大多数情况下,更大的高速缓存可以为工作站工作负载带来良好的性能提升.
高速缓存是内存层次中速度最快、最靠近核心的一部分.
工作站级处理器中通常有三个级别的高速缓存(一级、二级和三级).
处理器供应商投入了大量研究精力,来优化三个级别的高速缓存的大小以及与主内存之间的数据移动.
通常,在三个级别中,一级高速缓存最小但最快,三级高速缓存最大但最慢,但是三级高速缓存仍然比DRAM快6.
6倍.
同样,对于使用大量系统内存时会执行得更好的工作站应用程序,选择拥有足够的通道来容纳更多内存并降低延迟的处理器很重要.
请参见BillSauber关于此系统内存的白皮书.
热设计功耗(TDP)、平均功率与空闲时功率处理器通常分为被称为热设计功耗(TDP)的几个功率水平(150瓦、130瓦、95瓦、35瓦等),它指的是该型号的CPU所消耗的最大功率,并用于确定散热解决方案的规模.
通常情况下,在给定的处理器系列中,频率最高的处理器也具备最高的TDP,并应当在需要最高性能的地方使用.
如果希望台式工作站实现最高性能功耗比,则应针对给定工作负载评估80瓦到95瓦范围的较快处理器.
请注意,TDP不是空闲功率或平均功率的精确代表.
CPU所用的平均功耗可能明显低于TDP,并取决于运行的工作负载的CPU密集程度有多高,理解这一点很重要.
清楚地了解您的工作负载并相应地确定CPU大小(核心、高速缓存、内存、频率、功率等等),使您可以优化硬件.
请注意,CPU通过时钟频率和功率评级,以及采用更为积极的低功率状态,不断地降低平均和空闲功耗,尤其是在电池续航时间非常关键的移动处理器上.
数据完整性和英特尔酷睿与英特尔至强英特尔至强处理器专为注重数据完整性、高性能和可靠性的应用程序而设计.
至强CPU最常用的额外功能是内存控制器中的ECC(纠错码).
ECC可以检查正在读取或传输的数据中是否有错误,并在必要时即时加以纠正.
选择具有ECC的处理器对于数据完整性很重要,可为敏感工作负载降低数据损坏的可能性.
这是工作站级设备与旨在处理重要性要低的计算任务的设备之间的另一个区别因素.
至强处理器还拥有更多的RAS(可靠性、可用性、可维护性)特性,使得处理器能够在CPU/内存单元出现错误后更好地恢复.
超频超频很酷,但如果注重系统可靠性或数据错误,则它可能会很危险.
超频在一些处理器(非至强)中提供,使用户能够提高CPU的时钟频率和内存频率以提高性能.
但是,超频频率超过了处理器供应商设定的可靠性限制,并且处理器经过超频运行后几乎都会使保修无效.
由于可靠性顾虑和可能丢失数据,我们不推荐在工作站空间中使用超频.
考虑总拥有成本选择CPU配置时,客户应考虑总拥有成本(TCO),其中包括问自己,"对于我们所做的业务,什么产品已经足够好了"虽然一些客户可能需要为最大化可扩展性和性能而设计的工作站,来处理大型数据集和复杂的多线程应用程序;其他人可能会发现具有EEC的单插槽系统能够满足其所有需求,并且价格低.
www.
dell.
com为DELLPrecision工作站选择适当的CPU配置SPECCPU2006-SPEEDCPU调频;单线程指标;整数和浮点测试M4400英特尔酷睿2双核T9600英特尔酷睿i5-520M英特尔酷睿i5-540M英特尔酷睿i7-620M英特尔酷睿i7-7200M英特尔酷睿i7-8200M英特尔酷睿i7-920XM至尊版2011年4月性能工作负载敏感性与分析我们来了解一下英特尔Nehalem移动处理器系列的不同产品、以及一个具备前端总线体系结构的较旧一代Penryn移动处理器的处理器性能比较.
Nehalem移动体系结构将Northbridge(内存控制器)和高速PCIe链路集成至处理器中,减轻了较旧的FSB的内存带宽瓶颈.
请注意,在此示例中,我们使用了类似的内存和系统配置.

我们将使用SPECCPU2006(http://www.
spec.
org/cpu2006)基准进行分析.
CPU2006基准程序有整数测试套件(CINT)和浮点测试套件(CFP),其中每个套件由几个测试组成,并可在SPEC网站上找到这些测试.
CPU2006可以以两个线程配置运行:单线程(spped)或多线程(rate).
第一步是比较处理器的主要特性,包括核心数量、频率、高速缓存和体系结构(FSB、内存通道等).
处理器核心数高速缓存(MB)基本频率(GHz)最高频率(使用睿频加速时)体系结构注释酷睿2T9600262.
82.
8Penryn基于FSB的体系结构酷睿i5-520M232.
42.
93Nehalem2个核心,具备少量高速缓存酷睿i5-540M232.
533.
06Nehalem2个核心,具备少量高速缓存酷睿i7-620M242.
663.
33Nehalem2个核心,具备较多高速缓存酷睿i7-720M461.
62.
80Nehalem4个核心,具备较少高速缓存酷睿i7-820M481.
733.
06Nehalem4个核心,具备较多高速缓存酷睿i7-920xM482.
03.
20Nehalem4个核心,具备较多高速缓存观察到的主要特性:1.
PenrynT9600的基本频率最高,为2.
8GHz,但没有睿频特性,并且采用的是具备前端总线的较旧处理器体系结构.
2.
酷睿i5和i7系列都基于Nehalem体系结构.
英特尔使用频率、核心数量和高速缓存数量来区分型号.
3.
520M仅有较旧的T9600的一半高速缓存,并且基本频率也较低,但最大频率较高,为2.
93GHz.
4.
请注意,入门级4核(720M)在图表中的所有处理器中基本频率最低,如果您的工作负载对于频率敏感并且是单线程的,则它不是良好的选择.
5.
酷睿i7-920XM至尊版拥有最多的核心、最多的高速缓存和最高频率,但价格也最高.
www.
dell.
com为DELLPrecision工作站选择适当的CPU配置我们在两台DellPrecision移动工作站(一台采用基于Nehalem的处理器,一台采用基于Penryn的处理器)上运行了CPU2006基准测试.
我们将结果和颜色注释整合为以下所示的CPU2006基本图和CPU2006评级图.
这些数据进一步区分为SPECint(整数)结果与SPECfp(浮点)结果.
SPECCPU速度指标大致与轻线程或单线程应用程序关联.
例子有CAD应用程序,例如CATIA、NX、SolidWorks、SolidEdge、AutoCAD和其他应用程序.
它还与DCC编辑和软件开发相关联.
请注意,在此工作负载中,基本频率和睿频频率比核心数量更重要.
由于更多的高速缓存及其最大频率的2级跳,2核酷睿i7-620M比2核酷睿i5-540M有明显提升;注意它还打败了较慢的4核720QM.
同样的情况也发生于720QM->820QM(四核)身上.
SPECCPU2006-RATECPU调频;Multi-Copy测试;整数和浮点测试M4400英特尔酷睿2双核T9600英特尔酷睿i5-520M英特尔酷睿i5-540M英特尔酷睿i7-620M英特尔酷睿i7-7200M英特尔酷睿i7-8200M英特尔酷睿i7-920XM至尊版SPECCPU评级指标主要与多线程应用程序(例如模拟和分析软件,例如Nastran、ANSYS和DCC呈现和转换编码应用程序等其他应用程序)相关联.
对于此工作负载,核心数量比更高的CPU频率对于性能的影响更大.
请注意,所有测试中都开启了英特尔超线程.
正如我们所期望,四核处理器在系统中完胜双核处理器.