1白皮书英特尔至强处理器英特尔固态硬盘英特尔以太网融合网络适配器英特尔ApacheHadoop*发行版软件应用大数据技术获得近实时分析巨大成效平衡的基础设施使工作负载完成时间从4小时缩短为7分钟1如今,基于广泛可用的计算、存储和网络组件的改进,商业、学术和政府组织有效处理大数据的能力正快速提高.
英特尔利用一个优化且平衡的ApacheHadoop*集群,展示了可以得到的显著成效.
这一集群由最新的英特尔至强处理器、本地固态硬盘存储和万兆位英特尔以太网融合网络适配器组成.
事实上,在英特尔所开展的多项测试中,通过升级这些组件和使用英特尔ApacheHadoop*发行版软件(英特尔Hadoop发行版),可将使用TeraSort基准工作负载排序1TB数据所需的时间从约四小时缩短至约七分钟.
1,2这些结果预示着我们向近实时数据分析的宏伟目标又迈近了一大步,而且所需的成本大幅低于此前使用专有硬件和软件实施的成本.
大幅的成本节省和效率提升对于发挥出大数据技术的全部潜力至关重要.
本白皮书介绍了这些结果的实现方法,以作为IT决策者和其他人员在考虑投资方向时的指导,进而从Hadoop*环境中获得最佳成效.
同时文章还介绍了经过预先优化的交钥匙型英特尔ApacheHadoop发行版软件具备的部分优势.
各组织可通过使用此处所列的指导原则,在满足其预算要求的前提下,实现特定工作负载和环境的最佳性能.
通过平衡ApacheHadoop*集群内的计算、存储和网络资源,组织将可以发挥出最新英特尔处理器、固态硬盘、万兆位英特尔以太网融合网络适配器和英特尔ApacheHadoop*发行版软件的全部优势.
通过利用这些组件构建一个平衡的基础设施,英特尔将完成TeraSort基准测试工作负载所需的时间从约四个小时缩短至约七分钟,降幅约为97%.
1大数据技术可实现的此类结果为低成本、近实时的数据分析铺平了道路,将能够帮助企业近乎实时地响应瞬息万变的市场需求,并从其资产中获得更多价值.
21不断开发工具以管理大数据当前,无论是何种类型和规模的企业,都无一例外地拥有着庞大的数据库.
处理、转换、并从数据中(通常为非结构化数据)获取优势的能力正快速成为一种标准要求,同时能够进行此类工作的工具和技术也日益普遍.
诸如Hadoop等框架的广泛应用,而且越来越多的IT部门开始逐渐构建其自有的计算环境来处理大数据.
1.
1Hadoop*简介:支持从大数据中获得出色价值的可靠框架Hadoop是一个使用Java*编写、基于谷歌的MapReduce*和分布式文件系统工作的开源软件框架.
它用于支持分布式应用程序,能够使用服务器集群分析超大型数据,然后将其转换为更易于这些应用程序使用的形式.
Hadoop用于部署在常见的通用型基础设施之中.
该框架擅长处理的任务包括对大型数据集进行索引和排序、数据挖掘、日志分析和图像处理等.
Hadoop框架的关键组件包括:Hadoop分布式文件系统(HDFS*)—能够通过将数据分解为数据块,并将数据块散布于大量工作节点中,实现容错和高性能.
Hadoop的MapReduce引擎—能够从应用程序接收作业,并将这些作业分解成多项任务,以分配给多个工作节点.
1.
2大数据技术的行业生态系统一个大型解决方案生态系统(Hadoop仅是其中一部分)的设计旨在最大限度地挖掘大数据的价值.
该生态系统的另一关键组件是NoSQL("不仅仅是SQL")数据库.
NoSQL是更为常见的、基于表格的关系型数据库管理系统(RDBMS)的一种替代(或补充)技术.
与RDBMS不同,NoSQL数据库并不主要以表格为基础.
对依赖于数据元素间关系的功能而言,这一特征尽管在某种程度上让NoSQL的效率低于RDBMS,但是NoSQL能够简化大量关系并非特别重要的数据的处理过程.
尽管结构化数据也可存储于NoSQL数据库中,但是这些系统更适于处理非结构化数据,并能够在检索和附加大量的此类数据时实现出色的可扩展性和性能.
随着大数据技术的不断发展和其在数据中心所起到的重要作用日益突显,在商业与非商业单位共同努力的推动下,诸如Hadoop等开源解决方案的重要性和开发完善程度日渐提高.
Hadoop生态系统中的高级NoSQL数据库包括ApacheCassandra*、HBase*和MongoDB*.
除了Hadoop以外,其他的大数据技术还包括简单易用的开源DiscoProject*(开发人员使用Python*脚本编写作业),以及针对于商业智能和相关使用模式的企业级环境SAPHANA*实时数据平台等.
所有这些行业创新正在针对基于英特尔至强处理器的平台进行紧锣密鼓的开发和优化工作.
由于大数据广泛存在于商业、研究和学术环境中,并且其规模在迅速扩张,因此本白皮书以Hadoop作为示例,阐述了如何处理大数据的系统.
目录1不断开发工具以管理大数据.
21.
1Hadoop*简介:支持从大数据中获得出色价值的可靠框架.
21.
2大数据技术的行业生态系统.
22在关键组件中实现平衡.
32.
1计算资源的进步.
32.
2存储技术的进步.
42.
3网络连接的进步.
42.
4业经优化的英特尔Hadoop发行版.
43万兆位以太网和其他因素在加速Hadoop工作流中所扮演的角色53.
1优化导入阶段.
63.
2优化处理阶段:从四小时缩短到七分钟的历程.
63.
3优化导出阶段.
84研究环境简述85调试和优化注意事项.
95.
1网络连接、操作系统和驱动程序优化.
95.
2Hadoop配置参数.
95.
3进一步的增强.
106结论1132在关键组件中实现平衡尽管Hadoop集群通常由通用的主流组件构建而成,但这并未降低为获得最大优势而选择和组合这些组件的难度.
首要注意事项便是在计算、存储和网络资源环境中达到平衡(如图1所示).
在转到有关确定集群组件组合的具体战略之前,首先需要考虑每个类别中常用技术的状态(如表1所示).
在确定了需要的资源类型后,探讨将专注于Hadoop集群如何能够充分利用这些资源,介绍万兆位以太网(10GbE)连接在交付各项优势中所扮演的角色.
2.
1计算资源的进步相比上一代平台,英特尔至强处理器E5家族所采用的平台架构能够更好地利用解决方案堆栈中的资源.
例如,全新架构将每个插槽中的内核数量从六个(12个硬件线程)增加到了八个(16个硬件线程),更高的内核数量可支持达到更高的并行计算水平,而后者对于数据密集型Hadoop工作负载有着重要意义.
英特尔数据直接I/O技术(英特尔DDIO)是英特尔至强处理器E5家族中的一项新功能,可支持英特尔以太网控制器和适配器直接与处理器高速缓存通信,而不是与主内存通信,从而能够帮助提高带宽和降低延迟.
这些优势对于处理大型数据集将大有裨益.
表1.
升级Hadoop*解决方案堆栈,实现平衡的高性能基础设施.
计算存储网络优异前几代英特尔至强处理器传统旋转式硬盘千兆位英特尔以太网服务器适配器出色英特尔至强处理器E5家族分层存储(传统硬盘和固态硬盘)万兆位英特尔以太网融合网络适配器最佳英特尔至强处理器E5家族全部为固态硬盘万兆位英特尔以太网融合网络适配器实勮n凰)低仙勮n低勮n⑺剿.
SF8VEGOIV剿8EWO8VEGOIV%TEGLI,EHSST仐塞实低仙⒉嵁42.
2存储技术的进步固态硬盘(SSD)代表了面向主流客户端和服务器的持久性存储的一个重要转变.
它消除了诸如旋转碟片和读/写磁头等传统机械硬盘(HDD)中的电子机械部件,并因此大幅缩短了数据访问时间和延迟.
本白皮书所描述的测试使用了英特尔固态硬盘(英特尔SSD)520系列,该系列拥有广泛的容量选择,具备内建的数据保护功能,并相比传统机械硬盘实现了大幅的性能改进.
3英特尔固态硬盘520系列采用了英特尔25纳米NAND闪存,可提供最高每秒50,000次每秒输入/输出操作(IOPS)4的随机读取性能和多至每秒550兆字节(MB/秒)5的顺序读取性能.
作为传统机械硬盘和固态硬盘之间的过渡步骤,各大组织正越来越多地在同一服务器上配置这两类硬盘.
在本测试中,固态硬盘作为高速数据缓存设备,可减少从传统机械硬盘中读取数据和向其写入数据的需求,进而提高整体性能.
2.
3网络连接的进步数年来,网络连接的线速一直都在不断提高.
与此同时这一领域也涌现出了许多补充性技术,为用户提供了更高的价值,如更高的吞吐量、改进的成本效益和增强的灵活性等.
而这一研究的主要考虑因素为从千兆位以太网(1GbE)向万兆位(10GbE)过渡.
英特尔以太网控制器和融合网络适配器对于降低万兆位以太网网络连接的成本发挥着至关重要的作用.
反过来,虚拟化和带宽密集型应用程序(如数据分析和视频点播)等的广泛部署,提高了万兆位以太网网络的采用率,并形成了一个良性循环,让成本效益和主流网络采用率能够相辅相成地提高.
英特尔以太网软件驱动程序已针对大数据实施进行了优化,例如,它们能够最大限度地减少I/O对Hadoop数据处理的干扰.
英特尔以太网融合网络适配器X540是一款低成本、低功率的10GBASE-T解决方案,可向后兼容使用第6类和第6A类铜缆布线的现有1000BASE-T网络.
英特尔以太网控制器X540通过将MAC和PHY集成在一个单芯片解决方案中,可同时降低初始成本和功率要求.
英特尔以太网融合网络适配器X520可使用铜缆或光纤网络连接,为万兆位以太网网络提供SFP+连接.
2.
4业经优化的英特尔Hadoop发行版英特尔Hadoop发行版可帮助简化和改善Hadoop在英特尔架构基础设施上的部署.
它是唯一一个专为支持在Hadoop上进行最广泛的数据分析而构建的发行版,同时也是首个具备硬件增强的性能和安全功能的产品.
该解决方案包含Hadoop框架、MapReduce、Hadoop分布式文件系统(HDFS*)以及可支持批量处理和近实时分析的其他相关组件,如Hive*数据仓库基础设施、Pig*数据流语言和HBase数据库等.
英特尔Hadoop发行版中所包含的组件显示于图2中.
-RXIPn1EREKIVJSV%TEGLI,EHSST彬惥佯慊佫姃季⒉Ⅵ〤,(*7,EHSST仜,&EWI7USST*PYQI曃=%6216Z,MZI750察3S^MI4MK儗1ELSYX实6GSRRIGXSVW仜实>SSOIITIV尀勮崞凰勮仁仁%TEGLI,EHSST彬勮n仁5英特尔Hadoop发行版基于实际经验,为用户提供了调试和优化指导原则,以及向导和其他自动化部署工具.
IntelManagerforApacheHadoop*软件提供了在Hadoop集群节点上自动安装的功能,并通过功能强大且直观的仪表盘提供了实时管理、监控和诊断功能(如图3所示).
英特尔Hadoop发行版还为客户提供了大量培训资源,以及系统设计、部署、定制和调试帮助.
此外,这一发行版还享有24x7全天候企业支持,可全面满足企业和用户的需求,确保他们能够通过保持集群长时间稳定正常运行取得成功.
图3.
帮助简化安装和配置,并缩短部署时间的仪表盘.
3万兆位以太网和其他因素在加速Hadoop工作流中所扮演的角色大数据管理能力的提高不断推动我们向在主流环境中实现实时分析的目标迈进.
我们正通过使用常用的数据中心硬件和软件,改善以前需要数小时,甚至数天才能从源数据中生成价值的解决方案.
在这一环境中改善结果需要考虑整个工作流,其中包括数据进入系统的点、处理数据的机制以及与导出处理后的数据至系统相关的任务.
在此基础之上,Hadoop工作流可划分为三个阶段:1.
导入.
使用Hadoop从大型数据集中生成答案的第一步,是将应用程序的数据导入HDFS.
数据可通过流式或批处理的方式导入.
2.
处理.
将数据导入HDFS后,Hadoop将处理该数据,以从中获取价值.
MapReduce引擎通过其JobTracker节点接收来自应用程序的作业,该节点将工作分解成多个小型任务,然后指派给TaskTracker节点.
典型的操作包括排序、搜索或分析.
TeraSort是一个基于数据排序工作负载的标准Hadoop性能指标评测程序1.
在我们的测试环境中,我们将使用TeraGen来实际生成数据集.
3.
导出.
当处理阶段中针对数据的操作结束后,应用程序即可获得结果.
6尽管这三个阶段的相关需求因所执行工作的性质而差异较大,但此模型仍表明了万兆位以太网在Hadoop工作流中的重要价值.
举个简单的例子,包含大规模数据压缩的工作负载在导入数据时的工作负载负担,可能会大于将数据导出为压缩格式的负担.
同样,尽管各种任务处理的数据量可能相似,但某些任务使用的计算资源将会高于其他任务.
调试和优化指导原则,以及英特尔Hadoop发行版的相关支持服务将能够帮助发现可满足特定需求的最佳方法.
3.
1优化导入阶段本模型中的导入阶段只是简单地将数据输入HDFS进行处理.
该过程始将始终最少进行一次,在某些情况下,特别是将MapReduce作为服务出售的情况下,可能需要进行多次导入.
该阶段和Hadoop复制工作将会在网络和存储I/O方面,对系统产生重大网络性能需求.
当将数据导入系统时,万兆位以太网网络连接对于满足这些需求极为重要.
将网络从千兆位以太网迁移至万兆位以太网后,包含并行写入的导入操作在使用传统机械硬盘时性能最多可提高4倍,而使用固态硬盘时最多可提高6倍.
1固态硬盘性能提高程度较高的原因在于其非易失性存储器可加快对存储子系统的写入速度.
3.
2优化处理阶段:从四小时缩短到七分钟的历程英特尔测试使用了1TBTeraSort工作负载,通过1个命名节点分布于10个数据节点上.
为了评测升级各项资源的优势,我们收集了各项组件在升级前后的结果,包括从英特尔至强处理器5600系列升级到英特尔至强处理器E5-2600产品家族,从传统硬盘升级至固态硬盘,以及从千兆位以太网升级至万兆位以太网.
这些硬件升级将约四个小时的处理时间缩短为约12分钟.
实施英特尔Hadoop发行版进一步将处理时间缩短为约七分钟.
总体而言,性能提高将处理阶段所需的时间减少了近97%.
测试的首个硬件变化是从英特尔至强处理器X5690升级至英特尔至强处理器E5-2690.
如图4所示,处理器升级将排序1TB数据集所需的时间缩短了约一半,从250分钟缩短为125分钟.
6千兆位英特尔以太网服务器适配器千兆位英特尔以太网服务器适配器传统机械硬盘传统机械硬盘升级前升级后英特尔至强处理器5600系列125分钟250分钟英特尔至强处理器E5-2600产品家族处理器升级:缩短约50%的时间ApacheHadoop*ApacheHadoop图4.
处理器升级到英特尔至强处理器E5-2600产品家族:处理阶段速度提高了约50%.
17在处理这一庞大数据集时,快速访问非顺序数据的能力是一个关键的性能注意事项.
因此,为了减少任意现有的存储瓶颈,下一个测试的升级是将传统机械硬盘替换成固态硬盘,以利用其大幅提高的随机读取次数的优势.
基于之前通过处理器升级获得的性能改进,从传统机械硬盘升级为英特尔固态硬盘520系列后,完成工作负载所需的时间从约125分钟缩短为约23分钟,降幅接近80%(如图5所示).
7针对希望在同一服务器上组合使用传统机械硬盘和固态硬盘的客户,英特尔提供了英特尔高速缓存加速软件.
这一分层存储模型以较低的购置成本为用户提供了部分固态硬盘的性能优势,但与仅含固态硬盘的配置相比,除了存在性能差异外,该方法同时也牺牲了固态硬盘中的某些可靠性优势.
然而,该存储模型为客户提供了另一选择,可帮助他们逐步采用固态硬盘,从而显著缩短从数据中获取重要洞察的时间.
测试还表明,当在每个任务节点上安装五块固态硬盘时,Hadoop框架能够同时运行足够多的Map(映射)任务,以向每块固态硬盘生成并行I/O,并将处理器的利用率提升至接近100%.
8这一状态可为Map任务提供最优性能.
设置io.
sort.
mb和io.
sort.
record.
percen标记可有效避免中间Map输出溢出,过多的磁盘读取和写入.
每个Map任务可在不到10秒内处理128MB的数据块,并生成128MB的输出信息.
并行运行32项Map任务让每个任务节点达到超过5Gb/秒的速度.
8Hadoop工作负载的大规模、分布式特性让网络I/O成为了工作流中每个阶段整体性能的一个关键要素,万兆位以太网提供了一个经济高效、可扩展的解决方案,可帮助有效缩短数据的等待时间.
高带宽的万兆位以太网网络不仅可支持快速向集群导入数据和从集群中导出数据,而且还可加速TeraSort工作负载的随机排列阶段的工作.
通过在Map和Reduce(化简)节点间使用万兆位以太网链路,Reduce节点可快速获取数据,从而能够显著缩短整体作业执行时间,并提高集群性能.
基于处理器和存储升级所取得的成果,将集群硬件从千兆位以太网升级到万兆位以太网后,测试工作负载的处理时间再次缩短50%,从23分钟缩短为12分钟(如图6所示).
9使用万兆位以太网互连和固态硬盘可支持在包含10个节点的测试集群上,运行超过100个并发Reducer任务,从而可实现出色的作业扩展能力和较高的资源利用率.
5英特尔至强处理器E5-2600产品家族英特尔至强处理器E5-2600产品家族传统机械硬盘英特尔固态硬盘520系列升级前升级后125分钟23分钟升级到固态硬盘:时间缩短约80%ApacheHadoop*ApacheHadoop英特尔以太网千兆位服务器适配器英特尔以太网千兆位服务器适配器图5.
存储升级为固态硬盘:处理阶段速度提高了约80%.
7英特尔固态硬盘520系列英特尔至强处理器E5-2600产品家族英特尔固态硬盘520系列英特尔至强处理器E5-2600产品家族英特尔以太网千兆位服务器适配器万兆位英特尔以太网融合网络适配器升级前升级后23分钟12分钟升级到万兆位以太网:时间缩短约50%ApacheHadoop*ApacheHadoop图6.
网络升级到万兆位以太网:处理阶段速度提高了约50%.
98除了上述硬件升级以外,英特尔Hadoop发行版还提供了一个直观的界面和多项内部优化,其中包括高级数据压缩、针对HDFS的动态复制副本选择,以及MapReduce加速等.
这一额外的设计有助于提高性能,同时当与英特尔可靠的企业级支持组合使用时,将能够帮助客户更快速地部署Hadoop环境,并加以出色的维护.
在硬件升级的基础上,实施英特尔Hadoop发行版再次将工作负载的完成时间缩短了约40%,从约12分钟缩短为7分钟(如图7所示).
103.
3优化导出阶段与导入阶段类似,万兆位以太网网络可大幅提升在处理后从系统提取数据的性能,而在将传统硬盘升级为固态硬盘后,其优势更为显著.
对传统硬盘进行的初步测试表明,Hadoop工作流导出阶段的主要瓶颈是由于随机磁盘寻道所导致.
将本地存储更换为固态硬盘可消除这一弊端,使结果与我们在导入阶段所看到的结果保持一致.
通过使用固态硬盘,我们可在从千兆位以太网升级到万兆位以太网后将性能提升约6倍,从而大幅缩短了整个工作流内的整体操作所需的时间.
如上所述,使用固态硬盘和万兆位以太网还有助于从高级别的处理器资源中获得更大优势,进而突显了平衡Hadoop集群的资源可带来的重要优势.
4研究环境简述生成本白皮书中所述结果的Hadoop测试平台包含一个头结点(命名节点,JobTracker)、10个工作节点(数据节点,TaskTracker)和一台思科Nexus*502010Gb交换机.
测试所比较的不同基准和升级后的工作节点组件详细列于表2中.
2表2.
测试环境中所比较的工作节点组件.
处理器和基准系统比较存储比较网络适配器比较软件比较基准组件SuperMicroSYS-1026T-URF1U服务器,包含两个英特尔至强处理器X5690@3.
47GHz,48GB内存700GB7200RPMSATA硬盘英特尔以太网服务器适配器I350-T2(1Gb以太网)ApacheHadoop*1.
0.
3升级的组件戴尔PowerEdge*R7202U服务器,包含两个英特尔至强处理器E5-2690@2.
90GHz,128GB内存英特尔固态硬盘520系列英特尔以太网融合网络适配器X520-DA2(万兆位以太网)英特尔ApacheHadoop*发行版软件2.
1.
1英特尔固态硬盘520系列英特尔至强处理器E5-2600家族升级前升级后12分钟7分钟部署ApacheHadoop*软件的英特尔分发版:时间缩短约40%ApacheHadoop*ApacheHadoop*软件的英特尔分发版万兆位英特尔以太网融合网络适配器英特尔固态硬盘520系列英特尔至强处理器E5-2600家族10Gb英特尔以太网融合网络适配器图7.
实施ApacheHadoop*软件的英特尔分发版:处理阶段速度提高了约40%.
1095调试和优化注意事项除了升级网络组件和考虑使用英特尔Hadoop发行版以外,致力于最大限度地从大数据技术中挖掘价值的各个组织,还必须考虑网络堆栈中的配置和设置,以及Hadoop软件环境本身.
尽管确定可能的配置和设置范围存在较大挑战,根据以往的最佳实践,我们建议工程师格外注意本部分所列的注意事项,以获得最大价值.
5.
1网络连接、操作系统和驱动程序优化在操作系统和网络连接堆栈中,任意时间打开的文件、打开的网络连接,以及运行的进程的数量应根据特定工作负载的需求而进行调整.
英特尔万兆位以太网Linux*驱动程序也应通过调整RSS队列的数量(如本白皮书所描述的,测试中的最优数量为两个)而进行优化,而且还应通过调整中断阈值减少上下文开关的数量.
在操作系统、网络连接和TCP/IP堆栈中,应特别注意以下设置、优化和实践:增加操作系统中可打开的文件的数量.
Hadoop会打开大量文件,因此提高并发可打开的文件的数量限制,将能够减少作业故障.
英特尔的测试发现32,000个文件个数将足够.
提高并发进程的数量也有助于减少作业故障.
增加待处理的连接和SYN请求的数量.
Hadoop的HSFS和MapReduce引擎将打开众多周期较短的TCP/IP连接.
在英特尔设置配置中,该设置提高到了3,240,000,减少了HDFS和MapReduce通信的等待时间.
如果不需要在Hadoop工作负载上进行资源共享,可考虑加大TCP/IP的最大窗口大小并扩展到16MB.
该方法将能够帮助最大限度地提高万兆位以太网投资的价值.
如果有足够的系统内存可用,可提高TCP/IP发送和接收缓冲大小.
这一变更可提高网络吞吐量.
在英特尔测试集群中,最大值可被设为16MB.
当带宽可用时,禁用TCP/IP可选ACK.
当启用可选ACK时,对客户端请求的响应可能被延迟,并降低作业执行和完成时间;禁用这些ACK将有助于改善整体服务器的响应时间和Hadoop作业性能.
为存储使用JBOD.
Hadoop拥有内建的负载平衡功能,并能够在可用的HDFS和MapReduceJBOD磁盘间使用高效的轮询功能.
使用包含固态硬盘和快速存储的RAID可限制存储吞吐量和整体作业性能.
相反,请为HDFS和MapReduce的磁盘使用JBOD模式,这是因为HDFS和MapReduce均内建有在多个JBOD磁盘间进行负载平衡的功能.
5.
2Hadoop配置参数Hadoop堆栈中拥有超过200个配置参数,基于以下调试注意事项着手将能够帮助工程团队高效工作:Java虚拟机(JVM)任务的内存配置.
每个Map和Reduce任务将在独立的JVM实例中运行.
用户可分别使用配置参数mapred.
map.
child.
java.
opts和mapred.
reduce.
child.
java.
opts为Map和Reduce任务指定各个任务的内存.
英特尔测试集群将Map任务堆栈的内存设置为512MB,将Reduce任务堆栈的内存设置为1.
5GB.
-Map任务的内存要求将取决于每个Map所生成的输出数量.
包含排序应用程序的128MB数据块需要约200MB的空间来存储中间记录,才能防止溢出.
这一内存可使用配置参数进行管理,如io.
sort.
mb=200mb,io.
sort.
record.
percent=.
15和io.
sort.
spiH.
percent=1.
0.
-Reduce任务的内存使用量也可进行调整.
英特尔测试建议大多数参数的默认设置已是最优,但mapred.
job.
reduce.
inputbuffer.
percent可变更为0.
7,从而让Reducer无需在开始最终合并前清空内存.
10并发Map和Reduce任务的数量.
在英特尔至强处理器上,Map任务的最优数量通常为逻辑内核的数量,而Reducer的数量应与物理内核的数量相同.
这些设置可通过mapred.
tasktracker.
map.
tasks.
maximum和mapred.
tasktracker.
reduce.
tasks.
maximum参数进行配置.
命名节点和数据节点请求处理程序数量和线程数量.
如果命名节点上拥有足够的内存和计算资源,那么命名节点中的线程处理程序数量可提高至100或更高,以支持大量并发请求.
提高数据节点的处理程序数量也将可以带来诸多优势,特别是在使用固态硬盘或快速存储时,优势将更为突出.
降低节点间IPC通信的网络延迟.
将ipc.
server.
tcpnodelay和ipc.
client.
tcpnodelay设置为"true".
JobTracker和TaskTracker之间的心跳频率.
默认心跳频率为3秒.
对于Map任务能够较快完成的小型作业,该设置可能延迟任务完成通知和新任务的调度.
设置mapreduce.
tasktracker.
outofband.
heartbeats立即发送作业完成通知可提高作业性能.
使用mapreduce.
tasktracker.
outofband.
heartbeat.
damper参数来调整心跳频率也能够提供一定的优势.
推测任务执行.
Hadoop可能在多个节点上安排相同的任务,以防止节点故障或延迟执行.
这一实践若能够充分利用闲置资源,则效果显著,但是若集群满载运行,其效果甚微.
因此,我们推荐在某些时候禁用推测任务执行,特别是存在高性能处理、存储和网络资源的时候.
中间Map输出压缩.
为中间Map输出启用压缩功能有助于提高受到存储或网络性能限制的集群的性能.
请注意,当使用万兆位以太网和固态硬盘时,压缩输出对于性能的改善效果有限.
HDFS数据块大小.
HDFS数据块的最优大小将根据工作负载的不同而有所差异,但是较大的数据块大小通常不会形成较高的性能,这是因为它们可能导致对内存产生额外的负担,并有可能在Map阶段导致中间溢出.
同时,较小的数据块大小将对较小和并行程度较高的任务产生额外的开销.
在英特尔测试中,128MB的数据块大小为TeraSort性能指标评测程序提供了最优的整体性能.
5.
3进一步的增强正如本白皮书中所介绍的,英特尔已通过使用最新英特尔至强处理器、固态硬盘、万兆位以太网英特尔以太网融合网络适配器和英特尔ApacheHadoop*发行版软件,实现了大量性能优势.
所有这些组件的持续进步将有望在大数据的实施过程中带来更多性能优势.
目前,我们正在为Hadoop和其他大数据技术考虑开发大量软件增强.
例如,我们可以通过将基于HTTP的跨节点通信更换成其他更为优化的选项,加速传输层性能,在不增加物理资源的前提下提高整体吞吐量.
这一增强和其他软件增强均为英特尔持续关注的一个研究领域.
面向商业分析和其他大数据使用模型的虚拟化、预构建的Hadoop集群是另一个前景广阔的研发领域,它们可带来众多潜在优势,其中包括:降低实施Hadoop环境的复杂性.
为虚拟化资源配置制定最佳实践,摒弃手动调整.
基于大数据技术构建多用途环境.
116结论存储和分析大量非结构化数据的能力将能够为企业、学术机构和政府组织带来众多机会.
英特尔通过此研究表明,通过使用精选的硬件组件组成平衡的基础设施,并使用英特尔ApacheHadoop*发行版软件,Hadoop将能够实现大幅的性能提升.
本白皮书中所描述的结果只是英特尔和行业其他领域所正在开展的、并不断壮大的大型研究中的一部分,这些研究旨在发现各种最佳实践,以支持构建和运行Hadoop集群与其他大数据解决方案,同时开发和调试软件,确保这些软件能够在此类环境中实现最优运行.
这一方面的进展将能够指导计算行业朝着简化、低成本实施的目标迈进,从而推动在今后实现实时分析能力的广泛普及.
12如欲了解更多信息,请访问以下页面:hadoop.
intel.
comwww.
intel.
com/bigdatawww.
intel.
com/go/ethernetwww.
intel.
com/xeonE5www.
intel.
com/storage1英特尔在2012年12月进行的TeraSort性能指标评测.
自定义设置:mapred.
reduce.
tasks=100以及mapred.
job.
reuse.
jvm.
num.
tasks=-1.
如欲了解更多信息,请访问:http://hadoop.
apache.
org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.
html2集群配置:一个头结点(命名节点,JobTracker),10个工作节点(数据节点,TaskTracker),思科Nexus*502010Gb交换机.
基准工作节点:SuperMicroSYS-1026T-URF1U服务器,包含两个英特尔至强处理器X5690@3.
47GHz,48GB内存,700GB7200RPMSATA硬盘,英特尔以太网服务器适配器I350-T2,ApacheHadoop*1.
0.
3,RedHatEnterpriseLinux*6.
3,OracleJava*1.
7.
0_05.
工作节点中的升级处理器和基准系统:戴尔PowerEdge*R7202U服务器,包含两个英特尔至强处理器E5-2690@2.
90GHz,128GB内存.
工作节点中的升级存储:英特尔固态硬盘520系列.
工作节点中的升级网络适配器:英特尔以太网融合网络适配器X520-DA2.
工作节点中的升级软件:英特尔ApacheHadoop*发行版软件2.
1.
1.
3英特尔固态硬盘520系列当前未针对数据中心用途进行验证.
4固态硬盘性能将由于容量的不同而有所差异.
5性能使用lorneter*(队列深度为32)测量得出.
测试于2012年12月开展.
6基准工作节点:SuperMicroSYS-1026T-URF1U服务器,其中包含两个英特尔至强处理器X5690@3.
47GHz,48GB内存,700GB7200RPMSATA硬盘,英特尔以太网服务器适配器I350-T2,ApacheHadoop*1.
0.
3,RedHatEnterpriseLinux*6.
3,OracleJava*1.
7.
0_05.
工作节点中的升级处理器和基准系统:戴尔PowerEdge*R7202U服务器,包含两个英特尔至强处理器E5-2690@2.
90GHz,128GB内存,700GB7200RPMSATA硬盘.
7基准存储:700GB7200RPMSATA硬盘,升级存储:英特尔固态硬盘520系列.
8资料来源:英特尔内部测试,2012年12月.
9基准网络适配器:英特尔以太网服务器适配器I350-T2,升级网络适配器:英特尔以太网融合网络适配器X520-DA2.
10工作节点中的升级软件:英特尔ApacheHadoop*发行版软件2.
1.
1.
在性能检测过程中涉及的软件及其性能只有在英特尔微处理器的架构下方能得到优化.
诸如SYSmark*和MobileMark*等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能导致测试结果的变化.
请参考其他信息及性能测试(包括结合其他产品使用时的运行性能)以对目标产品进行全面评估.
更多信息敬请登陆www.
intel.
com/performance结果以英特尔内部测试为基础,并使用了第三方基准测试数据和软件.
英特尔不控制或审核本文件中所引述的网页或第三方所提供的基准数据的设计或实施情况.
英特尔鼓励客户登录本文件引述的网页或其他网页以核实相关基准数据的准确性以及其是否反映了所购买的系统的性能.
英特尔编译器针对非英特尔微处理器的优化程度可能与英特尔微处理器相同(或不同).
这些优化包括SSE2、SSE3和SSSE3指令集以及其它优化.
对于在非英特尔制造的微处理器上进行的优化,英特尔不对相应的可用性、功能或有效性提供担保.
该产品中依赖于处理器的优化仅适用于英特尔微处理器.
部分非针对英特尔微体系架构的优化也为英特尔微处理器保留了下来.
如欲了解更多有关本声明所涉及的特定指令集的信息,请参阅适用产品的《用户和参考指南》.
RAKsmart 商家从原本只有专注于独立服务器后看到产品线比较单薄,后来陆续有增加站群服务器、高防服务器、VPS主机,以及现在也有在新增云服务器、裸机云服务器等等。机房也有增加到拥有洛杉矶、圣何塞、日本、韩国、中国香港等多个机房。在年前也有介绍到RAKsmart商家有提供年付129元的云服务器套餐,年后我们看到居然再次刷新年付云服务器低价格。我们看到云服务器低至年79元,如果有需要便宜云服务器的...
香港云服务器最便宜价格是多少钱一个月/一年?无论香港云服务器推出什么类型的配置和活动,价格都会一直吸引我们,那么就来说说香港最便宜的云服务器类型和香港最低的云服务器价格吧。香港云服务器最便宜最低价的价格是多少?香港云服务器只是服务器中最受欢迎的产品。香港云服务器有多种配置类型,如1核1G、2核2G、2核4G、8到16核32G等。这些配置可以满足大多数用户的需求,无论是电商站、视频还是游戏、小说等。...
主机参考最新消息:JustHost怎么样?JustHost服务器好不好?JustHost好不好?JustHost是一家成立于2006年的俄罗斯服务器提供商,支持支付宝付款,服务器价格便宜,200Mbps大带宽不限流量,支持免费更换5次IP,支持控制面板自由切换机房,目前JustHost有俄罗斯5个机房可以自由切换选择,最重要的还是价格真的特别便宜,最低只需要87卢布/月,约8.5元/月起!just...