版权所有2018TIRIASResearch.
保留所有权利PLASTER:一个与深度学习性能有关的框架本白皮书获得NVIDIA资助DavidA.
Teich与PaulR.
Teich合著TIRIASResearch2018年5月PLASTER:一个与深度学习性能有关的框架2018年5月版权所有2018TIRIASResearch.
保留所有权利第1页白皮书获得NVIDIA资助前言机器学习(ML)是人工智能(AI)的一个重要类别.
作为ML的一种类型,深度学习(DL)的相关软硬件技术取得了长足进步,对惊人的AI发展趋势的早期阶段起到了催化剂作用.
不过,在这个采用阶段存在双重挑战:深度学习解决方案的部署是一个复杂的课题,而且它在迅速变化.
业界需要一个框架来应对与深度学习相关的机遇和挑战.
在2018年的NVIDIAGPU技术大会(GTC)上,NVIDIA总裁兼首席执行官(CEO)黄仁勋提出了PLASTER框架,引导听众在相关背景下思考提供基于AI的服务所面临的重大挑战(图1).
图1:面向AI的PLASTER框架来源:NVIDIA"PLASTER"是一个缩略词,包含了提供基于AI的服务所面临的七大挑战.
Programmability(可编程性)Latency(延迟)Accuracy(准确性)SizeofModel(模型大小)Throughput(吞吐量)EnergyEfficiency(能效)RateofLearning(学习频率)本文以NVIDIA的DL解决方案为背景,逐一探讨这些AI挑战.
PLASTER体现了"整体大于部分之和"的观点.
有志于开发和部署基于AI的服务的人士应通盘考虑PLASTER的各个元素,以便全面认识深度学习性能.
应对PLASTER提及的挑战在任何DL解决方案中都很重要,而且特别有助于开发和提供基于AI的服务所依赖的推理引擎.
本文的每部分都会简要说明每个框架部分的测量方式,还会举例介绍利用NVIDIA解决方案来解决机器学习关键问题的客户.
PLASTER:一个与深度学习性能有关的框架2018年5月版权所有2018TIRIASResearch.
保留所有权利第2页Programmability(可编程性)机器学习正在经历爆炸式发展,这不仅体现在模型的大小和复杂性上,还体现在迅速涌现的多种神经网络架构上.
因此,甚至连专家也难以深入了解模型选项,然后选出合适的模型来解决他们的AI业务问题.
完成深度学习模型的编码和训练之后,要针对特定的运行时推理环境优化模型.
NVIDIA开发出两个重要工具,解决了训练和推理难题.
开发人员使用CUDA为基于AI的服务编写代码,它是一个并行计算平台和编程模型,可在GPU上进行通用计算.
此外,开发人员使用NVIDIA的可编程推理加速器TensorRT为基于AI的服务实现推理功能.
CUDA简化了在NVIDIA平台上实现算法所需执行的步骤,对数据科学家的帮助极大.
而TensorRT可编程推理加速器工具将经过训练的神经网络作为输入,优化它在运行时部署下的性能.
它测试不同的浮点和整数精度水平,让开发人员和操作能在系统所需的准确性和性能之间取得平衡,从而提供优化的解决方案.
开发人员可以直接从TensorFlow框架中使用TensorRT来优化模型,以便更好地提供基于AI的服务.
TensorRT可以从多种框架(包括Caffe2、MXNet和PyTorch)中导入开放神经网络交换(ONNX)格式的模型.
鉴于深度学习目前仍停留在技术层面的编码阶段,数据科学家可以借助这种导入功能更好地利用宝贵的时间.
测量可编程性可编程性影响着开发人员的工作效率,进而影响产品上市时间.
TensorRT能加快多个常用框架(包括Caffe2、Kaldi、MXNet、PyTorch和TensorFlow)上的AI推理速度.
此外,TensorRT可以接受CNN、RNN和MLP网络作为输入,并且提供自定义层API来处理新颖、独特或专有的层,让开发人员能够实现自己的CUDA内核功能.
TensorRT还支持Python脚本语言,可让开发人员将基于TensorRT的推理引擎集成到Python开发环境中.
通过实例了解可编程性BakerHughes(BHGE)是一家领先的油田服务公司.
它全方位地帮助油气公司进行勘探、开采、加工和付运.
在整个过程的每一步,AI都能帮助油气公司更好地了解其业务产生的大量数据.
每种类型的业务需求可能会依赖不同类型的深度学习模型.
这意味着编程人员必须能够高效地实施、测试和实例化多个模型.
BHGE使用CUDA和TensorRT创建深度学习模型,以帮助客户对油气资源进行识别和定位.
BHGE还使用了多种NVIDIA硬件,包括:使用DGX-1服务器来训练模型;在桌边系统或偏远的海上平台使用DGX工作站进行模型训练和推理;以及在物联网(IoT)的边缘使用NVIDIA的Jetson平台进行实时、持续的深度学习和推理.
PLASTER:一个与深度学习性能有关的框架2018年5月版权所有2018TIRIASResearch.
保留所有权利第3页Latency(延迟)人和机器都需要对象反应才能作出决策和采取行动.
延迟是指提出请求与收到反应之间经过的时间.
就大多数面向人类的软件系统(不只是AI)而言,延迟时间通常以毫秒计.
拜Siri、Alexa和类似的语音控制界面所赐,语音识别类应用已经广为人知.
消费者和客户服务应用对数字助理的需求很广泛.
但是,在人尝试与数字助理交互时,即使是短短几秒的延迟也会开始让人感到不自然.
图像和视频管理是需要低延迟、基于实时推理的服务的另一个例子.
按照Google的说法,对于图像和视频类应用,7毫秒是最佳延迟目标.
另一个例子是自动翻译.
早期的系统采用较为程序化的专家系统设计,并不能足够快速地理解语言的细微差别,因此无法进行实际对话.
现在,DL的表现远胜从前,能产生大为改进的翻译效果.
测量延迟推理延迟直接影响用户体验(UX),它的测量单位是秒或几分之一秒.
虽然对反应时间并无严格规定,不过JakobNielsen的0.
1/1/10秒限制是很好的准则.
如果反应时间介于2到10秒之间,人们就会开始揣测系统的运行是否仍然正常.
用户的活动流程会被打断,从而影响乐趣、性能、时间和金钱.
通过实例了解延迟作为在线搜索的新风向,视觉搜索方兴未艾.
微软的Bing服务器工作组一直希望开发出能快速提供搜索结果的视觉搜索平台,为此构建了一个基于神经网络的解决方案.
系统的初始延迟约为2.
5秒,但通过使用TeslaGPU,微软将延迟降低到仅仅40毫秒,也即降低了62倍!
Accuracy(准确性)准确性在各行各业都很重要,但医疗保健业需要特别高的准确性.
过去数十年,医学成像技术取得了长足发展,在使用次数越来越多的同时,也要求更多的分析以找出医疗问题.
医学成像技术的发展和应用还意味着需要将大量数据从医疗设备传输给医疗专家进行分析.
一直以来,无非通过两种方式解决此数据量问题:在高延迟的情况下传输完整的信息,或者数据取样和重建,但相关技术可能导致重建和诊断不准确.
PLASTER:一个与深度学习性能有关的框架2018年5月版权所有2018TIRIASResearch.
保留所有权利第4页深度学习的一个优点是高精度训练和低精度实施.
DL训练可以在较高的数学精度水平(通常为FP32)上非常精确地进行.
之后,在运行时环境中可以在较低的数学精度水平(通常为FP16)上进行实施,从而获得更高的吞吐量和效率,甚至还能降低延迟.
保持较高的准确性对于确保最佳用户体验至关重要.
TensorRT利用TeslaV100Tensor核心的FP16处理功能以及TeslaP4的INT8功能将推理速度加快了2到3倍(与FP32相比),而且准确性几乎没有下降.
开发人员在开发基于AI的服务时可以从效率方面优化深度学习模型,然后以经济实惠的方式现场实施这些模型.
测量准确性可以通过多种方式来定义准确性的测量.
对于PLASTER,准确性涉及这个问题:在运行时推理中让经过训练的模型保持准确性,同时还要优化推理性能以提高运行时效率(降低延迟等).
在运行时保持准确性的关键在于降低数学精度,以获得卓越的能效、提高吞吐量和利用其他好处,同时不会让准确性降到每个应用场合所需的等级之下.
TensorRT通过允许在多个精度水平上进行的推理比较准确性的变化,帮助作出有关准确性的决策(图2).
图2:TensorRT降低了精度推理性能来源:NVIDIA通过实例了解准确性麻省总医院的AA马蒂诺生物医学成像中心正联合哈佛大学研究一些系统,以加速和改进MRI图像的重建.
这两家机构利用DGX-1开发出AUTOMAP深度学习系统,用它直接从传感器数据重建图像.
此深度学习系统将噪声和瑕疵过滤掉,使图像重建速度和准确性分别提高了100倍和5倍,从而带来更准确的诊断结果.
PLASTER:一个与深度学习性能有关的框架2018年5月版权所有2018TIRIASResearch.
保留所有权利第5页SizeofModel(模型大小)深度学习模型的大小和处理器之间的物理网络容量会影响性能,特别是从PLASTER的延迟和吞吐量方面来说.
深度学习网络模型的数量正在激增.
此类模型的大小和复杂性也在增长,这不仅允许进行更详细的分析,还推动着对功能更强大的训练系统的需求.
在深度学习模型中,计算能力和物理网络扩展的推动因素包括:层数每层节点数(神经元数)每层的计算复杂度某层的某个节点与邻近层的节点之间的连接数当前正处于DL市场生命周期的早期阶段.
在比较模型大小时,目前的想法可归结为一种实际关系:DL模型大小与在其他PLASTER元素的背景下运行推理所需的计算量和物理网络资源成正比.
例如,如果开发人员对训练后的DL模型进行优化,使其不会超出规定的推理准确性和延迟范围,那么,该优化可能会降低计算精度和简化每个模型层及其之间的连接.
但是,开始时使用较大的训练后模型通常会导致用于推理的优化模型也较大.
测量模型大小开发人员通常从计算需求和内存延迟两方面来描述DL模型大小.
对于深度学习模型,图3显示模型大小由计算需求和在计算内存空间中移动数据所需的物理网络带宽共同决定.
图3:深度学习模型大小来源:NVIDIAPLASTER:一个与深度学习性能有关的框架2018年5月版权所有2018TIRIASResearch.
保留所有权利第6页在多个主要应用领域中,深度学习模型的数量已增长了1-2个数量级.
大小、复杂性和计算需求的这种增长,加上需要低延迟的实时服务的出现,突显了模型大小方面的挑战.
因此,必须在硬件层面和通过调整运行时推理准确性(精度)来消除对较大模型的延迟和吞吐量值的影响.
通过实例了解模型大小百度研究院在2014年年底发布了它的DeepSpeech(DS1)语音识别原始模型.
DS1使用一个5层卷积神经网络(CNN)模型,以及1个递归神经网络(RNN)层和大约810万个参数.
一年后,第二代DeepSpeech2(DS2)模型使用了一个7层RNN,以及3个CNN层和大约6770万个参数(增加到DS1的8.
3倍).
识别词错误率(WER)从使用DS1时的24.
0%降低到使用DS2时的13.
6%(改善了43%).
更新颖的DS2模型也更大和更复杂,直接导致了语音识别准确性显著改善.
NVIDIA和百度在2017年宣布开展合作,以提升数据中心的AI训练速度和加速性能.
Throughput(吞吐量)吞吐量描述所创建或部署的深度学习网络在给定大小的情况下可以提供多少次推理.
开发者正在指定的延迟阈值内逐渐优化推理性能.
延迟限定可确保良好的客户体验,在该限值内最大化吞吐量对最大程度提高数据中心效率和营收至关重要.
一直以来,业界都倾向于将吞吐量用作唯一的性能指标,原因是每秒计算次数越高,其他方面的性能通常也越好.
但是,如果系统未能按照指定的延迟要求、功耗预算或服务器节点数提供足够的吞吐量,最终将无法很好地满足应用场合的推理需求.
如果未能在吞吐量和延迟之间取得适当的平衡,可能会导致客户服务水平低下、未达到服务水平协议(SLA)的要求和服务遭遇失败.
娱乐行业长期以来使用吞吐量作为关键性能指标,特别是在动态广告投放中.
例如,品牌赞助商在电视节目或体育赛事等流视频中动态投放广告.
广告商想知道其广告的出现频率以及是否触及目标受众.
要让广告商感到满意,关键在于向广告商报告广告投放的准确性和重点.
测量吞吐量DL推理吞吐量通常表示为每秒图像数(对于基于图像的网络)和每秒令牌数(对于基于语音的网络).
系统必须在指定的延迟阈值内达到吞吐量.
服务运营商可以通过增加GPU的数量使每次推理的延迟保持合适水平,以此来管理推理吞吐量.
如果增加更多GPU不会使延迟比使用第一个GPU时更大,则此做法可行.
PLASTER:一个与深度学习性能有关的框架2018年5月版权所有2018TIRIASResearch.
保留所有权利第7页通过实例了解吞吐量奥迪赞助了许多体育赛事.
SAP开发了一个用于跟踪广告投放的DL解决方案,名叫SAPBrandImpact,而作为SAP的重要客户,奥迪抢先体验了该解决方案(图4).
图4:现场直播节目中的图像识别来源:NVIDIA奥迪利用SAPBrandImpact开发了自己的深度学习模型.
奥迪使用CUDA在NVIDIADGX-1服务器上训练它的模型,然后使用TensorRT优化模型的推理性能.
结果,性能比仅使用CPU的解决方案提高了40倍,而且每小时成本降低了32倍.
由于可以实时获得可查证的准确结果,因此SAPBrandImpact在节目仍在播出时就能向客户提供结果.
EnergyEfficiency(能效)随着深度学习(DL)加速器的性能不断提升,DL加速器的功耗也越来越高.
要想让深度学习解决方案带来投资回报(ROI),仅关注系统的推理性能并不足够.
功耗可能会迅速增加向客户提供服务的成本,因此,关注设备和系统的能效变得更有必要.
在某些场合下,需要密集地处理数据以便用自然的声音智能地回答问题,而语音处理恰好就是这样一种解决方案.
能实时处理语音的数据中心推理功能无疑需要使用许多个机架的计算机,从而影响到公司的总体拥有成本(TCO).
因此,业界开始使用每瓦特推理次数(越高越好)来衡量运营成效.
超大规模数据中心正设法最大程度地提高能效,也即在固定的功耗预算下提供尽可能多的推理次数.
简单看看哪个处理器具有更低的功耗并不能解决问题.
例如,如果一个处理器的功耗为200W,而另一个为130W,这并不一定表示130W的系统更好.
如果200W的解决方案完成任务的速度快20倍,则它的能效更高.
PLASTER:一个与深度学习性能有关的框架2018年5月版权所有2018TIRIASResearch.
保留所有权利第8页每瓦特推理次数还取决于训练和推理中的延迟因素.
能效不仅取决于一段时间内的纯功耗,还取决于同一段时间内的吞吐量.
要说明PLASTER的各个元素如何相互关联和必须如何综合考虑这些元素以便全面了解推理性能,能效是另一个很好的例子.
测量能效对于产生式推理,能耗限制了可用的计算资源.
电费和冷却费等运营费用(OPEX)直接决定了能否在保持质量的同时扩展云服务以便每秒处理更多次推理.
扩展端点的推理能力可能会影响端点内部电池的成本和重量、两次充电之间提供的推理次数和质量等等.
通过实例了解能效科大讯飞是中国领先的语音识别技术提供商,用户人数超过9.
1亿.
科大讯飞基于云的语音识别服务必须在200毫秒内应答用户,以便带给用户真实自然的语音应答体验.
它的推理服务运行在搭载了NVIDIATeslaP4GPU显卡的服务器上.
与仅使用CPU的服务器相比,科大讯飞基于云的语音识别推理即服务现在可以处理多10倍的并发请求.
系统不仅能处理多10倍的请求,而且准确性改善了20%、运营TCO降低了20%.
TCO降低的很大一部分原因是每瓦特推理次数性能有所改善.
RateofLearning(学习频率)近年来,许多企业开始借助功能更强大的系统和更高级别的编程工具来实施"开发与运维"(DevOps)行动,以便将开发与运维更紧密地联系起来.
虽然深度学习目前仍未成熟,但许多正等待利用DL的学术界、政界和商界机构并非如此.
它们寻求的不是接受不切实际的训练且保持不变的推理引擎.
"AI"由两个词组成,其中一个是智能,因此,用户将希望神经网络能在合理的期限内学习和适应.
要使复杂的DL系统获得商业界的青睐,软件工具开发者必须支持"开发与运维"(DevOps)行动.
各类组织正不断试验深度学习技术和神经网络,同时学习如何更有效地构建和实施DL系统.
由于推理服务会收集新的数据,并且会不断发展和变化,因此必须定期重新训练DL模型.
有鉴于此,IT组织和软件开发者必须提升模型接收新数据和重新训练的频率.
多GPU服务器配置已将深度学习训练时间从数天和数周缩短到数分钟和数小时.
更快的训练时间意味着开发人员可以更频繁地重新训练网络,以改善准确性或保持高准确性.
如今实施的一些深度学习系统已经做到每天重新训练神经网络多次.
可编程性也会影响学习频率.
为了简化开发人员的工作流程,Google和NVIDIA最近宣布将TensorFlow与TensorRT进行集成.
开发人员可以从TensorFlow框架中调用TensorRT,以优化训练后的网络,使其在NVIDIAGPU上高效运行.
更轻松地集成训练和推理的能力使得深度学习能够成为DevOps解决方案,从而帮助组织在不断改进其DL模型时快速实施更改.
PLASTER:一个与深度学习性能有关的框架2018年5月版权所有2018TIRIASResearch.
保留所有权利第9页测量学习频率从以下方面来测量学习频率:对于训练:吞吐量和模型准确性的改善对于生产:吞吐量、模型准确性和延迟的改善对于训练和生产这两者:可编程性、模型大小和能效的改善借助DevOps,DL组织可以吸收和整合深度学习技术的新进展,以在上述方面取得最大改善.
通过实例了解学习频率NVIDIA创造了一个名叫IsaacSim的模拟环境,以训练它的AI机器人Isaac(图5).
NVIDIA已使用其Holodeck项目(一个在物理上精确的协同式虚拟现实(VR)环境)演示了此模拟环境.
在该演示中,虚拟机器人学习如何打曲棍球.
每当一个机器人完成迭代时,它学到的知识会传给其他虚拟机器人,以加快整个学习过程.
图5:NVIDIAIsaacSim在IsaacSim环境中学习的虚拟机器人来源:NVIDIA开发人员可以使用IsaacSim在完全集成和高保真度的模拟环境中训练和测试虚拟机器人,而且速度比真实世界要快.
工程和测试过程在数分钟而不是数月内就能完成.
模拟完成之后,即可将训练后的系统(大脑)转移到物理机器人.
2018年5版权所有2018TIRIASResearch.
保留所有权利第10页PLASTER:一个与深度学习性能有关的框架PLASTER:一个与深度学习性能有关的框架深度学习正从理论进入到早期应用阶段.
业界必须评估在DL发展成为主流技术的过程中所需要的支持.
支持DL所需的算法、软件和硬件快速发展,因而需要一个框架来了解面临的挑战和打造可应对这些挑战的环境.
PLASTER源自NVIDIA用来描述深度学习性能的关键要素的评量标准.
PLASTER的元素包括:Programmability(可编程性)、Latency(延迟)、Accuracy(准确性)、Sizeofmodel(模型大小)、Throughput(吞吐量)、Energyefficiency(能效)和Rateoflearning(学习频率).
良好的DL项目设计应考虑所有这些因素,在它们之间正确地进行必要的取舍,以成功实施DL系统.
PLASTER的元素阐明了业界在创造DL解决方案时面临的挑战.
所有这些元素都不是独立的,而且全都很重要.
PLASTER框架对于整个DL模型开发和部署周期很重要.
PLASTER对于运行时推理尤其重要.
生产环境具有必须满足的特定参数-从最基本的推动ROI的准确性和性能到有关延迟和吞吐量的SLA,再到涉及监管法例和公司规章的合规性.
将PLASTER视为组织原则的组织可以取得以下三项成果,进而推动DL走进大众市场.
DL组织可以更好地管理DL系统的性能更高效地利用开发人员的时间在DL组织中创造DevOps环境以支持客户所需的产品和服务深度学习在其产品生命周期的早期阶段中是一个复杂的问题.
将PLASTER用作框架的组织可以更好地了解和管理深度学习性能的重要方面.
版权所有2018TIRIASResearch.
TIRIASResearch在此保留所有权利.
事先未经TIRIASResearch明确的书面同意,不得复制本文的全部或部分内容.
本报告包含的信息在撰写本报告时确信是可靠的,但并不保证这些信息的准确性或完整性.
产品名称和公司名称可能是各自所有者的商标()或注册商标().
本报告的内容对披露给公众或者由主管机构或个人发布的统计数据和信息进行解释和分析.
greencloudvps怎么样?greencloudvps是一家国外主机商,VPS数据中心多,之前已经介绍过多次了。现在有几款10Gbps带宽的特价KVM VPS,Ryzen 3950x处理器,NVMe硬盘,性价比高。支持Paypal、支付宝、微信付款。GreenCloudVPS:新加坡/美国/荷兰vps,1核@Ryzen 3950x/1GB内存/30GB NVMe空间/1TB流量/10Gbps...
萨主机(lisahost)新上了美国cn2 gia国际精品网络 – 精品线路,支持解锁美区Netflix所有资源,HULU, DISNEY, StartZ, HBO MAX,ESPN, Amazon Prime Video等,同时支持Tiktok。套餐原价基础上加价20元可更换23段美国原生ip。支持Tiktok。成功下单后,在线充值相应差价,提交工单更换美国原生IP。!!!注意是加价20换原生I...
Virmach 商家算是比较久且一直在低价便宜VPS方案中玩的不亦乐乎的商家,有很多同时期的商家纷纷关闭转让,也有的转型到中高端用户。而前一段时间也有分享过一次Virmach商家推出所谓的一次性便宜VPS主机,比如很低的价格半年时间,时间到服务器也就关闭。这不今天又看到商家有提供这样的产品。这次的活动产品包括圣何塞和水牛城两个机房,为期六个月,一次性付费用完将会取消,就这么特别的产品,适合短期玩玩...