白皮书英特尔人工智能英特尔至强可扩展处理器OpenVINO工具套件人工智能驱动型医疗成像英特尔和飞利浦技术赋能在搭载英特尔至强可扩展处理器且使用OpenVINO工具套件优化的服务器上,飞利浦演示了医疗工作负载人工智能推理性能的重大突破.
骨龄预测模型每秒图像数增长188倍肺部分割模型每秒图像数增长38倍英特尔携手飞利浦证明无需加速器,搭载英特尔至强可扩展处理器的服务器可用于对患者的X射线和计算机断层扫描(CT)高效实施深度学习推理.
飞利浦的最终目标是向其最终客户提供人工智能(AI)技术,同时避免大幅增加客户的系统成本和改动现场部署的硬件.
两家公司测试了深度学习推理模型的两个医疗用例:一个针对骨X射线,用于骨龄预测建模;一个针对肺部CT扫描,用于肺部图像分割.
通过使用OpenVINO工具套件和其他优化,以及英特尔至强可扩展处理器的高效多核处理功能,飞利浦将骨龄预测模型的速度提升了188.
1倍,将肺部分割模型的速度提升了37.
7倍(相比于基准测量结果).
(参见附录A了解配置详情.
)人工智能增强的医疗成像对象检测和分割等人工智能技术具有独特优势,可帮助放射科医生更快速、更准确地发现问题,这有助于改善病例的优先级划分,加快患者的恢复速度,并降低医院的成本.
然而由于成像信息通常具有高分辨率和多维的特征,人工智能在医疗成像领域的应用经常面临挑战.
为应对内存限制进行的较低分辨率的向下采样会导致误诊,除非生物标志得到了保存.
人工智能模型在经过训练达到可接受的准确度后,需要整合到成像模式架构.
放射医学图像通常较大,这需要得到高效处理以避免减缓放射科医生的工作流或影响模型的准确度.
选择正确的人工智能硬件此前加速深度学习只有一种有效的硬件解决方案,即图形处理单元(GPU).
在设计上GPU支持图像处理,但是它也存在一些固有的内存限制,数据科学家在构建一些模型时需要避开.
现在数据科学家有了新的选择.
2017年推出的英特尔至强可扩展处理器可加速更复杂的混合工作负载,包括医疗成像领域常见的较大的内存密集型模型.
对于许多人工智能工作负载,英特尔和飞利浦发现英特尔至强可扩展处理器相比基于GPU的系统可更好地满足数据科学家的需求.
这有助于飞利浦为其客户提供成本更低的人工智能解决方案.
目录人工智能增强的医疗成像.
1选择正确的人工智能硬件.
1测试结果:对两个深度学习模型进行推理优化.
2用例1:骨龄预测模型.
2用例2:肺部分割模型.
2测试程序.
2基准性能测量.
2对人工智能模型进行部署优化.
21.
使用OpenVINO工具套件.
.
.
.
.
.
.
.
22.
对工作负载实施并行化:运行OpenVINO工具套件的多个实例.
33.
其他优化.
4评估结果.
4了解更多信息.
5附录A.
62测试结果:对两个深度学习模型进行推理优化飞利浦正在开发复杂的深度学习模型,以对医疗图像上的相关区域进行分割,以及实施医疗图像分类.
本案例研究描述了飞利浦开发的两个深度学习模型的部署优化用例.
用例1:骨龄预测模型第一个模型采集了人骨(如手腕)X射线图像的信息,以及患者的性别信息.
然后,该推理模型会通过骨头预测患者年龄,以帮助确定骨质疏松的病因.
例如,如果某低龄患者的预测年龄小于实际年龄,该患者可能存在营养不良.
飞利浦的这个训练后模型基于Xception*架构.
用例2:肺部分割模型第二个推理模型从患者的胸部CT扫描图中识别肺部位置,然后在该器官周围创建一个分割掩膜.
检测结果可用于测量肺部的大小和容积,或加载器官的特定疾病筛检模型,以检测肺结核或气胸等病症.
此外,通过隔离图像中的肺部,放射科医生可获得该器官更清晰的解剖视图,避免其他结构的干扰.
飞利浦的这个训练后模型基于广受欢迎的U-Net*拓扑结构.
测试程序对于这两个推理模型,工程师首先在没有优化的情况下进行了基准测量.
然后实施各种优化,如下所述.
所有测试在搭载英特尔至强铂金8168处理器的双路系统上实施.
完整的配置详细信息请见附录A.
基准性能测量下面列出了使用基于Keras*和TensorFlow*的推理实施的基准测量:骨龄预测模型:每秒1.
42幅图像肺部分割模型:每秒1.
9幅图像对人工智能模型进行部署优化以下优化旨在最大限度提升推理模型的性能.
1.
使用OpenVINO工具套件两个用例的推理模型都使用英特尔深度学习部署工具套件(DLDT)进行了优化,后者是OpenVINO工具套件的一部分.
图1显示了从深度学习模型训练到模型优化和推理执行的推理工作流.
英特尔深度学习部署工具套件包含两个主要组件:模型优化器(ModelOptimizer)和推理引擎(InferenceEngine).
在Keras和TensorFlow中训练的飞利浦*模型先通过模型优化器运行.
模型优化器对神经网络图表实施优化,如节点合并(nodemerging)、批归一化消除(batchnormalizationelimination)和常量折叠(constantfolding)等.
输出结果包括一个中间表示(IR).
xml文件和一个包含模型权重的.
bin文件.
模型优化是一次性的离线流程.
接下来连同指定目标硬件后端—可以是任何英特尔至强处理器、英特尔酷睿处理器、英特尔凌动处理器、英特尔处理器显卡、英特尔现场可编程门阵列(FPGA)或英特尔图例IR=中间表示BN=批归一化英特尔MKL-DNN=面向深度神经网络的英特尔数学核心函数库clDNN=面向深度神经网络的计算库英特尔DLA=英特尔深度学习加速套件FPGA=现场可编程门阵列图1.
英特尔深度学习部署工具套件(属于OpenVINO工具套件的一部分)可优化训练后模型,实施推理分析,并为应用提供用于将数据发送至推理引擎的API英特尔深度学习部署工具套件训练训练深度学习(DL)模型推理推理引擎一种轻量型API,用于在应用中实施推理优化/异构推理引擎支持多个设备用于异构流设备级优化扩展推理引擎支持可扩展性,支持自定义内核用于各种设备准备/优化模型优化器转换优化节点合并BN消除常量折叠横向融合进行推理准备(独立于设备的通用优化)Caffe*TensorFlow*ApacheMXNet*ONNXModelZoo*Kaldi*.
prototxt.
caffemodel.
xml.
binIR运行模型优化器用户应用英特尔MKL-DNNCPU:英特尔至强、英特尔酷睿、英特尔凌动英特尔MovidiusMyriad2/x英特尔处理器显卡英特尔FPGAcIDNN英特尔DLA可扩展性C++可扩展性OpenCL*可扩展性OpenCL*推理引擎英特尔MovidiusMyriad3檥澁梁3TIR:-23ⅴ傷惥≯3TIR:-23ⅴ图2.
利用OpenVino工具套件1的优化后,推理性能显著提高图3.
面向多路推理流的双路英特尔至强平台的子插槽分区MovidiusMyriad视觉处理单元(VPU)—的信息,IR文件以编程方式加载到推理引擎中.
英特尔为每种实施高效深度学习内核的硬件类型都提供了库,如卷积、修正线性单位(RELU)等.
对于这个飞利浦用例,目标后端是英特尔至强处理器.
因此,与CPU相关的库(面向深度神经网络的英特尔数学核心函数库[英特尔MKL-DNN])将被加载.
推理引擎使用C++和Python*提供轻量型API,这些API可被飞利浦应用自由访问.
该应用调用API并输入图像数据.
然后推理引擎执行推理并提供结果.
如图2所示,利用OpenVINO工具套件的优化后,基准结果被显著改善.
2.
对工作负载实施并行化:运行OpenVINO工具套件的多个实例通过在每个处理器插槽上运行OpenVINO工具套件的多个实例,而不是只运行一个实例,可以获得更高的吞吐量(每秒图像数).
每个实例都绑定到一个或多个内核,这有助于提高内核利用率.
对于骨龄预测模型,英特尔和飞利浦在运行24个并发OpenVINO工具套件实例并将每个实例(批次大小=1)绑定到两个内核时,实现了最大吞吐量.
如图4所示,这一做法将吞吐量从每秒74.
8幅图像提高到每秒267.
1幅图像,相比在所有48个内核上运行单个工具套件实例将速度提高了3.
6倍.
此外,此优化结果相比基准性能提高了188.
1倍.
多个框架实例每个框架实例锁定至一个单独的NUMA域每个实例处理一路单独的推理流勮n凰n塉塉巬勮n嶂交怗恐偑勮n94-勮n凰n4檥澁梁3TIR:-23ⅴ3TIR:-23ⅴ傷惥≯3TIR:-23ⅴ3TIR:-23ⅴ图4.
并行执行优化进一步提高了推理执行性能1图5.
其他优化帮助提高了肺部分割模型1的推理执行性能对于肺部分割模型,英特尔和飞利浦在运行12个实例并将每个实例(批次大小=1)绑定到四个内核时,实现了最大吞吐量.
这一做法将吞吐量从每秒14.
2幅图像提高到每秒37.
0幅图像,相比在所有48个内核上运行单个工具套件实例将速度提高了2.
6倍.
优化性能相比基准推理性能提高了19.
5倍.
3.
其他优化面向重采样的Winograd*卷积和优化应用于肺部分割模型(U-NeT架构).
基于一般矩阵乘法(GEMM)的传统卷积可快速支持大型滤波器,但是许多先进的卷积神经网络使用小型的3x3滤波器.
测试中使用的飞利浦拓扑结构具有几个3x3卷积,可以使用Winograd卷积更高效地计算.
鉴于这一变化,英特尔和飞利浦通过将实例数量增加到24个,将每个实例绑定到两个内核,获得了最佳性能.
这些优化不适用于骨龄预测模型.
使用这些技术,肺部分割推理性能达到每秒71.
7幅图像的最大吞吐量,相比基准推理性能提高了37.
7倍(见图5).
评估结果两个用例的结果都超出了预期.
骨龄预测模型最初的基准测试结果为每秒1.
42幅图像,优化后的最终测试速度为每秒267.
1幅图像,提高了188.
1倍.
经过优化后,肺部分割模型从每秒1.
9幅图像的基准提高到每秒71.
7幅图像,远超每秒15幅图像的目标.
对基于CPU的系统能取得如此出色的性能,飞利浦HealthSuiteInsights数据科学与人工智能首席架构师兼研究员VijayanandaJ.
倍感振奋.
"英特尔至强可扩展处理器似乎是这种人工智能傷惥≯3TIR:-23ⅴ3TIR:-23ⅴⅳ;MRSKVEH⒉5工作负载的正确解决方案.
我们的客户可以最大限度地利用现有硬件,而不必使其基础设施复杂化,同时仍然致力于以卓越的速度实现高质量的输出分辨率.
"在基于CPU的经济型系统上实施医疗人工智能推理医疗领域的推理应用通常以小批次或流方式处理工作负载,不会出现大批次情况.
CPU非常适合这类小批次或流应用.
具体而言,英特尔至强可扩展处理器为人工智能模型提供了一个价格合理且灵活的平台,搭配OpenVINO工具套件等工具可发挥更大优势,后者可帮助部署经过预先训练的模型以提高效率,同时不会降低准确性.
本研究中的成像用例表明,医疗机构无需进行大笔的硬件投资便可实施人工智能工作负载.
像飞利浦这样的公司可以通过在线商店提供可下载的人工智能算法,以此来增加收入,并在日益激烈的竞争中获得优势.
OpenVino工具套件加速深度学习部署本案例研究使用了英特尔深度学习部署工具套件,它只是OpenVINO工具套件中内置的几种工具之一.
该工具套件基于卷积神经网络(CNN),可:在边缘支持基于CNN的深度学习推理支持使用通用API在各种计算机视觉加速器(CPU、GPU、英特尔Movidius神经计算棒和FPGA)上异构执行通过函数库和预优化内核缩短上市时间包括面向OpenCV*和OpenVX*的优化调用更多信息请访问OpenVINO网站.
了解更多信息了解飞利浦正如何利用人工智能重塑医疗行业:usa.
philips.
com/healthcare/innovation/artificial-intelligence了解可供开发人员使用的各种人工智能工具,并探索公司使用英特尔技术实施人工智能的其他方式:ai.
intel.
com了解有关英特尔至强可扩展处理器的更多信息:https://www.
intel.
cn/content/www/cn/zh/processors/xeon/scalable/xeon-scalable-platform.
html61结果使用与附录A中相同的系统配置得出.
基准测量未使用优化.
优化后的数据使用相同的系统配置,及提到的优化.
性能结果基于2018年8月的测试,可能不反映所有公开可用的安全更新.
请参阅配置披露了解详细信息.
没有产品能保证绝对安全.
在性能测试过程中使用的软件及工作负载可能仅针对英特尔微处理器进行了性能优化.
SYSmark*和MobileMark*等性能测试使用特定的计算机系统、组件、软件、操作和功能进行测量.
上述任何要素的变动都有可能导致测试结果的变化.
您应当参考其它信息和性能测试以帮助您完整评估您的采购决策,包括该产品与其它产品一同使用时的性能.
更多信息敬请登陆:http://www.
intel.
cn/content/www/cn/zh/benchmarks/benchmark.
html优化通知—英特尔的编译器针对非英特尔微处理器的优化程度可能与英特尔微处理器相同(或不同).
这些优化包括SSE2、SSE3和SSSE3指令集以及其它优化.
对于在非英特尔制造的微处理器上进行的优化,英特尔不对相应的可用性、功能或有效性提供担保.
此产品中依赖于处理器的优化仅适用于英特尔微处理器.
某些不是专门面向英特尔微体系结构的优化保留专供英特尔微处理器使用.
请参阅相应的产品用户和参考指南,以了解关于本通知涉及的特定指令集的更多信息.
通知版本#20110804描述的成本降低方案旨在作为举例,说明指定的英特尔架构产品在特定环境和配置下,可能如何影响未来的成本和提供成本节省.
环境各不相同.
英特尔不保证任何成本和成本的节约.
英特尔不控制或审计本文提及的第三方基准测试数据或网址.
您应访问引用的网站,确认参考资料准确无误.
英特尔技术的特性和优势取决于系统配置,并需要借助兼容的硬件、软件或服务来实现.
实际性能会因您使用的具体系统配置的不同而有所差异.
没有计算机系统是绝对安全的.
请联系您的系统制造商或零售商,或访问:http://www.
intel.
cn/content/www/cn/zh/homepage.
html英特尔未做出任何明示和默示的保证,包括但不限于关于适销性、适合特定目的及不侵权的默示保证,及履约过程、交易过程或贸易惯例引起的任何保证.
飞利浦不承担任何明示和默示保证,包括但不限于对适销性、不侵权性和适用于特定用途的的默示保证.
此外,飞利浦不对任何直接、间接、特殊、意外、惩罚性或后果性损害承担责任.
近日CloudCone发布了七月的特价便宜优惠VPS云服务器产品,KVM虚拟架构,性价比最高的为2核心1.5G内存1Gbps带宽5TB月流量,2.89美元/月,稳定性还是非常不错的,有需要国外便宜VPS云服务器的朋友可以关注一下。CloudCone怎么样?CloudCone服务器好不好?CloudCone值不值得购买?CloudCone是一家成立于2017年的美国服务器提供商,国外实力大厂,自己开...
整理一下CloudCone商家之前推送的闪购VPS云服务器产品,数量有限,活动推出可能很快机器就售罄了,有需要美国便宜VPS云服务器的朋友可以关注一下。CloudCone怎么样?CloudCone服务器好不好?CloudCone值不值得购买?CloudCone是一家成立于2017年的美国服务器提供商,国外实力大厂,自己开发的主机系统面板,CloudCone主要销售美国洛杉矶云服务器产品,优势特点是...
digital-vm,这家注册在罗马尼亚的公司在国内应该有不少人比较熟悉了,主要提供VPS业务,最高10Gbps带宽,还不限制流量,而且还有日本、新加坡、美国洛杉矶、英国、西班牙、荷兰、挪威、丹麦这些可选数据中心。2020年,digital-vm新增了“独立服务器”业务,暂时只限“日本”、“新加坡”机房,最高也是支持10Gbps带宽... 官方网站:https://digital-vm.co...