优化ai内存不足

ai内存不足  时间:2021-01-19  阅读:()

YOURSUCCESS,WESUCCEED基于GPU的AI计算优化方法与案例:从训练到推理张清,浪潮AI首席架构师AI计算的发展趋势及其挑战基于GPU的AI计算优化方法:从训练到推理提纲CaseStudy:基于GPU实现AutoMLSuite计算优化Source:IDC2019AI计算的发展趋势US$M2,731.
74,478.
96,833.
89,674.
413,432.
317,468.
01,680.
62,686.
63,762.
94,639.
05,917.
67,303.
464.
0%52.
6%41.
6%38.
8%30.
0%59.
8%40.
0%23.
3%27.
6%23.
4%0.
0%10.
0%20.
0%30.
0%40.
0%50.
0%60.
0%70.
0%02,0004,0006,0008,00010,00012,00014,00016,00018,000201820192020202120222023中国人工智能总体市场规模及预测,2018-2023AISpendingGrowthRate整体投资中国人工智能服务器市场规模及预测,2018-2023AIServerGrowthRate算力投资趋势1:越来越多的场景将采用AI技术创新,未来计算投入会越来越大81.
3%73.
7%66.
6%59.
8%51.
7%47.
9%42.
7%18.
7%26.
3%33.
4%40.
2%48.
3%52.
1%57.
3%0%10%20%30%40%50%60%70%80%90%100%2017年2018年2019年2020年2021年2022年2023年TrainingInferenceSource:IDC2019AI计算的发展趋势趋势2:越来越多的AI应用将进入生产阶段,未来5年推理所需计算会迅速增加Source:FacebookAI计算的发展趋势趋势3:大数据+大模型,需要更大的计算16.
036.
087.
0153.
082.
2%84.
2%85.
1%85.
4%80.
0%81.
0%82.
0%83.
0%84.
0%85.
0%86.
0%020406080100120140160180200ResNeXt-10132*8dResNeXt-10132*16dResNeXt-10132*32dResNeXt-10132*48d单位:BFLOPS计算量准确度AI计算面临的挑战AI计算架构:芯片间异构与芯片内异构异构并行与协同计算–CPU/GPU,CUDACore/TensorCoreAI计算规模:K级节点、10K级GPU卡性能与性能的可扩展性–单模型K级以上GPU并行计算AI计算环境:不同用户、不同算法、不同数据、不同框架、不同GPU卡任务管理与资源调度–生产系统K级以上模型并发调度不同AI计算的发展趋势及其挑战基于GPU的AI计算优化方法:从训练到推理提纲CaseStudy:基于GPU实现AutoMLSuite计算优化基于GPU的AI计算优化方法AI应用特征分析GPU平台优化AI计算框架GPU优化AI应用GPU优化计算特征访存特征通信特征IO特征计算优化存储优化网络优化资源管理资源调度GPU系统管理优化数据模型划分单机优化算法不同通信机制数据模型聚合训练性能优化训练扩展优化推理吞吐优化推理延时优化AI应用特征分析CPUGPUTeye工具:从微架构层次分析AI应用与框架特征,实现性能优化MXNetTensorFlowCaffeCV应用特征分析案例CPU利用率:5%-25%CPU内存:20GB以下GPU利用率:80%-100%GPU内存:15GB左右GPU平台优化计算优化–训练:单机8-16V100GPU并行–推理:单机8-16T4GPU并行网络优化–训练:单机4-8个IB卡(100GB/s-200GB/s)实现1000卡以上并行–推理:单机万兆网络通信优化–训练:NVSwitch+RDMA–推理:PCIE存储优化:高性能并行存储+SSD/NVMe两级存储547.
23889.
64456.
811076.
551761.
27907.
392065.
93399.
91805.
034124.
376813.
023581.
968195.
8313473.
36976.
06050001000015000resnet101resnet50vgg16V100-SMX332GBbs=256(Images/s)(InspurAGX-5)1GPU2GPUs4GPUs8GPUs16GPUs6134077903102741020000400006000080000100000120000A厂商8*PCIeGPUServerB厂商8*NVLinkGPUServerInspur5488M5NLPTransformerBenchmark(每秒钟训练单词数)GPU系统管理优化数量:120GPU分配:共享用途:训练用户:ALLSSD缓存HAP100_share数量:96GPU分配:独享用途:训练用户:行为分析SSD缓存P100_exclusive数量:64GPU分配:共享用途:训练用户:ALLSSD缓存V100_share数量:120GPU分配:独享用途:训练用户:图像识别SSD缓存V100_exclusive用户数据:代码,模型云存储数量:32GPU分配:共享用途:开发调试,镜像定制用户:ALLSSD缓存P40_debug利用AIStation实现统一资源管理和调度–大规模AI生产平台:800+GPU卡–GPU利用率40%提升到80%–作业吞吐提升3倍训练数据下载AI计算框架GPU优化并行机制:数据并行/模型并行/数据+模型并行/Pipline并行GPU计算充分发挥:FP16与FP32混合精度计算,保持训练稳定下的大batchsize训练计算梯度同步通信机制:异步或半异步,ring-allreduce,2D-Torusall-reduce通信优化:合并小数据,提升通信效率;计算与通信异步,实现隐藏通信并行IO,采用多线程的数据读取机制数据预取、数据IO与计算异步并行IOAI计算框架GPU优化案例开源地址:https://github.
com/Caffe-MPI/Caffe-MPI.
github.
ioNo.
ofGPUsimages/sNo.
ofGPUsInspurCaffe-MPIInspurTensorFlow-Opt实现512块GPU24分钟完成imagenet数据集训练基于HPC架构,实现数据并行,并行IO读取数据基于NCCL,并采用环形通信方式计算与通信异步,实现计算与通信的异步隐藏实现主从模式到对等模式通信合并梯度,提升通信效率采用fp16通信,减少通信量AI应用面临的挑战分析及优化思路数据跟不上计算,GPU利用率低模型和数据大,GPU显存溢出,如何优化混合精度如何优化,TensorCore如何高效利用如何快速实现多机多GPU卡并行计算Pref/NVProfTensorflow-timelineHorovod-timelineTeyeGPU-driver/CUDA/cuDNN/NCCL计算框架版本匹配CPU/GPU端、Bios设置CPU与GPU、GPU与GPU、节点间通信拓扑应用瓶颈分析GPU系统级优化GPU代码级优化训练的性能训练的扩展效率推理的吞吐量推理的延时AI训练应用GPU优化方法数据IO优化数据格式、数据存储、数据处理、数据流水线混合精度优化使用CUDACore&TensorCore发挥GPU使用效率GPU并行优化使用ring(tree)-allreduce高效并行通信方式数据IO优化数据并行读取数据并行批量预处理数据与计算异步并行数据IO优化案例1某图像识别CNN模型(在P100平台训练)实测单卡计算性能只有2.
3TFlops,远低于P100的理论单精度浮点性能;分析GPU的利用率,发现GPU只有60%左右的时间在参与计算,剩余40%的时间处于空闲状态;在毫秒尺度观察GPU的使用情况,发现有周期性的0.
06s左右的GPU空闲时间数据IO优化案例1效果通过优化图片预处理方式,可以有效的提高GPU资源的利用率,优化后GPU的使用率提升到90%左右.

搬瓦工VPS:高端线路,助力企业运营,10Gbps美国 cn2 gia,1Gbps香港cn2 gia,10Gbps日本软银

搬瓦工vps(bandwagonhost)现在面向中国大陆有3条顶级线路:美国 cn2 gia,香港 cn2 gia,日本软银(softbank)。详细带宽是:美国cn2 gia、日本软银,都是2.5Gbps~10Gbps带宽,香港 cn2 gia为1Gbps带宽,搬瓦工是目前为止,全球所有提供这三种带宽的VPS(云服务器)商家里面带宽最大的,成本最高的,没有第二家了! 官方网站:https...

白丝云-美国圣何塞4837/德国4837大带宽/美西9929,26元/月起

官方网站:点击访问白丝云官网活动方案:一、KVM虚拟化套餐A1核心 512MB内存 10G SSD硬盘 800G流量 2560Mbps带宽159.99一年 26一月套餐B1核心 512MB内存 10G SSD硬盘 2000G流量 2560Mbps带宽299.99一年 52一月套餐...

数脉科技8月促销,新客减400港币,BGP、CN2+BGP、阿里云线路低至350元

数脉科技(shuhost)8月促销:香港独立服务器,自营BGP、CN2+BGP、阿里云线路,新客立减400港币/月,老用户按照优惠码减免!香港服务器带宽可选10Mbps、30Mbps、50Mbps、100Mbps带宽,支持中文本Windows、Linux等系统。官方网站:https://www.shuhost.com* 更大带宽可在选购时选择同样享受优惠。* 目前仅提供HKBGP、阿里云产品,香港...

ai内存不足为你推荐
域名空间空间域名是什么意思国外域名注册国外注册域名种类这么多,我们要怎么选择?ip代理地址ip代理有什么用?有图片..台湾vps香港vps和台湾vps哪个好用域名申请申请域名需要哪些流程具体点 谢谢免费网站空间那里有免费网站空间网站空间价格普通的网站空间要多少钱一年虚拟主机试用30天虚拟主机返佣是怎么回事?四川虚拟主机哪些网站适合租用独立服务器?虚拟主机提供商哪个虚拟主机的服务商比较好?
虚拟空间免费试用 国际域名抢注 3322免费域名 七牛优惠码 http500内部服务器错误 好看的桌面背景图片 tightvnc 青果网 免费ddos防火墙 北京主机 电子邮件服务器 169邮箱 共享主机 phpmyadmin配置 流媒体加速 双12 海外空间 ledlamp 群英网络 空间服务器 更多