优化ai内存不足

ai内存不足  时间:2021-01-19  阅读:()

YOURSUCCESS,WESUCCEED基于GPU的AI计算优化方法与案例:从训练到推理张清,浪潮AI首席架构师AI计算的发展趋势及其挑战基于GPU的AI计算优化方法:从训练到推理提纲CaseStudy:基于GPU实现AutoMLSuite计算优化Source:IDC2019AI计算的发展趋势US$M2,731.
74,478.
96,833.
89,674.
413,432.
317,468.
01,680.
62,686.
63,762.
94,639.
05,917.
67,303.
464.
0%52.
6%41.
6%38.
8%30.
0%59.
8%40.
0%23.
3%27.
6%23.
4%0.
0%10.
0%20.
0%30.
0%40.
0%50.
0%60.
0%70.
0%02,0004,0006,0008,00010,00012,00014,00016,00018,000201820192020202120222023中国人工智能总体市场规模及预测,2018-2023AISpendingGrowthRate整体投资中国人工智能服务器市场规模及预测,2018-2023AIServerGrowthRate算力投资趋势1:越来越多的场景将采用AI技术创新,未来计算投入会越来越大81.
3%73.
7%66.
6%59.
8%51.
7%47.
9%42.
7%18.
7%26.
3%33.
4%40.
2%48.
3%52.
1%57.
3%0%10%20%30%40%50%60%70%80%90%100%2017年2018年2019年2020年2021年2022年2023年TrainingInferenceSource:IDC2019AI计算的发展趋势趋势2:越来越多的AI应用将进入生产阶段,未来5年推理所需计算会迅速增加Source:FacebookAI计算的发展趋势趋势3:大数据+大模型,需要更大的计算16.
036.
087.
0153.
082.
2%84.
2%85.
1%85.
4%80.
0%81.
0%82.
0%83.
0%84.
0%85.
0%86.
0%020406080100120140160180200ResNeXt-10132*8dResNeXt-10132*16dResNeXt-10132*32dResNeXt-10132*48d单位:BFLOPS计算量准确度AI计算面临的挑战AI计算架构:芯片间异构与芯片内异构异构并行与协同计算–CPU/GPU,CUDACore/TensorCoreAI计算规模:K级节点、10K级GPU卡性能与性能的可扩展性–单模型K级以上GPU并行计算AI计算环境:不同用户、不同算法、不同数据、不同框架、不同GPU卡任务管理与资源调度–生产系统K级以上模型并发调度不同AI计算的发展趋势及其挑战基于GPU的AI计算优化方法:从训练到推理提纲CaseStudy:基于GPU实现AutoMLSuite计算优化基于GPU的AI计算优化方法AI应用特征分析GPU平台优化AI计算框架GPU优化AI应用GPU优化计算特征访存特征通信特征IO特征计算优化存储优化网络优化资源管理资源调度GPU系统管理优化数据模型划分单机优化算法不同通信机制数据模型聚合训练性能优化训练扩展优化推理吞吐优化推理延时优化AI应用特征分析CPUGPUTeye工具:从微架构层次分析AI应用与框架特征,实现性能优化MXNetTensorFlowCaffeCV应用特征分析案例CPU利用率:5%-25%CPU内存:20GB以下GPU利用率:80%-100%GPU内存:15GB左右GPU平台优化计算优化–训练:单机8-16V100GPU并行–推理:单机8-16T4GPU并行网络优化–训练:单机4-8个IB卡(100GB/s-200GB/s)实现1000卡以上并行–推理:单机万兆网络通信优化–训练:NVSwitch+RDMA–推理:PCIE存储优化:高性能并行存储+SSD/NVMe两级存储547.
23889.
64456.
811076.
551761.
27907.
392065.
93399.
91805.
034124.
376813.
023581.
968195.
8313473.
36976.
06050001000015000resnet101resnet50vgg16V100-SMX332GBbs=256(Images/s)(InspurAGX-5)1GPU2GPUs4GPUs8GPUs16GPUs6134077903102741020000400006000080000100000120000A厂商8*PCIeGPUServerB厂商8*NVLinkGPUServerInspur5488M5NLPTransformerBenchmark(每秒钟训练单词数)GPU系统管理优化数量:120GPU分配:共享用途:训练用户:ALLSSD缓存HAP100_share数量:96GPU分配:独享用途:训练用户:行为分析SSD缓存P100_exclusive数量:64GPU分配:共享用途:训练用户:ALLSSD缓存V100_share数量:120GPU分配:独享用途:训练用户:图像识别SSD缓存V100_exclusive用户数据:代码,模型云存储数量:32GPU分配:共享用途:开发调试,镜像定制用户:ALLSSD缓存P40_debug利用AIStation实现统一资源管理和调度–大规模AI生产平台:800+GPU卡–GPU利用率40%提升到80%–作业吞吐提升3倍训练数据下载AI计算框架GPU优化并行机制:数据并行/模型并行/数据+模型并行/Pipline并行GPU计算充分发挥:FP16与FP32混合精度计算,保持训练稳定下的大batchsize训练计算梯度同步通信机制:异步或半异步,ring-allreduce,2D-Torusall-reduce通信优化:合并小数据,提升通信效率;计算与通信异步,实现隐藏通信并行IO,采用多线程的数据读取机制数据预取、数据IO与计算异步并行IOAI计算框架GPU优化案例开源地址:https://github.
com/Caffe-MPI/Caffe-MPI.
github.
ioNo.
ofGPUsimages/sNo.
ofGPUsInspurCaffe-MPIInspurTensorFlow-Opt实现512块GPU24分钟完成imagenet数据集训练基于HPC架构,实现数据并行,并行IO读取数据基于NCCL,并采用环形通信方式计算与通信异步,实现计算与通信的异步隐藏实现主从模式到对等模式通信合并梯度,提升通信效率采用fp16通信,减少通信量AI应用面临的挑战分析及优化思路数据跟不上计算,GPU利用率低模型和数据大,GPU显存溢出,如何优化混合精度如何优化,TensorCore如何高效利用如何快速实现多机多GPU卡并行计算Pref/NVProfTensorflow-timelineHorovod-timelineTeyeGPU-driver/CUDA/cuDNN/NCCL计算框架版本匹配CPU/GPU端、Bios设置CPU与GPU、GPU与GPU、节点间通信拓扑应用瓶颈分析GPU系统级优化GPU代码级优化训练的性能训练的扩展效率推理的吞吐量推理的延时AI训练应用GPU优化方法数据IO优化数据格式、数据存储、数据处理、数据流水线混合精度优化使用CUDACore&TensorCore发挥GPU使用效率GPU并行优化使用ring(tree)-allreduce高效并行通信方式数据IO优化数据并行读取数据并行批量预处理数据与计算异步并行数据IO优化案例1某图像识别CNN模型(在P100平台训练)实测单卡计算性能只有2.
3TFlops,远低于P100的理论单精度浮点性能;分析GPU的利用率,发现GPU只有60%左右的时间在参与计算,剩余40%的时间处于空闲状态;在毫秒尺度观察GPU的使用情况,发现有周期性的0.
06s左右的GPU空闲时间数据IO优化案例1效果通过优化图片预处理方式,可以有效的提高GPU资源的利用率,优化后GPU的使用率提升到90%左右.

Webhosting24:€15/年-AMD Ryzen/512MB/10GB/2TB/纽约&日本&新加坡等机房

Webhosting24是一家始于2001年的意大利商家,提供的产品包括虚拟主机、VPS、独立服务器等,可选数机房包括美国洛杉矶、迈阿密、纽约、德国慕尼黑、日本、新加坡、澳大利亚悉尼等。商家VPS主机采用AMD Ryzen 9 5950X CPU,NVMe磁盘,基于KVM架构,德国机房不限制流量,网站采用欧元计费,最低年付15欧元起。这里以美国机房为例,分享几款套餐配置信息。CPU:1core内存...

georgedatacenter39美元/月$20/年/洛杉矶独立服务器美国VPS/可选洛杉矶/芝加哥/纽约/达拉斯机房/

georgedatacenter这次其实是两个促销,一是促销一款特价洛杉矶E3-1220 V5独服,性价比其实最高;另外还促销三款特价vps,georgedatacenter是一家成立于2019年的美国VPS商家,主营美国洛杉矶、芝加哥、达拉斯、新泽西、西雅图机房的VPS、邮件服务器和托管独立服务器业务。georgedatacenter的VPS采用KVM和VMware虚拟化,可以选择windows...

PacificRack:洛杉矶KVM月付1.5美元起,1G内存套餐年付12美元起

PacificRack在本月发布了几款特价产品,其中最低款支持月付仅1.5美元,基于KVM架构,洛杉矶机房,PR-M系列。PacificRack简称PR,QN机房旗下站点,主要提供低价VPS主机产品,基于KVM架构,数据中心为自营洛杉矶机房,现在只有PR-M一个系列,分为了2个类别:常规(Elastic Compute Service)和多IP产品(Multi IP Server)。下面列出几款秒...

ai内存不足为你推荐
域名注册查询怎么查看域名是否注册com域名注册.com的域名注册需要什么证件和资料吗?空间域名空间域名什么意思免费域名空间哪个免费空间的域名最好成都虚拟空间成都有没有能玩ps主机游戏的网咖?免费网站空间那里有免费网站空间国内最好的虚拟主机国内安全性最好的虚拟主机空间商有哪些?深圳虚拟主机深圳有哪些比较有名气的网络推广公司中文域名中文域名的概念?域名劫持发现域名被劫持怎么办
liquidweb directspace qq数据库下载 anylink linux空间 建立邮箱 raid10 服务器维护 我的世界服务器ip 东莞主机托管 百度云空间 锐速 蓝队云 服务器是什么 硬防 ddos攻击软件 什么是云主机 竞彩论坛空间 电脑主机报价 华为4核手机 更多