学习深度盘点国内四大机器学习开源平台:PaddlePaddle,Angel

paddlepaddle  时间:2021-02-24  阅读:()

深度盘点国内四大机器学习开源平台 PaddlePaddle,Ange lhttp://w ww.yunyoub ar.c o m邮件群发

2015-2016的机器学习平台开源大潮中美国是当之无愧的引领者无论是谷歌、亚马逊、微软、 IBM等互联网巨头还是美国各大科研院所为开源世界贡献了品类繁多的机器学习工具。这其中不乏华人的身影 比如开发出Caffe的贾杨清。

但在大陆这边无论是BAT还是学界在开源机器学习项目上始终慢了一拍令人十分遗憾。这与我国世界最大AI研究者社区、 占据AI科研领域半壁江山的江湖地位*颇为不符。让人欣喜的是 2016下半年百度和腾讯先后发布了它们的开源平台战略。虽然姗姗来迟但作为下半场入场的选手它们的开源平台各自有什么意义本文中作为机器学习开源项目盘点的第三弹雷锋网将与你一起看看包括百度腾讯平台在内的国内四大开源项目。

*注据创新工场人工智能工程院王咏刚副院长统计我国 AI发文数与引用文章数居世界第一 占世界总数一半以上。

1.百度希望获得开发者青睐的“PaddleP addle”

2016年9月 1 日的百度世界大会上百度首席科学家吴恩达宣布该公司开发的异构分布式深度学习系统PaddlePadd le将对外开放。这标志着国内第一个机器学习开源平台的诞生。

其实 P addleP add le的开发与应用已经有段时日它源自于2013年百度深度学习实验室创建的“P addle”。当时的深度学习框架大多只支持单GPU运算对于百度这样需要对大规模数据进行处理的机构这显然远远不够极大拖慢了研究速度。百度急需一种能够支持多GPU、多台机器并行计算的深度学习平台。而这就导致了P addle的诞生。 自 2013年以来 P addle一直被百度内部的研发工程师们所使用。

而P addle的核心创始人 当年的百度深度学习实验室研究员徐伟现在已是PaddlePadd le项目的负责人。

徐伟

对了从“P addle”到“PaddleP add le”的命名还有一个小插曲 P addle是“Paralle lDistributed Deep Le arning”的缩写意为“并行分布式深度学习”。而去年9月发布时吴恩达认为“PaddlePaddle” 英语意为划船——“让我们荡起双~昂~桨小船儿推开波浪。 。 。 ”其实更郎朗上口、更好记于是就有了这么个可爱的名字。

那么 PaddlePadd le有什么特点

支持多种深度学习模型DNN深度神经网络、 CNN卷积神经网络、 RNN递归神经网络 以及NTM这样的复杂记忆模型。

基于Spark与它的整合程度很高。

支持P ython和C++语言。

支持分布式计算。作为它的设计初衷这使得PaddleP addle能在多GPU多台机器上进行并行计算。

相比现有深度学习框架 PaddlePadd le对开发者来说有什么优势

首先是易用性。

相比偏底层的谷歌Tens orFlowPaddlePaddle的特点非常明显它能让开发者聚焦于构建深度学习模型的高层部分。项目负责人徐伟介绍

“在PaddlePaddle的帮助下深度学习模型的设计如同编写伪代码一样容易设计师只需

关注模型的高层结构而无需担心任何琐碎的底层问题。未来程序员可以快速应用深度学习模型来解决医疗、金融等实际问题让人工智能发挥出最大作用。 ”

抛开底层编码使得Tens orFlow里需要数行代码来实现的功能可能在PaddlePaddle里只需要一两行。徐伟表示用PaddlePaddle编写的机器翻译程序只需要“其他”深度学习工具四分之一的代码。这显然考虑到该领域广大的初入门新手为他们降低开发机器学习模型的门槛。这带来的直接好处是开发者使用PaddlePaddle更容易上手。

其次是更快的速度。

如上所说 PaddlePadd le上的代码更简洁用它来开发模型显然能为开发者省去一些时间。这使得PaddlePaddle很适合于工业应用尤其是需要快速开发的场景。

另外 自诞生之日起它就专注于充分利用GP U集群的性能为分布式环境的并行计算进行加速。这使得在P ebblePebble上用大规模数据进行AI训练和推理可能要比Tens orFlow这样的平台要快很多。

说到这里业内对PaddlePaddle怎么看

首先不得不提的是Caffe许多资深开发者认为PaddlePaddle的设计理念与Caffe十分相似怀疑是百度对标Caffe开发出的替代品。这有点类似于谷歌TensorFlow与Thano之间的替代关系。

知乎上 Caffe的创始人贾杨清对PaddleP addle评价道

"很高质量的GP U代码"

"非常好的RNN设计"

"设计很干净没有太多的abstraction这一点比Tens orFlow好很多"

"设计思路有点老"

"整体的设计感觉和Caffe ‘心有灵犀’  同时解决了Caffe早期设计当中的一些问题”

最后贾表示PaddlePadd le的整体架构功底很深是下了功夫的。这方面倒是赢得了开发者的普遍认同。

总结起来业内对PaddlePaddle的总体评价是“设计干净、简洁稳定速度较快显存占用较小”。

但是具有这些优点不保证PaddlePadd le就一定能在群雄割据的机器学习开源世界占有一席之地。有国外开发者表示 PaddlePaddle的最大优点是快。但是比Tens orFlow快的开源框架其实有很多 比如MXNetNervana System的Neon 以及三星的Veles它们也都对分布式计算都很好的支持但都不如 Tens orFlow普及程度高。这其中有Tens orFlow庞大用户基础的原因也得益于谷歌自家AI系统的加持。

百度的AI产品能够对普及P addleP addle产生多大的帮助尚需观察。雷锋网获知它已经应用于百度旗下的多项业务。百度表示

“PaddlePadd le已在百度30多项主要产品和服务之中发挥着巨大的作用如外卖的预估出餐时间、预判网盘故障时间点、精准推荐用户所需信息、海量图像识别分类、字符识别(OCR)、病毒和垃圾信息检测、机器翻译和自动驾驶等领域。 ”

最后我们来看看对于自家推出的PaddleP addle李彦宏怎么说

“经过了五六年的积累 Padd lePadd le实际上是百度深度学习算法的引擎把源代码开放出来让同学们、让社会上所有的年轻人能够学习在它的基础上进行改进我相信他们会

发挥出来他们的创造力去做到很多我们连想都没有想过的东西。 ”

2.腾讯面向企业的“Angel”

2016鹅厂在AI领域展开一系列大动作

9月成立AI实验室。

11 月获得Sort Benchmark大赛的冠军

12月 18 日在腾讯大数据技术峰会暨KDD China技术峰会上对外公开“Angel”的存在并透漏它就是拿下Sort Benchmark冠军背后的天使。

即将在2017年一季度开放Angel源代码。

Ange l将成为PaddlePaddle之后、 BAT发布的第二个重磅开源平台。那么它到底是什么

简单来说Angel是面向机器学习的分布式计算框架 由鹅厂与香港科技大学、北京大学联合研发。腾讯表示它为企业级大规模机器学习任务提供解决方案可与Caffe、Tens orFlow和Torch等业界主流深度学习框架很好地兼容。但就雷锋网所知它本身并不算是机器学习框架而侧重于数据运算。

上个月 18 日的发布会上腾讯首席数据专家蒋杰表示

“面对腾讯快速增长的数据挖掘需求我们希望开发一个面向机器学习的、能应对超大规模数据集的、高性能的计算框架并且它要对用户足够友好具有很低的使用门槛就这样Angel平台应运而生。 ”

这其中的关键词一个是“大”规模数据另一个是“低”使用门槛。

“大”方面企鹅表示Angel支持十亿级别维度的模型训练

“Angel采用多种业界最新技术和腾讯自主研发技术包括SSP Stale synchronousParalle l、异步分布式SGD、多线程参数共享模式HogWild、 网络带宽流量调度算法、计算和网络请求流水化、参数更新索引和训练数据预处理方案等。这些技术使Angel性能大幅提高达到Spark的数倍到数十倍能在千万到十亿级的特征维度条件下运行。 ”

“低”方面Ange l并没有采用机器学习领域标配的Python而使用企业界程序猿最熟悉的Java 以及Sc ala 。企鹅声明 “在系统易用性上Angel提供丰富的机器学习算法库及高度抽象的编程接口、数据计算和模型划分的自动方案及参数自适应配置。同时用户能像使用MR、 Spark一样在Angel上编程我们还建设了拖拽式的一体化的开发运营门户屏蔽底层系统细节 降低用户使用门槛。 ”

总的来讲 Ang el的定位是对标Spark。蒋杰宣称它融合了 Spark和P etuum的优点。 “以前Spark能跑的现在Angel快几十倍 以前Spark跑不了的 Angel也能轻松跑出来。 ”

其实 Angel已经是鹅厂的第三代大数据计算平台。

第一代是基于Hadoop的深度定制版本“TDW”它的重点是“规模化” 扩展集群规模。

第二代集成了 Spark和Storm重点是提高速度 “实时化”。

第三代自研平台Angel能处理超大规模数据重点是“智能化”专门对机器学习进行了优化。

这三代平台的演进从使用第三方开源平台过渡到自主研发涵盖了从数据分析到数

据挖掘、从数据并行到模型并行的发展。现在Ange l已支持GPU运算 以及文本、语音、图像等非结构化数据。 自今年初在鹅厂内部上线以来Angel已应用于腾讯视频、腾讯社交广告及用户画像挖掘等精准推荐业务。另外国内互联网行业开口闭口就要打造“平台”、 “生态”的风气鹅厂也完美继承 “Angel不仅仅是一个只做并行计算的平台更是一个生态”——这种话虽然不耐听但腾讯的大数据野心可见一斑。

12月 18 日晚马化腾在微信朋友圈写道 “AI与大数据将成为未来各领域的标配期待更多业界同行一起开源携手互助。 ”

但对于机器学习社区 Angel开源的意义是否如同鹅厂宣称的那样大

对此机器学习界的“网红”、微软研究员彭河森说道

“对于小一点的公司和组织 Spark甚至MySQL都已经够了(为了政治正确我提一下PostgresQL)而对于大一点真的用得上Angel的企业如阿里巴巴等早就自主开发了自己的大数据处理平台。 ”

因此他总结Angel的发布是一个“很尴尬的时间和市场定位”。

彭河森

与百度PaddlePadd le相比 Ange l有一个很大的不同它的服务对象是有大数据处理需求的企业而不是个人开发者。可惜的是 由于Angel尚未正式开源大数据、机器学习同行们无法对其进行一番评头论足。 目前所有的信息都来自于鹅厂的官方宣传。关于Angel开放源代码后能在业界引发多大反响请关注雷锋网后续报道。

最后我们来看看蒋杰对Angel开源意义的官方总结

“机器学习作为人工智能的一个重要类别正处于发展初期开源Angel就是开放腾讯18年来的海量大数据处理经验和先进技术。我们连接一切连接的资源激发更多创意让这个好平台逐步转化成有价值的生态系统让企业运营更有效、产品更智能、用户体验更好。 ”

更多信息请看雷锋网整理的腾讯Angel发布会实录腾讯大数据宣布开源第三代高性能计算平台Angel 。

3.阿里巴巴 犹抱琵牌半遮面的DTPAI

3元/首月香港便宜vps究竟是什么货。

便宜的香港vps多少钱?现在国外VPS主机的价格已经很便宜了,美国VPS主机最低一个月只要十几元,但同样免备案的香港VPS价格贵不贵呢?或者说便宜的香港VPS多少钱?香港vps主机价格要比美国机房的贵一些,但比国内的又便宜不少,所以目前情况是同等配置下,美国VPS比香港的便宜,香港VPS比国内(指大陆地区)的便宜。目前,最便宜香港vps低至3元/首月、18元/月起,今天云服务器网(www.yunt...

sharktech:老牌高防服务器商,跳楼价,1G独享$70、10G共享$240、10G独享$800

不知道大家是否注意到sharktech的所有服务器的带宽价格全部跳楼跳水,降幅简直不忍直视了,还没有见过这么便宜的独立服务器。根据不同的机房,价格也是不一样的。大带宽、不限流量比较适合建站、数据备份、做下载、做流媒体、做CDN等多种业务。 官方网站:https://www.sharktech.net 付款方式:比特币、信用卡、PayPal、支付宝、西联汇款 以最贵的洛杉矶机器为例,配置表如...

NameCheap 2021年新年首次活动 域名 域名邮局 SSL证书等

NameCheap商家如今发布促销活动也是有不小套路的,比如会在提前一周+的时间告诉你他们未来的活,比如这次2021年的首次活动就有在一周之前看到,但是这不等到他们中午一点左右的时候才有正式开始,而且我确实是有需要注册域名,等着看看是否有真的折扣,但是实际上.COM域名力度也就一般需要51元左右,其他地方也就55元左右。当然,这次新年的首次活动不管如何肯定是比平时便宜一点点的。有新注册域名、企业域...

paddlepaddle为你推荐
查看端口怎样查看端口?湖南商标注册湖南商标注册最好的公司拂晓雅阁推荐一些好玩的贴图论坛不兼容Google play 服务提示不兼容怎么办?今日热点怎么删除怎么删除手机百度实时热点淘宝店推广如何推广淘宝店9flash怎么使用ePSXe啊?中小企业信息化信息化为中小企业发展带来了哪些机遇苹果5怎么越狱苹果5怎么越狱腾讯文章怎么在手机腾讯网发文章
个人注册域名 新网域名管理 高防dns inmotionhosting tk域名 个人空间申请 阿里云浏览器 电子邮件服务器 ntfs格式分区 双十一秒杀 佛山高防服务器 免费高速空间 免费申请网站 最好的qq空间 上海服务器 银盘服务是什么 海外空间 美国凤凰城 百度云空间 杭州电信宽带优惠 更多