非结构化数据管理“数据仓库之父”谈如何处理非结构化数据

非结构化数据管理  时间:2021-05-30  阅读:()

如何处理非结构化数据

我认为这其中最大的一部分是来自于社交媒体的移动平台产生的数据和海量的电子邮件。

据InformationWeek报道,英特尔估计到2015年,全球至少有25亿人会频繁使用互联网,产生的数据量必将越来越多,我们需要更多的资源用于存储和处理这些数据信息。

这一观点引发了数据分析师纷纷开始研究非结构化数据的潜力;例如,谷歌的阿维纳什考希克就公开声称“非结构化数据的高潮将至。

”   在此,我希望与您分享一些您可以用来处理非结构化数据的方法:   在云计算在分发数据,只储存更多的非结构化数据,希望您能利用先进的大数据分析与预测分析平台看到有用的数据模式。

  开发更强大的分析引擎以便分析数据,其中大部分将在云中实时进行。

  将暗数据/暗社交和紫外数据转化为可用的结构化数据信息,您能从中获得见解,正如我曾经提及的分裂分析角度。

  将尽可能多的数据合并为大型数据文件,奥巴马团队在2012年的选举在所做的准备工作就是一个很好合并的例子,合并几个不同的数据库,可以使得数据分析和预测见解更容易。

  清洁数据:这是假设非结构化数据是脏的,或者说是对目前的分析状态没有有用的。

您可以清除重复的信息,确保实体命名的一致性,清空稀疏的数据集。

考虑检查Saleforce 的关键社交数据,这关系到客户数据记录到社交媒体帐户和网上在线内容的帐户。

“数据仓库之父”谈如何处理非结构化数据

毫无疑问,这是一个信息爆炸的时代。

你的服务器上充满了各种各样的数据。

问题就提出来了,你如何处理那些非结构化数据?在本文中,让“数据仓库之父” W.H.Inmon谈谈他自己的独到见解。

  虽说非结构化数据很难处理,但是它已经存在很久了,肯定比计算机的历史还要久远。

不信的话,想想圣经,埃及象形文字,和卡马河佛经这些骨灰级的东西,它们都是非结构化数据,它们的历史可想而知了。

这些非结构化数据绝对比那些硅片的出现的要早。

搜索引擎虽然出现了一段时间,但也绝没有印刷时代历史悠久。

即便现在的搜索引擎已经很完善了,但想随心所欲的处理包含非结构化数据信息的时代还没有到来,至少目前是这样的。

这是什么原因造成的呢?   1、无用输入,无用输出 :     只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。

实现非结构化数据的整合存在着困难,想想那些很早就提出来的信息技术难题:无用信息输入,无用信息输出(GIGO),就会知道即使功能再强大的搜索引擎,用来处理那些实质上未经提炼和整和的数据会得到什么结果?搜索引擎的结果会告诉我们答案,返回给用户的也将会是一些没有提炼,无用的信息。

     因此,在搜索之前,那些非结构化的文本数据需要被提炼整合。

如果这个工作完成的话,就不会有无用信息的输入,那么将不会产生无用的输出信息。

  2、数据和公司数据的差异 :   通过搜索来提炼数据收效甚微。

通过提炼和整合数据是白费力气。

试图在整合数据好比愚公移山,大海捞针。

     但是公司数据就是另外一回事了,有以下两个原因。

第一,当提到公司数据,它的总量和类型是有限的,而上的数据正好相反,无穷无尽。

第二,不像数据,公司数据几乎和公司的事务相关。

我可以很肯定的说,上的数据上只有小部分的数据和公司的事务相关。

     因此,整合公司文本数据,或者为了研究或者分析的目的而去整合,是非常可行的。

  3、什么样的公司数据需要整合:   因此什么样的公司数据需要被整合呢?很明显,有这么些类型的公司数据应该被整合,包括:   1.客户数据——那些与客户信息相关的数据   2.安全性数据——如意外事件,审查,修理,特约条款等等这些重要的事件   3.合同数据——与公司合同相关的数据   4.发现数据(Discovery data)——诉讼过程中的数据   5.顺应性数据(Compliance data)——针对公司敏感事件和事务的描述     由此看出,公司数据限制很少,或者从理论上说,是没有限制的。

  4、数据整合的优势:     整合公司文本数据的重大优点之一,就是一旦整合,它们就可以输入到数据仓库中,并且能重用。

也就是说,公司文本数据只需要整合一次。

整合之后,只要你愿意,你可以多次研究和分析这些数据,可谓一劳永逸。

  值得一提的是,在这公司文本数据整合后,就可以放入到数据仓库中。

一旦进入了数据仓库,这些数据就能与结构数据结合到一起。

  5、客户信息分析 :     举个例子,如针对公司的客户信息管理系统,就要分析客户信息。

通常会从客户那里收到e-mail。

但是,一旦那些e-mail阅读之后,通常就被放在一边了。

这些读过的邮件将会存放到一个文件夹里,从此这些邮件就在那里搁置着,与另外上千的e-mail堆放在一起。

  问题是,当公司需要这些信息的时候,这些信息却很难找到。

当一些e-mail涉及到潜在的未来信息,就显得更加重要了。

  客户琼斯夫人案例分析     为了证明以上观点,让我们看看一个案例,这个案例的主角是一位叫琼斯夫人的客户。

假设她上个月写了一个e-mail来严厉批评公司的销售人员,因为她的一个订单被延误了。

而正好这个月,公司的另外销售人员准备打电话给琼斯夫人,请求下更多的订单。

这是时候,对于那个销售人员来说,上个月的来自琼斯夫人的e-mail重不重要呢?   答案当然是非常重要的。

如果我们想给琼斯夫人推销更多的新产品,这个时候关于客户最近的任何信息都是非常重要的,无论正面了解的信息,还是从琼斯夫人那里反馈的信息。

因此,摆在我们公司面前的问题就是如何找到那些与客户相关的e-mail?如何过滤掉那些不相关的e-mail?     这里说的例子,只是其中的一个,许多的例子都需要用到非结构文本数据,如果为公司文本数据设计一个专门的整合过程,将这些公司文本数据能存储到一个数据仓库里,查找、过滤信息就好办多了。

     注:数据无非包括结构化数据和非结构化数据。

结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。

而非结构化数据包括音频、图像、e-mail、电子表格、txt文本、文档、报告等。

  作者简介   比尔?恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。

他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。

德阳电信高防物理机 16核16G 50M 260元/月 达州创梦网络

达州创梦网络怎么样,达州创梦网络公司位于四川省达州市,属于四川本地企业,资质齐全,IDC/ISP均有,从创梦网络这边租的服务器均可以备案,属于一手资源,高防机柜、大带宽、高防IP业务,一手整C IP段,四川电信,一手四川托管服务商,成都优化线路,机柜租用、服务器云服务器租用,适合建站做游戏,不须要在套CDN,全国访问快,直连省骨干,大网封UDP,无视UDP攻击,机房集群高达1.2TB,单机可提供1...

vpsdime:夏日促销活动,美国达拉斯VPS,2G内存/2核/20gSSD/1T流量,$20/年

vpsdime怎么样?vpsdime是2013年注册的国外VPS主机商,实际上他还有一系列的其他域名站点如Winity.io, Backupsy,Cloudive, Virtora等等,母公司“Nodisto IT”相对来说还是很靠谱了的商家。VPSDime主要提供各种高配低价VPS套餐,其中Linux VPS和存储VPS基于OpenVZ架构,高级VPS基于KVM。VPSDime在上个季度的Low...

炭云188元/年,上海CN2 VPS/2核/384MB内存/8GB空间/800GB流量/77Mbps端口/共享IP

炭云怎么样?炭云(之前的碳云),国人商家,正规公司(哈尔滨桓林信息技术有限公司),主机之家测评介绍过多次。现在上海CN2共享IP的VPS有一款特价,上海cn2 vps,2核/384MB内存/8GB空间/800GB流量/77Mbps端口/共享IP/Hyper-v,188元/年,特别适合电信网络。有需要的可以关注一下。点击进入:炭云官方网站地址炭云vps套餐:套餐cpu内存硬盘流量/带宽ip价格购买上...

非结构化数据管理为你推荐
魔兽世界配置要求玩魔兽世界电脑配置要求是怎样的?域名如何绑定服务器在啊里云买的域名与服务器怎么绑定一键更换ip能不能写一个批处理一键更换ip?接收验证码的手机号现在新浪微博注册时填写的接收验证码的手机号是怎么回事?自动绑定了吗?阿里云服务器账号密码阿里云服务,administrator密码错误怎么解决服务器日志分析软件有没有好点的IIS分析工具 求救!!!!!阿里云建站费用阿里巴巴快速回款费用如何计算和收取?vds是什么场效应管的工作原理是什么?那好上海哪里好找工作?阿里云服务器怎么样阿里云服务器怎么样?用来做网站效果好吗?
空间主机 老域名失效请用户记下 上海域名注册 双线服务器租用 北京服务器租用 河北服务器租用 金万维动态域名 ipage 七牛优惠码 fdcservers 香港cdn 彩虹ip 微信收钱 免费活动 中国电信测速器 vul 石家庄服务器托管 个人免费邮箱 php服务器 photobucket 更多