非结构化数据管理“数据仓库之父”谈如何处理非结构化数据

非结构化数据管理  时间:2021-05-30  阅读:()

如何处理非结构化数据

我认为这其中最大的一部分是来自于社交媒体的移动平台产生的数据和海量的电子邮件。

据InformationWeek报道,英特尔估计到2015年,全球至少有25亿人会频繁使用互联网,产生的数据量必将越来越多,我们需要更多的资源用于存储和处理这些数据信息。

这一观点引发了数据分析师纷纷开始研究非结构化数据的潜力;例如,谷歌的阿维纳什考希克就公开声称“非结构化数据的高潮将至。

”   在此,我希望与您分享一些您可以用来处理非结构化数据的方法:   在云计算在分发数据,只储存更多的非结构化数据,希望您能利用先进的大数据分析与预测分析平台看到有用的数据模式。

  开发更强大的分析引擎以便分析数据,其中大部分将在云中实时进行。

  将暗数据/暗社交和紫外数据转化为可用的结构化数据信息,您能从中获得见解,正如我曾经提及的分裂分析角度。

  将尽可能多的数据合并为大型数据文件,奥巴马团队在2012年的选举在所做的准备工作就是一个很好合并的例子,合并几个不同的数据库,可以使得数据分析和预测见解更容易。

  清洁数据:这是假设非结构化数据是脏的,或者说是对目前的分析状态没有有用的。

您可以清除重复的信息,确保实体命名的一致性,清空稀疏的数据集。

考虑检查Saleforce 的关键社交数据,这关系到客户数据记录到社交媒体帐户和网上在线内容的帐户。

“数据仓库之父”谈如何处理非结构化数据

毫无疑问,这是一个信息爆炸的时代。

你的服务器上充满了各种各样的数据。

问题就提出来了,你如何处理那些非结构化数据?在本文中,让“数据仓库之父” W.H.Inmon谈谈他自己的独到见解。

  虽说非结构化数据很难处理,但是它已经存在很久了,肯定比计算机的历史还要久远。

不信的话,想想圣经,埃及象形文字,和卡马河佛经这些骨灰级的东西,它们都是非结构化数据,它们的历史可想而知了。

这些非结构化数据绝对比那些硅片的出现的要早。

搜索引擎虽然出现了一段时间,但也绝没有印刷时代历史悠久。

即便现在的搜索引擎已经很完善了,但想随心所欲的处理包含非结构化数据信息的时代还没有到来,至少目前是这样的。

这是什么原因造成的呢?   1、无用输入,无用输出 :     只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。

实现非结构化数据的整合存在着困难,想想那些很早就提出来的信息技术难题:无用信息输入,无用信息输出(GIGO),就会知道即使功能再强大的搜索引擎,用来处理那些实质上未经提炼和整和的数据会得到什么结果?搜索引擎的结果会告诉我们答案,返回给用户的也将会是一些没有提炼,无用的信息。

     因此,在搜索之前,那些非结构化的文本数据需要被提炼整合。

如果这个工作完成的话,就不会有无用信息的输入,那么将不会产生无用的输出信息。

  2、数据和公司数据的差异 :   通过搜索来提炼数据收效甚微。

通过提炼和整合数据是白费力气。

试图在整合数据好比愚公移山,大海捞针。

     但是公司数据就是另外一回事了,有以下两个原因。

第一,当提到公司数据,它的总量和类型是有限的,而上的数据正好相反,无穷无尽。

第二,不像数据,公司数据几乎和公司的事务相关。

我可以很肯定的说,上的数据上只有小部分的数据和公司的事务相关。

     因此,整合公司文本数据,或者为了研究或者分析的目的而去整合,是非常可行的。

  3、什么样的公司数据需要整合:   因此什么样的公司数据需要被整合呢?很明显,有这么些类型的公司数据应该被整合,包括:   1.客户数据——那些与客户信息相关的数据   2.安全性数据——如意外事件,审查,修理,特约条款等等这些重要的事件   3.合同数据——与公司合同相关的数据   4.发现数据(Discovery data)——诉讼过程中的数据   5.顺应性数据(Compliance data)——针对公司敏感事件和事务的描述     由此看出,公司数据限制很少,或者从理论上说,是没有限制的。

  4、数据整合的优势:     整合公司文本数据的重大优点之一,就是一旦整合,它们就可以输入到数据仓库中,并且能重用。

也就是说,公司文本数据只需要整合一次。

整合之后,只要你愿意,你可以多次研究和分析这些数据,可谓一劳永逸。

  值得一提的是,在这公司文本数据整合后,就可以放入到数据仓库中。

一旦进入了数据仓库,这些数据就能与结构数据结合到一起。

  5、客户信息分析 :     举个例子,如针对公司的客户信息管理系统,就要分析客户信息。

通常会从客户那里收到e-mail。

但是,一旦那些e-mail阅读之后,通常就被放在一边了。

这些读过的邮件将会存放到一个文件夹里,从此这些邮件就在那里搁置着,与另外上千的e-mail堆放在一起。

  问题是,当公司需要这些信息的时候,这些信息却很难找到。

当一些e-mail涉及到潜在的未来信息,就显得更加重要了。

  客户琼斯夫人案例分析     为了证明以上观点,让我们看看一个案例,这个案例的主角是一位叫琼斯夫人的客户。

假设她上个月写了一个e-mail来严厉批评公司的销售人员,因为她的一个订单被延误了。

而正好这个月,公司的另外销售人员准备打电话给琼斯夫人,请求下更多的订单。

这是时候,对于那个销售人员来说,上个月的来自琼斯夫人的e-mail重不重要呢?   答案当然是非常重要的。

如果我们想给琼斯夫人推销更多的新产品,这个时候关于客户最近的任何信息都是非常重要的,无论正面了解的信息,还是从琼斯夫人那里反馈的信息。

因此,摆在我们公司面前的问题就是如何找到那些与客户相关的e-mail?如何过滤掉那些不相关的e-mail?     这里说的例子,只是其中的一个,许多的例子都需要用到非结构文本数据,如果为公司文本数据设计一个专门的整合过程,将这些公司文本数据能存储到一个数据仓库里,查找、过滤信息就好办多了。

     注:数据无非包括结构化数据和非结构化数据。

结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。

而非结构化数据包括音频、图像、e-mail、电子表格、txt文本、文档、报告等。

  作者简介   比尔?恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。

他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。

随风云25元/月 ,德阳高防云服务器 2核2G 10M 75元/月 内蒙古三线BGP服务器 2核2G 5M

公司介绍成都随风云科技有限公司成立于2021年,是国内领先的互联网业务平台服务提供商。公司专注为用户提供低价高性能云计算产品,致力于云计算应用的易用性开发,并引导云计算在国内普及。目前公司研发以及运营云服务基础设施服务平台(IaaS),面向全球客户提供基于云计算的IT解决方案与客户服务,拥有丰富的国内BGP、双线高防、香港等优质的IDC资源。公司一直秉承”以人为本、客户为尊、永续创新&...

PacificRack 下架旧款方案 续费涨价 谨慎自动续费

前几天看到网友反馈到PacificRack商家关于处理问题的工单速度慢,于是也有后台提交个工单问问,没有得到答复导致工单自动停止,不清楚商家最近在调整什么。而且看到有网友反馈到,PacificRack 商家的之前年付低价套餐全部下架,而且如果到期续费的话账单中的产品价格会涨价不少。所以,如果我们有需要续费产品的话,谨慎选择。1、特价产品下架我们看到他们的所有原来发布的特价方案均已下架。如果我们已有...

华纳云-618大促3折起,18元/月买CN2 GIA 2M 香港云,物理机高防同享,10M带宽独享三网直连,无限流量!

官方网站:点击访问华纳云活动官网活动方案:一、香港云服务器此次推出八种配置的香港云服务器,满足不同行业不同业务规模的客户需求,同时每种配置的云服务都有不同的带宽选择,灵活性更高,可用性更强,性价比更优质。配置带宽月付6折季付5.5折半年付5折年付4.5折2年付4折3年付3折购买1H1G2M/99180324576648直达购买5M/17331556710081134直达购买2H2G2M892444...

非结构化数据管理为你推荐
日本名字大全日本名字怎么起的?短信验证码英文qq邮箱开启pop3和imap服务需要的16位英文验证码需要往哪个平台发短信获取xshell教程xshell怎么连接本机虚拟机ck香港官网香港ck Calvin Klein正装什么价位?一般什么时候会打折?海外服务器免费ip地址谁知道怎么下载让自己的IP地址显示在国外,会的帮帮忙,谢谢云服务器和虚拟主机云服务器和虚拟主机的区别域名分类域名的基本类型有哪些?paypal取消自动付款如何停止paypal的预核准付款荷兰服务器租用租用国外服务器存在哪些风险高带宽手机上出现volte是什么意思
美国域名 新秒杀 标准机柜尺寸 电子邮件服务器 bgp双线 双十一秒杀 服务器托管什么意思 能外链的相册 photobucket 阿里dns 大化网 广州主机托管 开心online xshell5注册码 塔式服务器 windowsserverr2 e-mail g6950 8度空间论坛 qq空间登入 更多