电信工程技术与标准化 2016年第2期
大节省了存储空间和网络传输带宽对运营商开展固网大数据业务具有重要的借鉴意义。
关键词 大数据数据清洗 DPI系统
中图分类号 TN915 文献标识码 A 文章编号 1008-5599 2016 02-0040-04
大数据热浪的推进为手握大把数据资源的电信运 程会占用大量的网络带宽资源和存储空间并且对后续营商带来了机遇。大数据可以让运营商能够全面洞察客 RTB、精准广告等大数据业务的产品开发、运营、销售、户行为精确化地识别客户精准地制订策略支持经 服务和经营支撑工作均无实际指导意义。 因此如何对营决策增强电信核心竞争力也可以利用大数据资产 海量垃圾数据进行清洗是运营商开展大数据业务面临的优势发展大数据对外业务为合作伙伴提供数据分析开 第一个巨大挑战。
放能力提升对大数据产业链的服务能力。
DPI 深度数据分组检测技术是一种基于应用层 1 DPI系统采集数据分析
的流量检测和控制技术针对数据分组的不同层信息如
IP地址、应用层端口、应用层协议等进行深度检测和 互联网上的各种应用协议具有不同的数据价值理分析从而得到整个数据流或数据分组的应用层信息 想状态是DPI系统对全网全协议全流量进行全覆盖分然后按照系统定义的策略对流量进行统计分析和控制。 析可以得出最全面的分析效果但是这样的分析范围电信运营商大都在固网和移动网侧建设了基于DPI技术 会使得DPI系统的建设规模和资金花费巨大。通过对互的分析系统用于监控网络的流量流向、分析用户使用 联网上的流量构成进行分析如表1所示发现对电信行为为网络提供建设依据、为对内对外增值业务提供 运营商内外业务开展尤其是大数据业务最有价值的数据基础。 是http流量而这部分流量占总流量的比例仅为10%
运营商使用固网DPI的采集信息可以开展RTB、 所以在现网部署中建议对最有价值的http流量进行全精准广告等大数据业务但DPI的采集信息中含有海量 覆盖监控对其它价值较低的流量做局部或抽样分析的用户非主动行为访问数据这部分数据的上报传输过 提高投资的性价比。
收稿日期 2015-09-13
40
2016年第2期 电信工程技术与标准化对于http流量的抽取可以由DPI系统本身完成 的记录中不符合质量规则的剔除其余的记录进行封装也可以在清洗系统中进行。 由于目前绝大部分DPI厂商 上传供大数据业务开展使用。
均已支持http流量抽取且执行效率要高于清洗系统
所以文章后续对清洗系统的分析以DPI厂商直接输出 3 大数据清洗系统部署架构http GET流量为前提。
表1 http流量功能分析 电信运营商的DPI系统通常以省为单位进行建设
传送给集团和省内的大数据业务平台。集团大数据清洗2 数据清洗目的及原理 系统负责收集各省大数据清洗系统上传的清洗后数据
统一发送给集团的大数据业务平台用于集团统一开展大数据清洗的目的主要是检测和发现数据中存在的错 数据业务 同时负责黑名单知识的维护/学习、黑白名误和不一致剔除或者改正它们有效提高数据质量 单规则的下发以及数据清洗质量的验证。
剔除非用户主动访问行为记录等无效垃圾数据减少网
络传输带宽和存储资源构建高质量数据资产信息库 4 系统功能
保证数据的准确性、一致性、完整性和有效性为大数
据应用产品提供有效数据支撑。 4. 1省级大数据清洗系统
数据清洗的原理是利用统计、数据挖掘、模式规则 省级大数据清洗系统功能架构如图2所示主要分
将符合黑名单特征的记录剔除、将保留 图1 大数据清洗系统部署架构
2016年2月第2期第29卷总第221期 月刊
电信工程技术与标准化 2016年第2期为数据接入层、数据清洗层和数据管理层。其中数据接 4. 1 .3数据管理层
入层实现对DPI系统抽取的http GET数据进行接入和 实现集团清洗验证模块清洗质量验证模块所需的原调度以及黑白名单的同步数据清洗层实现数据清洗及 始数据抽取、 留存验证数据抽取留存规则可通过配置数据封装上报功能数据管理层负责清洗质量验证所需 进行修改对上报数据中关键指标进行统计分析以及对数据的抽取、清洗分析监测。 清洗过程中的指标进行分析监测并将每天分析结果上
图2 省级大数据清洗系统功能模块 4.2. 1清洗质量验证
数据清洗质量验证主要是指定期对黑名单过滤记录
4. 1 . 1数据接入层 进行抽样检测使用爬虫工具执行URL爬取根据爬取
通过与DPI系统间的接口将http GET流量实时传 到的ContentType/title等内容人工确认是否有用户有送到清洗系统清洗系统通过负载均衡方式将数据分发 效访问记录被清洗掉以检验黑名单过滤特征是否准确。到数据清洗层 同时与集团清洗系统间同步黑白名单。 4.2.2黑名单知识维护学习
4. 1 .2数据清洗层 黑名单知识库是数据清洗的基础知识库的质量直
清洗层读取DPI系统上报的数据并加载到清洗主 接决定数据清洗质量。知识学习维护是一个动态的过程机内存中将符合白名单要求的数据封装后旁路上传给 每天需要对新增的互联网访问记录进行跟踪分析 同时集团大数据清洗系统对剩余的数据根据黑名单进行清 需要定期清除掉已经失效的知识。
洗符合黑名单特征的记录直接剔除将其余数据封装 黑名单知识维护学习流程每日抽取高峰时段未匹并上报。在黑白名单过滤的同时对数据进行质量规则检 配黑名单的URL对这些URL进行PV排序使用爬验对不符合质量规则如缺少关键字段、数值异常等 虫工具爬取URL排名前Top n的ContentType/title的数据进行剔除。 对这些进行域名、 目录聚合形成新的URL特征对新
白名单是根据业务需求提出的一组URL集合主 特征人工审核审核通过后加入黑名单知识库。要由业务名称、 URL特征等要素构成通常由业务使 4.2.3黑白名单下发
用部门直接提出。黑名单是一组URL或关键字集合 黑白名单规则在由集团大数据清洗系统生成和维此类知识可以明确标识是非用户主动行为产生的请求 护。在管理员审核通过后向省级大数据清洗系统下发URL符合黑名单特征的记录直接过滤。过滤类型包 供数据清洗使用。在现网部署时可根据各省实际网络和括图片链接、应用接口、各类插件、广告推送、统计监 业务开展情况制定不同的黑名单规则。
控、格式文件、脚本文件、错误页面等关键字特征包
括*.mp4、 *.m4a、 *.jpg等 URL特征包括*qlogo. 5 数据处理流程cn/*、 tianqi.2345.com/plugin/widget/index.htm、hm.baidu.com/*等。 省级大数据清洗系统对省DPI系统上报的http
42
2016年第2期 电信工程技术与标准化
图3 省级大数据清洗系统数据处理流程 文件大小约为630 GB峰值上传G E T数据按照黑白名单规则进行清洗具体流程如图 流量约为160 Mbit/s。部署清洗系统节省了大量的数据3所示。除了上传给集团大数据清洗系统外 同时还需 存储空间和网络上传带宽并大大提升了大数据业务平上传一份黑白名单清洗后的数据给省里的大数据业务 台的处理效率对于计划使用固网DPI采集信息开展大平台。 数据业务的运营商具有重要的借鉴意义。
Study of big data cleaning solution based on DPI system of operators
XIAO Ming-kun,WANG Ji-shun
(Jiangsu Posts&Telecommunications Planning and Designing Institute Co.,Ltd.,Nanjing 210006,China)
2016年2月第2期第29卷总第221期 月刊
WHloud Official Notice(鲸云官方通知)(鲸落 梦之终章)]WHloud RouMu Cloud Hosting若木产品线云主机-香港节点上新预售本次线路均为电信CN2 GIA+移动联通BGP,此机型为正常常规机,建站推荐。本次预售定为国庆后开通,据销售状况决定,照以往经验或有咕咕的可能性,但是大多等待时间不长。均赠送2个快照 2个备份,1个默认ipv4官方网站:https:/...
提速啦 成立于2012年,作为互联网老兵我们一直为用户提供 稳定 高速 高质量的产品。成立至今一直深受用户的喜爱 荣获 “2021年赣州安全大赛第三名” “2020创新企业入围奖” 等殊荣。目前我司在美国拥有4.6万G总内存云服务器资源,香港拥有2.2万G总内存云服务器资源,阿里云香港机房拥有8000G总内存云服务器资源,国内多地区拥有1.6万G总内存云服务器资源,绝非1 2台宿主机的小商家可比。...
halocloud怎么样?halocloud是一个于2019下半年建立的商家,主要提供日本软银VPS,广州移动VDS,株洲联通VDS,广州移动独立服务器,Halo邮局服务,Azure香港1000M带宽月抛机器等。日本软银vps,100M/200M/500M带宽,可看奈飞,香港azure1000M带宽,可以解锁奈飞等流媒体,有需要看奈飞的朋友可以入手!点击进入:halocloud官方网站地址日本vp...