数据基于电信运营商固网DPI系统的大数据清洗方案

数据清洗  时间:2021-02-25  阅读:()

电信工程技术与标准化 2016年第2期

大节省了存储空间和网络传输带宽对运营商开展固网大数据业务具有重要的借鉴意义。

关键词 大数据数据清洗 DPI系统

中图分类号 TN915 文献标识码 A 文章编号 1008-5599 2016 02-0040-04

大数据热浪的推进为手握大把数据资源的电信运 程会占用大量的网络带宽资源和存储空间并且对后续营商带来了机遇。大数据可以让运营商能够全面洞察客 RTB、精准广告等大数据业务的产品开发、运营、销售、户行为精确化地识别客户精准地制订策略支持经 服务和经营支撑工作均无实际指导意义。 因此如何对营决策增强电信核心竞争力也可以利用大数据资产 海量垃圾数据进行清洗是运营商开展大数据业务面临的优势发展大数据对外业务为合作伙伴提供数据分析开 第一个巨大挑战。

放能力提升对大数据产业链的服务能力。

DPI 深度数据分组检测技术是一种基于应用层 1 DPI系统采集数据分析

的流量检测和控制技术针对数据分组的不同层信息如

IP地址、应用层端口、应用层协议等进行深度检测和 互联网上的各种应用协议具有不同的数据价值理分析从而得到整个数据流或数据分组的应用层信息 想状态是DPI系统对全网全协议全流量进行全覆盖分然后按照系统定义的策略对流量进行统计分析和控制。 析可以得出最全面的分析效果但是这样的分析范围电信运营商大都在固网和移动网侧建设了基于DPI技术 会使得DPI系统的建设规模和资金花费巨大。通过对互的分析系统用于监控网络的流量流向、分析用户使用 联网上的流量构成进行分析如表1所示发现对电信行为为网络提供建设依据、为对内对外增值业务提供 运营商内外业务开展尤其是大数据业务最有价值的数据基础。 是http流量而这部分流量占总流量的比例仅为10%

运营商使用固网DPI的采集信息可以开展RTB、 所以在现网部署中建议对最有价值的http流量进行全精准广告等大数据业务但DPI的采集信息中含有海量 覆盖监控对其它价值较低的流量做局部或抽样分析的用户非主动行为访问数据这部分数据的上报传输过 提高投资的性价比。

收稿日期 2015-09-13

40

2016年第2期 电信工程技术与标准化对于http流量的抽取可以由DPI系统本身完成 的记录中不符合质量规则的剔除其余的记录进行封装也可以在清洗系统中进行。 由于目前绝大部分DPI厂商 上传供大数据业务开展使用。

均已支持http流量抽取且执行效率要高于清洗系统

所以文章后续对清洗系统的分析以DPI厂商直接输出 3 大数据清洗系统部署架构http GET流量为前提。

表1 http流量功能分析 电信运营商的DPI系统通常以省为单位进行建设

传送给集团和省内的大数据业务平台。集团大数据清洗2 数据清洗目的及原理 系统负责收集各省大数据清洗系统上传的清洗后数据

统一发送给集团的大数据业务平台用于集团统一开展大数据清洗的目的主要是检测和发现数据中存在的错 数据业务 同时负责黑名单知识的维护/学习、黑白名误和不一致剔除或者改正它们有效提高数据质量 单规则的下发以及数据清洗质量的验证。

剔除非用户主动访问行为记录等无效垃圾数据减少网

络传输带宽和存储资源构建高质量数据资产信息库 4 系统功能

保证数据的准确性、一致性、完整性和有效性为大数

据应用产品提供有效数据支撑。 4. 1省级大数据清洗系统

数据清洗的原理是利用统计、数据挖掘、模式规则 省级大数据清洗系统功能架构如图2所示主要分

将符合黑名单特征的记录剔除、将保留 图1 大数据清洗系统部署架构

2016年2月第2期第29卷总第221期 月刊

电信工程技术与标准化 2016年第2期为数据接入层、数据清洗层和数据管理层。其中数据接 4. 1 .3数据管理层

入层实现对DPI系统抽取的http GET数据进行接入和 实现集团清洗验证模块清洗质量验证模块所需的原调度以及黑白名单的同步数据清洗层实现数据清洗及 始数据抽取、 留存验证数据抽取留存规则可通过配置数据封装上报功能数据管理层负责清洗质量验证所需 进行修改对上报数据中关键指标进行统计分析以及对数据的抽取、清洗分析监测。 清洗过程中的指标进行分析监测并将每天分析结果上

图2 省级大数据清洗系统功能模块 4.2. 1清洗质量验证

数据清洗质量验证主要是指定期对黑名单过滤记录

4. 1 . 1数据接入层 进行抽样检测使用爬虫工具执行URL爬取根据爬取

通过与DPI系统间的接口将http GET流量实时传 到的ContentType/title等内容人工确认是否有用户有送到清洗系统清洗系统通过负载均衡方式将数据分发 效访问记录被清洗掉以检验黑名单过滤特征是否准确。到数据清洗层 同时与集团清洗系统间同步黑白名单。 4.2.2黑名单知识维护学习

4. 1 .2数据清洗层 黑名单知识库是数据清洗的基础知识库的质量直

清洗层读取DPI系统上报的数据并加载到清洗主 接决定数据清洗质量。知识学习维护是一个动态的过程机内存中将符合白名单要求的数据封装后旁路上传给 每天需要对新增的互联网访问记录进行跟踪分析 同时集团大数据清洗系统对剩余的数据根据黑名单进行清 需要定期清除掉已经失效的知识。

洗符合黑名单特征的记录直接剔除将其余数据封装 黑名单知识维护学习流程每日抽取高峰时段未匹并上报。在黑白名单过滤的同时对数据进行质量规则检 配黑名单的URL对这些URL进行PV排序使用爬验对不符合质量规则如缺少关键字段、数值异常等 虫工具爬取URL排名前Top n的ContentType/title的数据进行剔除。 对这些进行域名、 目录聚合形成新的URL特征对新

白名单是根据业务需求提出的一组URL集合主 特征人工审核审核通过后加入黑名单知识库。要由业务名称、 URL特征等要素构成通常由业务使 4.2.3黑白名单下发

用部门直接提出。黑名单是一组URL或关键字集合 黑白名单规则在由集团大数据清洗系统生成和维此类知识可以明确标识是非用户主动行为产生的请求 护。在管理员审核通过后向省级大数据清洗系统下发URL符合黑名单特征的记录直接过滤。过滤类型包 供数据清洗使用。在现网部署时可根据各省实际网络和括图片链接、应用接口、各类插件、广告推送、统计监 业务开展情况制定不同的黑名单规则。

控、格式文件、脚本文件、错误页面等关键字特征包

括*.mp4、 *.m4a、 *.jpg等 URL特征包括*qlogo. 5 数据处理流程cn/*、 tianqi.2345.com/plugin/widget/index.htm、hm.baidu.com/*等。 省级大数据清洗系统对省DPI系统上报的http

42

2016年第2期 电信工程技术与标准化

图3 省级大数据清洗系统数据处理流程 文件大小约为630 GB峰值上传G E T数据按照黑白名单规则进行清洗具体流程如图 流量约为160 Mbit/s。部署清洗系统节省了大量的数据3所示。除了上传给集团大数据清洗系统外 同时还需 存储空间和网络上传带宽并大大提升了大数据业务平上传一份黑白名单清洗后的数据给省里的大数据业务 台的处理效率对于计划使用固网DPI采集信息开展大平台。 数据业务的运营商具有重要的借鉴意义。

Study of big data cleaning solution based on DPI system of operators

XIAO Ming-kun,WANG Ji-shun

(Jiangsu Posts&Telecommunications Planning and Designing Institute Co.,Ltd.,Nanjing 210006,China)

2016年2月第2期第29卷总第221期 月刊

鲸云10美元,香港BGPRM 1核 1G 10Mbps峰值带宽 1TB流量,江西CN2-NAT 1核 512MB内存 100M带宽 ,

WHloud Official Notice(鲸云官方通知)(鲸落 梦之终章)]WHloud RouMu Cloud Hosting若木产品线云主机-香港节点上新预售本次线路均为电信CN2 GIA+移动联通BGP,此机型为正常常规机,建站推荐。本次预售定为国庆后开通,据销售状况决定,照以往经验或有咕咕的可能性,但是大多等待时间不长。均赠送2个快照 2个备份,1个默认ipv4官方网站:https:/...

美国Cera 2核4G 20元/45天 香港CN2 E5 20M物理机服务器 150元 日本CN2 E5 20M物理机服务器 150元 提速啦

提速啦 成立于2012年,作为互联网老兵我们一直为用户提供 稳定 高速 高质量的产品。成立至今一直深受用户的喜爱 荣获 “2021年赣州安全大赛第三名” “2020创新企业入围奖” 等殊荣。目前我司在美国拥有4.6万G总内存云服务器资源,香港拥有2.2万G总内存云服务器资源,阿里云香港机房拥有8000G总内存云服务器资源,国内多地区拥有1.6万G总内存云服务器资源,绝非1 2台宿主机的小商家可比。...

HaloCloud:日本软银vps100M/200M/500M带宽,,¥45.00元/月

halocloud怎么样?halocloud是一个于2019下半年建立的商家,主要提供日本软银VPS,广州移动VDS,株洲联通VDS,广州移动独立服务器,Halo邮局服务,Azure香港1000M带宽月抛机器等。日本软银vps,100M/200M/500M带宽,可看奈飞,香港azure1000M带宽,可以解锁奈飞等流媒体,有需要看奈飞的朋友可以入手!点击进入:halocloud官方网站地址日本vp...

数据清洗为你推荐
快速美白好方法快速美白方法怎么在qq空间里添加背景音乐如何在qq空间中添加背景音乐ps抠图技巧ps的抠图技巧是什么中小企业信息化什么是企业信息化,应该这样实施iphone越狱后怎么恢复苹果手机越狱之后能恢复原来吗?网易公开课怎么下载哪位高手指导一下,如何下载网易公开课啊?xv播放器下载除了迅雷看看播放器还有什么播放器支持xv格式的视频?怎么升级ios6苹果6怎么升级最新系统ejb开发EJB是啥玩意了商标注册查询官网怎么查商标有没有注册
域名网 网站域名备案 域名服务器的作用 免费顶级域名 2017年黑色星期五 服务器cpu性能排行 阿里云代金券 ca4249 促正网秒杀 老左来了 免费全能主机 美国免费空间 33456 东莞服务器托管 中国联通宽带测试 云服务是什么意思 卡巴斯基试用版下载 电信主机托管 .htaccess accountsuspended 更多