舆情浅析舆情监测系统的设计和搭建

舆情系统  时间:2021-02-25  阅读:()

精品文档可编辑 值得下载

浅析舆情监测系统的设计和搭建

【摘要】近年来随着网络舆情事件的频繁发生舆情监测系统的重要性得到了社会各界的关注如何设计和搭建适合客户的舆情监测系统成为舆情研究的重点本文将在舆情监测系统设计架构和舆情监测系统技术难点等问题上给读者提供一些建议。

【关键词】舆情监测系统分词技术全文检索引擎热点预判

1绪论

1 .1什么是舆情监测系统。舆情是“舆论情况”的简称是指在一定的社会空间内围绕中介性社会事件的发生、发展和变化作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、 问题所表达的信念、态度、意见和情绪等等表现的总和。 出现了社会舆情相关行政部门和新闻媒体等机构想第一时间的获得舆情信息就造就了舆情监测系统的产生。舆情监测系统是指通过相关的专业舆情软件按照一定的规则和算法将互联网上繁杂的数据信息当中用户所关注的信息抓取出来并通过分析过滤等方式最终呈现出与需求相匹配的舆情信息并以舆情报告形式呈现。

精品文档可编辑 值得下载

1 .2舆情监测系统现状。我国关于舆情监测系统的研究始于2005年经过10年的发展舆情监测系统在功能上已经发展的相当完善通过舆情服务对象舆情监测系统大体可以分为以人民网为代表的综合舆情监测系统、以军犬、红麦等商业系统提供商为代表的特定行业舆情监测系统、以地方综合网站为代表的区域舆情监测系统。近两三年地方网站纷纷加大了舆情监测的投入在舆情监测系统上又有了一定的创新逐步成为舆情监测的新生力量得到广大区域客户的欢迎。

2系统设计思路

2.1系统架构

2.2技术选型。为了保证舆情监测系统的高效、安全和跨平台等特性在技术选型上决定所有服务器使用Linux系统结构上采用多层B/S结构在开发语言上选择JavaEE体系结构和MVC三层设计模式。

2.3系统构成。舆情监测系统从信息采集到生成最终舆情报告经过五个阶段信息采集、信息加工、舆情分析、舆情发布、舆情跟踪舆情报告其中每个阶段又分为五个独立子系统进行处理。

2.4关键技术

2.4.1敏感分析技术。针对互联网上敏感词的多样性我们对于采集来的信息进行预加工将信息按照时间、地点、

精品文档可编辑 值得下载

事件等条件进行分类同时我们将用户输入的敏感词逻辑关系表达式进行分词形成模糊查询条件将符合模糊条件的信息导入备选库在形成检索的敏感词中引入同义词、反义词、拼音、字形等扩充进一步完善查询条件再从备选库中将符合条件的信息展示出来。

但是在现实操作中发布舆情信息者为了避免计算机自动识别和关键词屏蔽往往会将敏感词进行修饰其中主要的干扰手段有敏感词之间加入空格或者特殊字符使用会意字、 同音字或拼音等代替敏感词中的部分文字使用图片、图形等代替敏感词中部分文字。针对这些变形我们可以通过分词技术、 OCR识别技术、正则表达式等方式去除干扰。

同时为了增加敏感词检索效率我们会将用户输入的敏感词逻辑关系表达式识别成一个个的关键词进行索引。信息预加工的时候如果信息敏感词可以在索引中找到关键词直接归类如不在索引中找到将信息导入备选库系统每天零点将备选库中信息进行二次计算避免信息的遗漏。

2.4.2热点预判技术。互联网每天新增的信息数量庞大、内容覆盖领域广泛。很难通过原有的跟踪技术分析热点事件。但我们根据网络传播的规律可以得到从信息产生到成为热点大体需要1-3个小时的发酵期在这几个小时内信息如果没有引起权威渠道重点网站、社区或知名自媒体的关注信息将会进入沉淀期沉淀期的信息要重新成为热点需

精品文档可编辑 值得下载

要具备以下条件 1 、通过同型或异型热点话题诱发关注2、权威渠道的再次关注。如果发酵期被权威渠道关注将进入关注期信息将会出现第一个报道峰值此阶段大体时间0.5-2小时具体时间根据自媒体推广时间和搜索引擎抓取时间而定。之后会进入传播期传播期的时间不好预测有可能是几个小时或者是几天如在传播期得到网友的关注被广泛转载和推荐将进入消息的井喷期此时将出现第二个报道峰值此时的报道将主要是消息的解读、纵深、相关等内容这样热点正式形成。我们对于热点的预判应该在信息的传播期进行分析系统采集到信息后两个小时开始分析信息“每小时热度” 每小时热度是由以下几方面决定的 1 、是否是近期热点事件可以通过百度搜索风云榜top.baidu.com查询 

2、此事件相关话题的报道数量3、此事件报道的网页发布站点的权威度可以参考百度指数和pr值 4、此事件报道的网页点击量、分享量和评论情况 我们分析5-10小时热度曲线得到信息传播的热力发展情况如曲线无衰减或较少衰减我们就认定此信息为热点事件。

2.4.3信息排重技术。因为互联网网站数量十分庞大网站信息同质化情况严重造成采集来的信息重复度很高对于舆情分析来说相同内容信息只需要显示一条就可以所以就产生了信息排重的需求。我们通过信息指纹技术进行信息排重。信息指纹技术在百度百科中的解释是提取一个信息

精品文档可编辑 值得下载

的特征通常是一组词或者一组词+权重然后根据这组词调用特别的算法例如MD5 将之转化为一组代码这组代码就成为标识这个信息的指纹。生成信息指纹之前先将采集来的信息去除非特征关键词、连接词、形容词、语气词等干扰关键词针对每段剩余的关键词生成信息指纹比对疑似相同内容的文章各段的信息指纹判断内容是否相同。

2.4.4稿件溯源技术。信息的出口地址对于舆情分析和舆情处理起着十分重要的作用我们的溯源算法是通过分析信息时间点和信息关系拓扑计算出来的。其中的几个时间点有网页文件生成时间、 网页内容发布时间、搜索引擎快照时间、搜索引擎收录时间。通过分词技术和信息指纹技术找到信息内容的原始拷贝结合网页提供的相关参数和上面提到的几个时间我们可以大体的分析出信息的原始出口。

3结论。舆情监测系统的好坏归根到底唯一的标准就是第一时间将舆情数据展示给客户。不管你的舆情监测系统技术架构有多先进抓取效率有多么的高如果不能第一时间将舆情内容提交给用户那都得不到用户的信任所以舆情监测系统是个不断迭代更新的系统。随着移动互联网、大数据、web3.0的时代到来市场细分加剧服务更趋于个性化舆情监测系统更需要关注整个互联网的发展形势提供更加专业、细分的舆情信息和舆情处理服务。

cloudcone:特价便宜VPS补货通知贴,SAS或SSD低价有磁盘阵列,SAS或SSD raid10 硬盘

cloudcone经常性有特价促销VPS放出来,每次的数量都是相当有限的,为了方便、及时帮助大家,主机测评这里就做这个cloudcone特价VPS补货专题吧,以后每次放货我会在这里更新一下日期,方便大家秒杀!官方网站:https://cloudcone.com/预交费模式,需要充值之后方可使用,系统自动扣费!信用卡、PayPal、支付宝,均可付款购买!为什么说cloudcone值得买?cloudc...

阿里云服务器绑定域名的几个流程整理

今天遇到一个网友,他之前一直在用阿里云虚拟主机,我们知道虚拟主机绑定域名是直接在面板上绑定的。这里由于他的网站项目流量比较大,虚拟主机是不够的,而且我看他虚拟主机已经有升级过。这里要说的是,用过阿里云虚拟主机的朋友可能会比较一下价格,实际上虚拟主机价格比云服务器还贵。所以,基于成本和性能的考虑,建议他选择云服务器。毕竟他的备案都接入在阿里云。这里在选择阿里云服务器后,他就蒙圈不知道如何绑定域名。这...

Puaex:香港vds,wtt套餐,G口带宽不限流量;可解流媒体,限量补货

puaex怎么样?puaex是一家去年成立的国人商家,本站也分享过几次,他家主要销售香港商宽的套餐,给的全部为G口带宽,而且是不限流量的,目前有WTT和HKBN两种线路的方面,虽然商家的价格比较贵,但是每次补一些货,就会被抢空,之前一直都是断货的状态,目前商家进行了补货,有需要这种类型机器的朋友可以入手。点击进入:puaex商家官方网站Puaex香港vds套餐:全部为KVM虚拟架构,G口的带宽,可...

舆情系统为你推荐
google竞价排名谷歌竞价排名现在是显示在什么位置?金山杀毒怎么样用金山毒霸杀毒好吗?依赖注入什么是依赖注入依赖注入的作用是什么意思硬盘人克隆一个人需要多少人多长时间啊开机滚动条如何关闭开机滚动条?雅虎天盾我装了360安全卫士,原来的雅虎天盾需不需要卸载idc前线求电影敢死队电影里的歌曲!三星s8什么时候上市三星盖乐世S8上市时间公布 三星盖乐世s8多少钱服务器连接异常服务器连接异常是怎么回事啊,怎么解决freebsd安装虚拟机vmware7的安装和FreeBSD的安装
合肥虚拟主机 最新代理服务器地址 查询ip地址 bluevm asp.net主机 新加坡服务器 全球付 la域名 koss ev证书 国内php空间 qq数据库下载 七夕促销 789电视 ftp免费空间 彩虹云 免费的域名 德隆中文网 云销售系统 rewritecond 更多