>>第54卷第8期2010年4月基于文本情感分类的网络推手识别李纲甘停寇广增武汉大学信息管理学院武汉430072〔摘要〕网络推手识别研究在净化网络环境、监测网络舆论导向等领域有广阔的发展前景.
采用文本情感倾向分析方法进行网络推手识别,通过分析信息发布者的情感倾向,统计正面情感信息与负面情感信息的比重,确定该信息发布者是否是网络推手.
重点讨论信息抽取及情感分类相关技术的实现,并验证方法的可行性.
〔关键词〕网络推手正文抽取情感分类〔分类号〕TP391RecognitionofNetcheatersBasedonTextSentimentAnalysisLiGangGanTingKouGuangzengSchoolofInformationManagementofWuhanUniversity,Wuhan430072〔Abstract〕Netcheatersrecognitionhasalargerangeofapplication,suchaspurifyingnetworkenvironmentandmonitoringpublicopinions.
Theauthorstakeadvantageoftextsentimentanalysistodiscernthenetcheaters,brieflydescribethemethodtoidentifythenetcheaters,andfocusontheachievementofrelatedtechnologies,suchasinformationextractionandsentimentclassification.
Theexperimentalresultsshowthatthismethodcaneffectivelyidentifythenetcheaters,andhasacertainvalue.
〔Keywords〕netcheaterstextextractionsentimentanalysis本文系国家自然科学基金项目"文本集特征提取方法及应用研究"(项目编号:70673070)研究成果之一.
收稿日期:2009-12-09修回日期:2010-01-29本文起止页码:77-80本文责任编辑:王善军1引言随着互联网的普及,尤其是Web2.
0的盛行,任何人都可以成为网络信息的生产者,在方便大家交流的同时,也出现一些互联网混乱现象,比如暴力、色情、虚假信息泛滥,甚至出现人为故意操纵网络舆论方向的情况.
从2005年的"天仙MM"、"芙蓉姐姐"、"流氓燕"爆红网络,到2008年轰动一时的"封杀王老吉",在这些网络热门事件的背后,都有人为操纵的影子.
为着商业利益或者个人利益制造舆论者,被称为网络推手.
网络推手识别有助于厘清事实,避免舆论被操纵,对互联网的稳定和谐发展也有非常大的实践意义.
虽然网络推手是互联网新概念,但是已经有大量的文献对它进行研究.
彭媛和张曼玲从传播学的角度探讨网络推手出现的必然性,认为在互联网这一新兴媒体出现后,网络推手的造星过程就是巧用传播逻辑与技巧的信息传播过程[1].
张文杰则以一个实例来说明网络推手在企业网络营销中的作用,认为企业只要抓住网络热点,然后利用博客、论坛等现代传媒工具,就能在瞬间制造传统媒体不能制造的轰动效应[2].
笔名麦克[3]的作者则从互联网信任危机的角度探讨网络推手的问题,认为网络推手屡次利用网民的信任发布虚假信息,将导致网民对互联网信息的信任度严重下降,甚至引发互联网信任危机.
可见,网络推手识别对于净化网络环境、引导网络舆论方向、限制不良竞争等有很大的作用.
在企业竞争情报实践中,网络推手的行为主要表现为正面宣传其自身的产品,或宣传竞争对手产品的缺点.
针对这类网络推手识别问题,本文提出基于文本情感分类的方法,即通过分析信息发布者的情感倾向,这一步是整个系统的关键所在.
在情感倾向性识别领域,目前已经有一些成熟的方法,比如本文采用的机器学习方法,通过统计正面情感信息与负面情感信息的比重,从而确定该信息发布者是否为网络推手.
本文首先介绍思路和方法,然后重点介绍网络推手识别的流程和步骤,最后进行实验以验证方法的可行性.
2思路与方法通过大量的分析可以看出,网络推手发布的信息77T(1)那么信息发布者A为网络推手.
具体来说,网络推手识别包含互联网信息采集、互联网信息预处理、文本情感分类、信息统计四个步骤.
下面以汽车主题为例,结合以上思路对网络推手识别的相关流程和关键技术进行详细介绍.
3网络推手识别的相关流程和关键技术目前汽车行业竞争非常激烈,网络上拥有大量有关汽车的评论和论坛,相对于其他行业,汽车领域网络推手数量更多.
因此以汽车行业网络推手识别为例来介绍识别流程和步骤,如图1所示:图1网络推手识别流程3.
1信息采集互联网信息数量巨大且分布广泛,本文借助互联网搜索工具完成信息采集.
向论坛搜索引擎提交查询请求,使用Java技术将查询结果抓取下来.
获得Web页面信息后,运用正则表达式匹配元数据信息.
但正文信息的抽取则困难一些,由于不同的网站有不同的网页格式,不可能人工分析所有Web页面后获得正文信息.
因此采用基于统计的方法,通过判断Web页面中的链接密度比,对正文进行识别.
该方法首先将Web页面表示为一颗DOM树,然后分析DOM树中每个节点之间的字符信息.
经过分析大量Web页面发现大部分正文信息都分布在和节点之间,而且正文信息中很少含有超链接,基本上都是大段的字符块.
基于以上规律,可以遍历DOM树中所有和节点,比较每个节点之间中文字符数与链接数的比值,一般比值最大的节点就是正文所在的地方.
实验表明该方法获得正文信息的准确率达到90%以上[4].
3.
2信息预处理互联网信息预处理包括垃圾信息过滤和中文分词处理两个部分:垃圾信息过滤.
由于Web页面结构复杂,提取出来的信息包含许多垃圾信息,这就需要运用信息过滤技术进行文本去噪.
根据人工观察,噪声信息主要是JavaScript和CSS代码并夹杂了一些无用链接信息.
因此采用正则表达式匹配的方法去除垃圾信息.
中文分词处理.
分词是整个识别流程中非常重要的部分,分词的正确与否直接关系到文本分类的准确率.
对分词结果的要求主要是满足汉语词的结构特点和符合人们的思维逻辑习惯.
本系统采用的中文分词软件是中国科学院ICTCLAS分词工具,其分词准确率达到96%以上[5].
3.
3文本情感分类对文本的情感倾向分析是目前自然语言处理中很活跃的一个领域.
总体来说,文本情感倾向性分析根据粒度可分为词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性分析三个研究层次.
本文选择篇章情感倾向性分析对汽车文本进行情感分类.
目前篇章情感倾向性分析主要有机器学习和情感词两种方法,本文采用前一方法.
机器学习的基本思想是根据已知训练样本求取对系统输入输出之间依赖关系的估计,使它能够对未知输出做出尽可能准确的预测[6].
机器学习包括训练过程和测试过程,如图2所示:图2机器学习过程训练过程.
机器不是天然就会识别文本情感,它需要先进行训练,然后才能识别新文本的情感倾向.
在训练过程中首先将训练数据进行人工标注分为两个87>>第54卷第8期2010年4月类别,分别用1表示正面情感,-1表示负面情感.
这个过程是整个文本情感分类的基础,在标注足够多的语料后,对所有标注过的数据进行分词处理,将每篇文档表示为一个n元一维向量D,使用数据挖掘软件Weka生成训练模型文件,接着利用信息增益[6]算法选择该训练模型中对分类最有用的属性.
其公式为:IG(f)=H(C)-H(C|f)=c∈Cp(c,f)logP(c,f)P(c)P(f())+P(c,珋f)logP(c,珋f)P(c)P(f()())(2)公式中:f为分类属性,即词语;c为某个类别;C为所有类别;P(c)表示类别c出现的概率;P(f)表示属性f出现的概率;P(c,f)表示属性f出现的条件下类别c出现的概率;P(c,珋f)表示属性f不出现的条件下类别c出现的概率.
通过统计每个特征f的IG(f)值,从原始特征空间中过滤掉低于特定阈值的特征,选取高于特定阈值的特征作为文档特征.
该特定阈值需要根据分类结果的正确率和查全率进行不断的调整,直到分类结果满足要求为止.
接着使用贝叶斯分类算法对训练集文件进行分类,并用十折交叉验证方法验证分类效果.
十折交叉验证常用来验证算法的准确性,方法原理是:将数据集分成十份,轮流将其中的九份作为训练数据,一份作为测试数据,进行试验;每次试验都会得出相应的正确率,10次的结果的正确率的平均值作为对算法精度的估计.
至此分类器训练完成.
测试过程.
测试过程是用训练过程中生成的分类器对没有标注过的数据进行情感识别.
同样需要用数据挖掘软件Weka将测试数据表示为测试模型文件,运用训练过程生成的分类器对测试集进行分类,验证分类器的分类效果并不断调优.
4实验及效果分析本实验选择从奇虎论坛搜索引擎(http://www.
qihoo.
com/)搜索有关"东风标志307"信息作为实验数据,采用开源数据挖掘软件Weka作为分类工具[7].
4.
1数据集以2009年4月1日到2009年5月1日的信息为测试数据,进过正文抽取选择500篇字数在200以上的帖子作为测试集,以2009年2月1日至2009年3月30日的信息为训练数据,进行正文抽取选择1000篇字数在200以上的帖子作为训练集.
4.
2实验过程邀请武汉大学信息管理学院三名硕士研究生对训练集进行情感标注,如果情感倾向为正面,则标注为1,如果情感倾向为负面,则标注为-1,否则标注为0;其中两人独立标注,另外一人检查、确定文档的最终情感倾向.
如果文档情感倾向实在难以识别,则丢弃该文档.
将标注过的文档作为训练集训练分类器,采用信息增益算法进行属性选择,设定选择属性数目为2000,通过十折交叉验证的方法检验分类器的分类效果,其分类准确率为83.
62%,召回率为78.
45%,基本满足分类要求.
运用第二步获得的分类器对测试集进行分类.
统计每个发帖人的发帖量,并按降序排列,统计情感倾向,如表1所示:表1发帖量及情感倾向统计发帖人发帖量(篇)正面贴(篇)负面贴(篇)统计值Q购车养车398270.
543307车友会16901.
000郁闷17801.
000极其烦躁6061.
000匿名8061.
0004.
3实验结果与分析一般情况下,通过分析发帖量可以将论坛中的网民分为两大类:发帖量少的和发帖量大的.
根据第二届中国互联网社区发展状况调查报告[8],平均每个网民使用的论坛数量是3个,那么每个网民的平均发帖量约为3.
因此,本文将发帖量大于3且情感具有高度一致性的网民都作为疑似网络推手(见表1).
如果设定公式(1)中XY=3或者13,此时阈值T为0.
5.
由于网络推手的发帖量远大于网民的平均发帖量,故阈值T应大于0.
5;为了保证尽可能全地识别网络推手,设定阈值为0.
6.
根据以上分析,可以判定后四个发帖人都可能为网络推手.
查看每个发帖人发布的帖子,其中"307车友会"和"郁闷"对东风标志307赞赏有加,举了很多性能方面的数据来佐证自己的结论;与之相反,"极其烦躁"和"匿名"列举了东风标志307性能方面的缺陷及自己使用后不满意地方.
因此可以判断这四个发帖人为网络推手.
5未来的工作运用文本情感分类的方法来识别网络推手可以基本上解决目前网络推手识别只能依靠人工方法判断的缺点,97<<竞争情报LIBRARYANDINFORMATIONSERVICE能自动监督是否存在人为操作网络舆论.
但是目前识别的准确率还有待提高,未来的工作主要有以下几点:目前论坛没有施行实名制,同一个人可以拥有多个用户名,网络推手可以申请多个用户名发布信息.
未来将对用户名进行归并来改善识别效果.
由于网络推手发布的帖子回帖率一般很高,下一步将在系统中加入对回帖率的研究,以提高识别的准确率.
本文中采用的中国科学院分词系统中没有提供用户词典,所以像"标志307"这样的专有名词被分割为"标志"和"307",下一步将加上用户词典,提高专有名词的分词准确率.
参考文献:[1]彭媛,张曼玲.
从传播学角度解读网络推手出现的必然性.
新闻界,2008(3):26-28.
[2]张文杰.
赈灾英雄"王老吉"背后:网络推手踪迹.
中国经营报,2008-06-09(3).
[3]麦克.
网络推手或将导致互联网不信任危机.
IT每周时报,2008-12-05(6).
[4]浦宇达.
基于web的网页链接与正文抽取技术研究[学位论文].
哈尔滨:哈尔滨工业大学,2006.
[5]ZhangHP,YuHK,XiongDY,etal.
HHMMbasedChineselexicalanalyzerICTCLAS//SapporoConventionCenter.
FirstSIGHANWorkshoponChineseLanguageProcessingSpecialInterestGroupoftheAssociationforComputationalLinguistics.
SIGHANWorkshop,Japan.
,2003:184-187.
[6]MullenT,CollierN.
SentimentanalysisusingsupportvectormachineswithdiverseinformationSources//JasonEisner.
The2004ConferenceonEmpiricalMethodsinNaturalLanguageProcession.
AssociationforComputationalLinguistics,Spain.
2004:412-418.
[7]HolmesG,DonkinA,WittenIH.
WEKA:AMachineLearningWorkbench//LovellC,CampbellDA,FookesCB,etal.
Second,AustralianandNewZealandIntelligentInformationSystemsConference.
Australian&NewZealandIntelligentInformationSystems,1994:357-361.
[8]中国互联网协会.
第二届中国互联网社区发展状况调查报告.
电脑报,2006-09-12(3).
〔作者简介〕李纲,男,1966年生,教授,博士生导师,副院长,发表论文10余篇.
甘停,男,1985年生,硕士研究生,发表论文多篇.
寇广增,男,1983年生,博士研究生,发表论文10余篇.
(上接第72页)对性地组织开展信息化方面的培训,组织"两化"融合发展方面的会议、参观、考察等交流活动,促进信息化与工业化融合相关知识传播.
参考文献:[1]周叔莲.
重视信息化大力推进信息化与工业化融合.
中国井冈山干部学院,2008(3):90-93.
[2]EnglmaierF,ReisingerM.
Information,coordinationandtheindustrializationofcountries.
CESifoEconomicStudies,2008,54(3):534-550.
[3]HofmannC,OrrS.
AdvaneedmanufaeturingtechnologyadoPtion-TheGermanExperience.
Technovation,2005,25(7):711-724.
[4]姜爱林.
工业化与信息化的互动关系研究.
哲学视野,2004(4):78-82.
[5]郑大庆,黄丽华,罗钢.
上海信息化与工业化融合的策略及路径.
公共管理,2008(6):80-82.
[6]陶长琪.
推进信息化与工业化融合,增强产业发展动力.
江西财经大学学报,2007(6):56-59.
[7]叶帆.
科学发展观:工业化与信息化的融合.
湖北行政学院学报,2004(6):33-37.
[8]周子学.
对工业化、信息化发展历史进程的几点认识.
前沿论坛,2009(4):8-10.
[9]马凌,侯正伟.
我国工业化与信息化融合模式的对策//西安交通大学编.
信息经济学与电子商务:第十三届中国信息经济学会年会论文集.
西安:西安交通大学出版社,2008:393-400.
[10]王旭东.
工业化与信息化已到相互渗透新阶段.
中国制造业信息化,2008(1):12-13.
[11]周振华.
工业化与信息化的互动与融合.
中国制造业信息化,2008(1):18-19.
[12]明贵栋.
工业与信息化融合,催化传统产业跨越式发展.
中国工业报,2008(3):1-2.
〔作者简介〕王晰巍,女,1975年生,副教授,博士,工商管理在站博士后,发表论文40余篇.
靖继鹏,男,1942年生,教授,主任,博士生导师,发表论文近百篇.
刘铎,男,1983年生,硕士研究生.
马思思,女,1989年生,本科.
08
欧路云新上了美国洛杉矶cera机房的云服务器,具备弹性云特征(可自定义需要的资源配置:E5-2660 V3、内存、硬盘、流量、带宽),直连网络(联通CUVIP线路),KVM虚拟,自带一个IP,支持购买多个IP,10G的DDoS防御。付款方式:PayPal、支付宝、微信、数字货币(BTC USDT LTC ETH)测试IP:23.224.49.126云服务器 全场8折 优惠码:zhujiceping...
近日快云科技发布了最新的夏季优惠促销活动,主要针对旗下的香港CN2 GIA系列的VPS云服务器产品推送的最新的75折优惠码,国内回程三网CN2 GIA,平均延迟50ms以下,硬件配置方面采用E5 2696v2、E5 2696V4 铂金Platinum等,基于KVM虚拟架构,采用SSD硬盘存储,RAID10阵列保障数据安全,有需要香港免备案CN2服务器的朋友可以关注一下。快云科技怎么样?快云科技好不...
Sharktech 鲨鱼机房商家我们是不是算比较熟悉的,因为有很多的服务商渠道的高防服务器都是拿他们家的机器然后部署高防VPS主机的,不过这几年Sharktech商家有自己直接销售云服务器产品,比如看到有新增公有云主机有促销活动,一般有人可能买回去自己搭建虚拟主机拆分销售的,有的也是自用的。有看到不少网友在分享到鲨鱼机房商家促销活动期间,有赠送开通公有云主机$50,可以购买最低配置的,$49/月的...
奇虎论坛为你推荐
回收站在哪回收站 在c盘的路径最新qq空间代码QQ空间代码有哪些???万网核心代理哪里可以注册免费代理?ghostxp3ghost xp sp3 和 windows xp3有啥区别镜像文件是什么系统镜像是什么iphone越狱后怎么恢复苹果越狱后怎么恢复出厂设置安装迅雷看看播放器迅雷看看播放器安装ios系统ios系统有哪些版本?云挂机有免费的云挂机软件吗?什么是云平台云平台和云计算的区别是什么?
青岛虚拟主机 ip反查域名 中国万网域名 winscp 香港托管 nerd 20g硬盘 服务器日志分析 win8升级win10正式版 阿里云代金券 css样式大全 php空间购买 台湾谷歌 云营销系统 日本代理ip 谷歌台湾 防cc攻击 深圳域名 美国迈阿密 杭州电信 更多