商品点评网站

点评网站  时间:2021-04-30  阅读:()
第33卷第3期2018年6月系统工程学报JOURNALOFSYSTEMSENGINEERINGVol.
33No.
3Jun.
2018依据在线评论的商品排序方法毕建武,刘洋,樊治平(东北大学工商管理学院,辽宁沈阳110167)摘要:提出了一种依据商品在线评论的基于多粒度情感强度分析和随机逼近理想点排序法的商品排序方法.
使用爬虫软件和ICTCLAS对消费者关注的备选商品的在线评论进行获取和预处理.
依据预处理后的评论,通过提出多粒度情感强度分析算法确定每条评论针对商品属性的情感强度值.
通过对得到的情感强度值进行统计分析,得到备选商品针对商品属性的多粒度情感强度分布形式的属性值.
最后,依据得到多粒度情感强度分布形式的属性值,采用随机逼近理想点排序法确定备选商品的排序.
基于中关村在线中的数码相机在线评论,给出了提出方法应用的实例分析.
关键词:商品排序;在线评论;多粒度情感强度;累积分布;随机逼近理想点排序法中图分类号:C934文献标识码:A文章编号:10005781(2018)03042211doi:10.
13383/j.
cnki.
jse.
2018.
03.
013MethodforrankingproductsthroughonlinereviewsBiJianwu,LiuYang,FanZhiping(SchoolofBusinessAdministration,NortheasternUniversity,Shenyang110167,China)Abstract:Howtoautomaticallyanalyzethehugeamountsofonlinereviewsandrankproductsisanewimpor-tantresearchtopic.
Thispaperproposesamethodbasedonmulti-granularitysentimentstrengthanalysisandstochastictechniquetoorderpreferencesforproductsthroughonlinereviewsaccordingtotheclosenesstoanidealsolution(TOPSIS).
Inthismethod,onlinereviewsofalternativeproductsarerstcrawledbywebcrawlersoftwareandprocessedbyICTCLASsoftware.
Then,accordingtotheprocessedonlinereviews,analgorithmisgiventocalculatethesentimentstrengthsofonlinereviewsconcerningproductfeatures.
Furthermore,ac-cordingtotheresultsofsentimentstrengthanalysis,thefeaturevaluesintheformofdistributionconcerningmulti-granularitysentimentstrengthscanbeobtainedbystatisticalanalysis.
Accordingtotheobtainedfeaturevalues,therankingofalternativeproductscanbedeterminedbystochasticTOPSISmethod.
Finally,basedontheonlinereviewsondigitalcamerafromtheZhongguancunonline,acaseanalysisisgiventoillustratetheproposedmethod.
Keywords:goodsranking;onlinereviews;multi-granularitysentimentstrength;cumulativedistribution;stochastictechniquefororderpreferencebysimilaritytoanidealsolution收稿日期:20161122;修订日期:20170130.
基金项目:国家自然科学基金资助项目(71771043;71571039;71271049;71371002);中央高校基本科研业务经费资助项目(N170605001).
通信作者第3期毕建武等:依据在线评论的商品排序方法4231引引引言言言随着互联网的不断发展,越来越多的电子商务网站和社交媒体平台鼓励消费者在网站上发表他们已购买或使用过的商品的相关评论信息[1,2].
与商品卖方提供的商品描述相比,这些由消费者提供的商品在线评论信息能够更加客观的反应商品的真实情况.
一些研究结果表明,大众消费者在购买商品(尤其是价格较高的商品)之前通常会阅读关于该商品的在线评论信息,并依据商品在线评论信息做出最终的购买决策[36].
然而,由于商品在线评论属于非结构化文本数据而且其数量往往较大,如果让消费者逐条阅读和分析大量在线评论信息进而做出购买决策将会非常繁琐和困难[7].
因此,为了支持消费者的购买决策,如何客观的对大量的商品在线评论进行自动化分析并对相关商品进行排序是一个非常值得关注的研究问题.
目前,基于在线评论的商品排序已经引起了国内外一些学者的关注,并取得了一些研究成果.
例如Zhang等[8]较早的关注到了基于在线评论的商品排序问题并提出了相应的排序方法,在其方法中,首先提出了一种动态规划技术来识别评论中的比较语句和评价语句,然后依据情感分析技术对比较语句和评价语句的情感倾向进行判定,在此基础上构建了针对同类商品比较的有向加权图,依据有向加权图采用改进的PageRank算法确定了商品排序.
在文献[8]的基础上,Zhang等[9,10]通过考虑在线评论所涉及的商品属性,评论获得的有用性投票(点赞)数量和评论发表时间等因素,对文献[8]所提出的方法进行了改进.
Peng等[11]通过统计商品在线评论中不同属性特征词出现的频率,确定了消费者所关注的重要商品属性,在此基础上,提出了一种基于模糊PROMETHEE的商品排序方法.
Chen等[12]依据同类商品的在线评论信息,通过集成主题模型,TOPSIS和多维尺度分析提出了一种基于在线评论的市场结构可视化方法,通过使用该方法可以确定同类商品的排序.
Najmi等[13]通过考虑商品的品牌,评论的情感倾向和评论的有用性等因素,提出了一种基于在线评论的商品综合排序方法.
Yang等[14]同时考虑了消费者针对商品的打分评级,文本评论和对比性投票等三类信息,提出了一种基于有向加权图的商品排序方法.
已有研究对于基于在线评论的商品排序做出了重要贡献.
然而,目前针对此方面研究所取得的研究成果非常有限,仍显不足.
在已有的研究中[814],通常是首先识别在线评论的正向或负向的情感倾向,再依据得到正向和负向的情感倾向进行商品排序.
目前,一些学者已经明确指出,仅识别在线评论的正向和负向的情感倾向而不考虑相同情感倾向评论的不同情感强度,是过于简化的处理方式,容易导致信息损失[15,16].
如果可以识别商品在线评论不同的情感强度,则可以基于大量在线评论的情感强度来确定商品的排序.
为此,本文提出一种基于多粒度情感强度分析和随机TOPSIS的商品排序方法.
在该方法中,首先通过提出多粒度情感强度分析算法确定每条评论针对商品属性的情感强度值,然后构建备选商品针对商品属性的多粒度情感强度分布形式的属性值,进而采用随机TOPSIS方法确定备选商品的排序.
2依依依据据据在在在线线线评评评论论论的的的商商商品品品排排排序序序问问问题题题及及及排排排序序序方方方法法法2.
1依依依据据据在在在线线线评评评论论论的的的商商商品品品排排排序序序问问问题题题图1展示了一类依据商品在线评论的商品排序问题.
由图1可以看出,消费者在购买商品之前,通常会根据自身的需要和商品的价格等相关信息,初步确定几款备选商品.
为了从多个备选商品中选择最适合的商品,消费者可能会通过商品销售和评论网站获取备选商品的相关在线评论信息.
依据消费者关注的备选商品和属性,如何依据在线评论确定备选商品针对属性的评价结果,并依据属性评价结果和属性权重确定备选商品的排序,这是本文所要解决的问题.
为了便于分析说明,下面的符号用来描述该问题中所涉及的集合和变量.
A={A1,A2,An}表示消费者关注的n个备选商品集合,其中Ai表示消费者关注的第i个备选商品,i=1,2,n.
F={f1,f2,fm}表示消费者关注的m个商品属性集合,其中fj表示消费者关注的424系统工程学报第33卷第j个属性,j=1,2,m.
w=(w1,w2,wm)表示消费者关注的备选商品属性权重向量,其中wj表示属性fj的权重,且满足m∑j=1wj=1,wj0,j=1,2,m.
备选商品属性权重向量可以由消费者根据自身偏好预先给定.
Q=(q1,q2,qn)表示备选商品的评论数量向量,其中qi表示针对备选商品Ai的评论数量,i=1,2,n.
Ri={Ri1,Ri2,Riqi}表示针对备选商品Ai的评论集合,其中Rik表示针对商品Ai的第k条评论,i=1,2,n,k=1,2,qi.
本文所要解决的问题是,依据消费者提供的属性F,属性权重w和在线评论信息Ri,i=1,2,n,如何确定备选商品A1,A2,An的排序,以支持消费者进行商品购买决策.
图1基于商品在线评论的商品排序问题Fig.
1Thegoodsrankingproblembasedononlinereviews2.
2依依依据据据在在在线线线评评评论论论的的的商商商品品品排排排序序序方方方法法法为了解决上述问题,这里给出一种基于多粒度情感强度分析和随机TOPSIS的商品排序方法.
该方法的基本思想是:首先,采用爬虫软件和ICTCLAS软件对消费者关注的备选商品的在线评论进行获取和预处理;然后,依据预处理后的评论,通过提出多粒度情感强度分析算法确定每条评论针对消费者关注的商品属性的情感强度值;再次,通过对得到的情感强度值进行统计分析,构建备选商品针对商品属性的多粒度情感强度分布形式的属性值;最后,依据得到属性值,可以采用随机TOPSIS方法确定备选商品的排序.
下面给出该方法的具体描述.
2.
2.
1备选商品在线评论获取和预处理备选商品在线评论获取和预处理是备选商品在线评论多粒度情感强度分析的基础工作.
本文采用爬虫软件对商品在线评论进行获取,采用ICTCLAS汉语分词系统(http://ictclas.
nlpir.
org/)对获取的评论进行预处理,具体过程如下:1)备选商品在线评论获取根据消费者关注的备选商品集合A={A1,A2,An},采用爬虫软件按照设定的规则对备选商品在线评论进行获取,可以得到备选商品在线评论Ri={Ri1,Ri2,Riqi},i=1,2,n.
2)备选商品在线评论预处理针对备选商品在线评论的预处理包括两个步骤,即分词和词性标注和停用词删除.
下面分别针对这两个步骤给出具体的描述.
(a)分词和词性标注.
采用ICTCLAS汉语分词系统对备选商品在线评论进行分词和词性标注.
通过分词和词性标注能够将句子形式的评论分解成若干词语并且在每个词后标注了相应的词性.
例如,评论"画质非常好"经过分词和词性标注得到的结果为"画质/n非常/d好/a",其中n,d和a分别表示名词,副词和形容词.
第3期毕建武等:依据在线评论的商品排序方法425(b)停用词删除.
停用词通常是指出现频率高,但又没有实际意义的词,例如"了","的","呢"等.
为了提高情感强度分析的效率,通常需要对评论中的停用词进行删除.
本文使用中文停用词表对停用词进行删除.
具体的,将分词及词性标注处理后的评论与中文停用词表中的停用词(保留标点符号)进行比对,并删除在停用词表中出现的词.
将经过预处理后得到的关于备选商品Ai的第k条评论的词集合记为WSik={W1ik,W2ik,Wqikik},其中Wvik表示WSik中的第v个词,qik表示WSik中的词总数,i=1,2,n,k=1,2,qi,v=1,2,qik.
2.
2.
2备选商品属性评论多粒度情感强度分析依据备选商品在线评论预处理结果,为了进行商品排序,需要确定备选商品在线评论针对消费者关注的商品属性的多粒度情感强度值.
为此,这里给出一种基于情感词典的在线评论多粒度情感强度分析方法,该方法主要包括三个步骤,包括备选商品属性的同义词合并,备选商品领域情感词典建立和备选商品属性评论多粒度情感强度识别.
下面给出每个步骤的具体描述.
1)备选商品属性的同义词合并不同的评论者在发表评论时描述同类商品的同一属性可能使用不同的词,因此有必要首先对描述同一商品属性的同义词进行合并.
本文采用基于词语相似度的方法来对描述同一商品属性的同义词进行合并.
具体过程如下.
首先,依据备选商品在线评论预处理结果,从所有备选商品的评论词集合中提取名词.
令WSnoun={W1noun,W2noun,Wqnounnoun}表示从所有备选商品评论中提取的名词集合,其中Wlnoun表示WSnoun中第l个名词,qnoun表示名词集合中名词的数量,l=1,2,qnoun.
然后,令Wfj表示针对商品属性fj的标准用词,j=1,2,m.
通常,针对消费者可能关注的属性,电子商务网站可以预先设定商品属性的标准用词,并且要求消费者通过对所提供的标准用词进行勾选来确定消费者所关注的商品属性.
因此,考虑针对各商品属性的标准用词为已知条件.
这样,通过文献[17]提出的方法,可以计算词Wlnoun与商品属性标准用词Wfj的相似度sim(Wfj,Wlnoun),即sim(Wfj,Wlnoun)=αDis(Wfj,Wlnoun)+α,j=1,2,m,l=1,2,qnoun,(1)其中Dis(Wfj,Wlnoun)表示依据同义词词林[17]计算得到的Wfj和Wlnoun之间的距离;α为可调参数,α的默认取值为1.
6.
由sim(Wfj,Wlnoun)的值的大小可确定词Wfj和Wlnoun是否为同义词.
具体的,若sim(Wfj,Wlnoun)0.
5,则认为词Wfj是Wlnoun的同义词;如果sim(Wfj,Wnounl)<0.
5,则认为词Wfj不是Wlnoun的同义词[11,17].
通过相似度计算,可以得到针对词Wfj的同义词集合WSj={W1fj,W2fjWqfjfj},其中,Wpfj表示WSj,将评论词集合WSik中的Wpfj替换为Wfj,即可完成同义词合并,i=1,2,n,j=1,2,m,k=1,2,qi,p=1,2,qfi.
通常一条商品评论中可能包含针对多个属性的评论信息,为了识别一条评论中关于不同属性的多粒度情感强度值,需要首先识别一条评论中针对不同属性的评论信息.
记WSjik为WSik中的针对属性j的评论信息,i=1,2,n,j=1,2,m,k=1,2,qi.
关于WSjik的确定方式如下:将替换同义词后得到的WSik中的词与属性标准用词Wfj进行比对,如果Wfj∈WSik,则提取WSik中包含词Wfj的两个相邻标点符号之间的评论所包含的形容词,动词和副词[18],可以得到WSjik={Wjik1,Wjik2,Wjikqj},其中Wjiku表示WSjik中的第u个词,qj表示WSjik中词的总数,i=1,2,n,j=1,2,m,k=1,2,qi.
特别的,如果Wfj/∈WSik,则记WSjiki=1,2,n,j=1,2,m,k=1,2,qi.
426系统工程学报第33卷2)备选商品领域情感词典建立考虑到针对不同商品的情感词集合可能不同,为了提高多粒度情感强度分析的准确性,有必要建立商品领域情感词典.
备选商品领域情感词典建立的具体过程如下.
令WS′={W1,W2,Wq′}为针对备选商品评论的意见词集合,其中Wg表示WS′中的第g个意见词,q′表示WS′中词总数,g=1,2,q′.
WS′可以通过式(2)确定,即WS′=WS111∪WS112∪···∪WSmnqn.
(2)依据得到的WS′,本文利用HowNet(http://www.
keenage.
com/)来构建商品领域的正向情感词典和负向情感词典.
具体的,令WS+HowNet和WSHowNet分别为HowNet中通用的正向评价词语和负向评价词语的集合.
根据WS+HowNet,WSHowNet和WS′初步构建备选商品领域正向情感词典WS+P和负向情感词典WSP,其中WS+P=WS+HowNet∩WS′,(3)WSP=WSHowNet∩WS′.
(4)需要指出的是,由于可能出现WS′中的部分词同时不属于WS+HowNet和WSHowNet的情况,针对以上情况需要通过人工识别来确定相应词所隶属的领域情感词典,并最终得到备选商品领域情感词典.
记WS+和WS分别表示最终确定的备选商品领域正向情感词典和备选商品领域负向情感词典.
3)备选商品属性评论多粒度情感强度识别令sjik表示商品Ai的评论词集合WSik中针对属性fj的情感强度值,i=1,2,n,j=1,2,m,k=1,2,qi.
在本文中,将评论的情感强度划分为7个粒度.
特别的,若商品Ai的评论WSik中不包含针对属性fj的评论,即WSjik="",则记sjik="",因此sjik的值有8种可能的情况,即sjik∈{3,2,1,0,1,2,3,其中3(3),2(2)和1(1)分别表示负(正)向情感倾向中的"非常","一般"和"稍微"3个情感强度级别,0表示中性情感倾向,i=1,2,n,j=1,2,m,k=1,2,qi.
令WSneg表示常用的中文否定词的集合(http://www.
datatang.
com/data/44198),WSd表示HowNet程度词集合(http://www.
keenage.
com/).
根据HowNet中划分的中文程度词级别,WSd可以被进一步划分为两个子程度词集合,即"情感强度增强词集合"和"情感强度减弱词集合",分别用WS+d和WSd表示.
sjik的值主要是依赖于将WSjik中的词与WS+,WS,WSneg,WSd,WS+d和WSd中的词进行比对来确定,i=1,2,n,j=1,2,m,k=1,2,qi.
令sj+ik表示WSjik与WS+交集的指示变量,sjik表示WSjik与WS交集的指示变量,sjnegik表示WSjik与WSneg交集的指示变量,sjikd表示WSjik与WSd交集的指示变量,i=1,2,n,j=1,2,m,k=1,2,qi.
确定sjik的情感强度分析算法的步骤如下:步骤1判断WSjik是否为空集,若WSjik=,则sjik←0;否则跳转到步骤2;步骤2判断WSjik是否为"",若WSjik="",则sjik←"";否则跳转到步骤3;步骤3判断WSjik与WS+的交集是否为空集,若WS+∩WSjik=,则sj+ik←1;否则sj+ik←0;步骤4判断WSjik与WS的交集是否为空集,若WS∩WSjik=,则sjik←1;否则sjik←0;步骤5判断WSjik与WSneg的交集是否为空集,若WSneg∩WSjik=,则sjnegik←1;否则sjnegik←0;步骤6判断WSjik与WSd的交集是否为空集,若WSjik∩WSd=,则sjikd←0;若WS+d∩WSjik=,则sjikd←1;否则sjikd←1;步骤7若sj+ik=sjik=0或者sj+ik=sjik=1,则sjik←0;若sj+ik=1,sjik=0和sjnegik=1或者sj+ik=0,sjik=1,和sjnegik=0,则sjik←2sjikd,否则sjik←2+sjikd.
令Tjik=(αjik,βjik,γjik,δjik,εjik,ζjik,ηjik)表示情感强度值sjik的指示向量,αjik,βjik,γjik,δjik,εjik,ζjik,ηjik=第3期毕建武等:依据在线评论的商品排序方法4270或1,且满足αjik+βjik+γjik+δjik+εjik+ζjik+ηjik1,i=1,2,n,j=1,2,m,k=1,2,qi.
Tjik可以通过式(5)来确定,即Tjik=(1,0,0,0,0,0,0),如果sjik=3(0,1,0,0,0,0,0),如果sjik=2(0,0,1,0,0,0,0),如果sjik=1(0,0,0,1,0,0,0),如果sjik=0(0,0,0,0,1,0,0),如果sjik=1(0,0,0,0,0,1,0),如果sjik=2(0,0,0,0,0,0,1),如果sjik=3(0,0,0,0,0,0,0),如果sjik="",(5)其中i=1,2,n,j=1,2,m,k=1,2,qi.
2.
2.
3备选商品排序基于备选商品属性评论情感强度分析结果,即Tjik=(αjik,βjik,γjik,δjik,εjik,ζjik,ηjik),i=1,2,n,j=1,2,m,k=1,2,qi,可以构建备选商品针对属性的多粒度情感强度分布形式的属性值.
在此基础上,可以采用随机TOPSIS方法,对备选商品进行排序.
具体计算过程描述如下.
令Tji=(ρji,ji,σji,τji,νji,φji,χji)表示针对商品Ai的关于属性fj的评论情感强度值统计向量,根据Tjik=(αjik,βjik,γjik,δjik,εjik,ζjik,ηjik),i=1,2,n,j=1,2,m,k=1,2,qi,可计算Tji=(qi∑k=1αjik,qi∑k=1βjik,qi∑k=1γjik,qi∑k=1δjik,qi∑k=1εjik,qi∑k=1ζjik,qi∑k=1ηjik),(6)其中i=1,2,n,j=1,2,m.
令κji表示备选商品Ai的评论中包含属性fj的评论的数量,则κji=ρji+ji+σji+τji+νji+φji+χji.
(7)依据Tji=(ρji,ji,σji,τji,νji,φji,χji)和κji可以确定商品Ai关于属性fj的多粒度情感强度分布形式的属性值Pij(x),i=1,2,n,j=1,2,m,即Pij(3)=ρji/κji,Pij(2)=ji/κji,Pij(1)=σji/κji,Pij(0)=τji/κji,Pij(1)=νji/κji,Pij(2)=φji/κji,Pij(3)=χji/κji,i=1,2,n,j=1,2,m.
针对Pij(x),x=1,2,3,0,1,2,3的表达式,相应的累积分布函数可以写为Fij(x)=0,x<3ρji/κji,3x<2(ρji+ji)/κji,2x<1(ρji+ji+σji)/κji,1x<0(ρji+ji+σji+τji)/κji,0x<1(ρji+ji+σji+τji+νji)/κji,1x<2(ρji+ji+σji+τji+νji+φji)/κji,2x<31,x3,i=1,2,n,j=1,2,m.
(8)在此基础上,可以采用随机TOPSIS方法[19],对备选商品进行排序.
令F+=(F+1(x),F+2(x)F+m(x))和F=(F1(x),F2(x)Fm(x))分别表示正理想方案428系统工程学报第33卷和负理想方案所对应的属性值向量.
依据文献[19]可知,F+j(x)和Fj(x)可分别采用式(9)和式(10)确定,即F+j(x)=min{Fij(x)|i=1,2,n},i=1,2,n,j=1,2,m,(9)Fj(x)=max{Fij(x)|i=1,2,n},i=1,2,n,j=1,2,m.
(10)备选商品Ai关于属性fj的多粒度情感强度分布形式的属性值Pij(x)的累积分布函数Fij(x)到F+j(x)和Fj(x)的距离可以采用式(11)和式(12)进行计算,即D(Fij(x),F+j(x))=3∑h=3(Fij(h)F+j(h)),i=1,2,n,j=1,2,m,(11)D(Fij(x),Fj(x))=3∑h=3(Fj(h)Fij(h)),i=1,2,n,j=1,2,m,(12)其中Fij(h),F+j(h)和Fj(h)分别表示Fij(x),F+j(x)和Fj(x)在x=h处的取值.
依据F+j(x),Fj(x),D(Fij(x),F+j(x)),D(Fij(x),Fj(x))和消费者给出的商品属性权重向量w,分别计算备选商品Ai到正、负理想累积分布向量F+和F的距离,即D+i=m∑j=1wjD(Fij(x),F+j(x)),i=1,2,n,(13)Di=m∑j=1wjD(Fij(x),Fj(x)),i=1,2,n.
(14)最后,依据D+i和Di可以计算备选商品Ai的贴近度Ci=Di/(Di+D+i),i=1,2,n.
(15)可见,Ci的值越大,备选商品Ai越优.
因此按照计算得到的Ci的值的大小对所有备选商品排序,可以得到所有备选商品的优劣排序结果.
综上,下面给出依据商品在线评论的基于多粒度情感强度分析和随机TOPSIS的商品排序方法的具体计算步骤.
步骤1采用爬虫软件获取备选商品在线评论Ri={Ri1,Ri2,Rqi},对Ri进行预处理得到每条评论的词集合WSik={W1ik,W2ik,Wqikik},i=1,2,n,k=1,2,qi;步骤2根据式(1),对备选商品属性的同义词进行合并,并确定每条评论中针对不同属性的评论信息WSjik,i=1,2,n,j=1,2,m,k=1,2,qi;步骤3根据式(2)式(4),建立商品领域正向情感词典WS+和负向情感词典WS;步骤4根据算法1,计算备选商品属性评论多粒度情感强度值sjik,i=1,2,n,j=1,2,m,k=1,2,qi;步骤5根据式(5)式(8),构建备选商品针对商品属性的多粒度情感强度分布形式的属性值Pij(x),i=1,2,n,j=1,2,m;步骤6根据式(9)式(10),构建正、负理想累积分布向量F+和F;步骤7根据式(11)式(15),计算备选商品Ai的贴近度Ci,并根据Ci由大到小对备选商品进行排序,i=1,2,n.
3算算算例例例分分分析析析为了进一步说明本文提出方法的潜在应用,本部分给出一个依据在线评论信息对多款相机商品排序的第3期毕建武等:依据在线评论的商品排序方法429算例分析.
考虑某消费者欲购买一款价格在1万元左右的数码相机,通过多方面了解信息,初步确定了4款备选数码相机,即A1:佳能6D套机(24mm105mm);A2:佳能7D套机(18mm135mm);A3:尼康D610套机(24mm120mm);A4:尼康D750套机(24mm120mm).
该消费者关注的备选相机属性为:性价比(f1),操控(f2),画质(f3),电池(f4),镜头(f5),对焦(f6),快门(f7),并且该消费者给出的备选相机属性权重向量为w=(0.
2,0.
1,0.
2,0.
1,0.
1,0.
1,0.
2).
为了支持该消费者做出合理的购买决策,需要依据在线评论对以上4款备选相机进行排序.
首先,以中关村在线(http://www.
zol.
com.
cn/)提供的商品点评作为备选相机评论来源,使用LocoySpider软件采集备选相机在线评论,得到备选相机在线评论Ri={Ri1,Ri2,Riqi},对Ri进行预处理得到每条评论的词集合WSik={W1ik,W2ik,Wqikik},i=1,2,3,4,k=1,2,qi,q1=402,q2=201,q3=220,q4=350.
以备选相机A1为例,对其评论进行预处理的结果如表1所示.
根据式(1),对描述相机属性的同义词进行合并,并识别每条评论中针对不同属性的评论信息,即确定WSjik.
这里以备选相机A1的第一条评论R11为例进行说明,R11中仅包含画质(f3)的评论语句,对该条评论进行同义词合并,提取包含描述属性f3的词Wf3(画质)的两个相邻标点符号之间的形容词,动词和副词可以得到该条评论中针对画质(Wf3)的评论信息为WS311={非常/d,好/a}.
表1备选相机A1的评论预处理结果Table1Thepre-processingresultsofthereviewsconcerningalternativecameraA1评论序号预处理结果1机身/n轻巧/a,/wd解除/v腰/n酸/a背/n痛/a(之)苦/an.
/w高/a感/vg好/a,/w画质/n效果/n非常/d好/a.
佳能/nz(看)应付/v产品/n迟迟/d不/d上市/v(避免)尴尬/a/w2画质/n赞/v,/w高/a感/vg赞/v,/w暗/a部/n对焦/n能力/n赞/v.
.
.
.
.
.
402操控/n方便/a,/w画质/n漂亮/a,/w套头/n不/d(像)网上/s评价/v(那样),/w挺/d好/a.
/w然后,根据式(2)式(4),建立相机领域正向情感词典WS+和负向情感词典WS,部分情感词见表2.
表2部分情感词Table2PartialsentimentwordsWS+WS满意、棒、好、赞、优秀、大气、精致、精细、高档……差、惨、多、不行、离谱、毛糙、弱、寒酸……根据情感强度分析算法,计算备选相机针对属性的评论的情感强度值sjik,i=1,2,3,4,k=1,2,qi,q1=402,q2=201,q3=220,q4=350.
这里以WS311={非常/d,好/a}为例来进一步说明如何通过情感强度分析算法确定sjik的值.
由于WS311中仅存在正向情感词"好"和情感强度增强词"非常",即WS311∩WS+=,WS311∩WS=,WS311∩WSneg=和WS311∩WS+d=,由情感强度分析算法的步骤3,步骤4,步骤5和步骤6可分别确定各指示变量的值,即s3+11=1,s311=0,s311d=1和s3neg11=0.
在此基础上,可以由情感强度分析算法的步骤7确定s311的值,即s311=2+1=3.
最终得到该条评论关于属性f3的情感强度值为3.
进一步地,依据式(5)式(8)和sjik,确定相机Ai关于属性f3的多粒度情感强度分布形式的属性值Pij(x),i=1,2,3,4,k=1,2,qi,q1=402,q2=201,q3=220,q4=350,结果如表3所示.
依据表3和式(8),可以得到针对Pij(x)的累积分布函数Fij(x),i=1,2,3,4,j=1,2,7.
为了节省篇幅,这里以F11(x)为例,简要说明其计算过程.
430系统工程学报第33卷表3备选相机关于属性的多粒度情感强度分布形式的属性值Table3Featurevaluesintheformofdistributionconcerningmulti-granularitysentimentstrengthsonalternativecameras备选相机属性3210123f10.
00000.
00000.
08340.
00000.
52080.
27080.
1250f20.
02440.
07320.
41460.
00000.
46340.
02440.
0000f30.
00000.
00850.
04240.
00000.
55080.
35590.
0424A1f40.
00000.
04550.
09090.
13640.
54550.
18180.
0000f50.
02080.
02080.
08330.
33330.
54170.
00000.
0000f60.
01190.
05950.
49400.
02980.
33930.
05950.
0060f70.
01090.
02170.
48910.
16300.
27170.
03260.
0109f10.
00000.
04260.
44680.
00000.
31910.
10640.
0851f20.
00000.
00000.
03030.
09090.
33330.
45450.
0909f30.
00000.
06350.
47620.
09520.
33330.
01590.
0159A2f40.
00000.
00000.
29170.
25000.
37500.
08330.
0000f50.
01960.
03920.
39220.
41180.
11760.
01960.
0000f60.
01030.
02060.
11340.
05150.
64950.
13400.
0206f70.
00000.
02130.
14890.
04260.
72340.
04260.
0213f10.
00000.
00000.
11430.
11430.
60000.
08570.
0857f20.
00000.
00000.
26320.
10530.
63160.
00000.
0000f30.
00000.
03230.
06450.
00000.
67740.
22580.
0000A3f40.
00000.
05880.
11760.
35290.
23530.
17650.
0588f50.
00000.
00000.
18180.
31820.
36360.
09090.
0455f60.
03130.
06250.
59380.
12500.
15630.
03130.
0000f70.
00000.
02780.
58330.
16670.
19440.
02780.
0000f10.
00000.
00000.
16440.
19180.
42470.
10960.
1096f20.
00000.
00000.
11540.
07690.
76920.
03850.
0000f30.
00000.
03700.
07410.
07410.
77780.
03700.
0000A4f40.
00000.
00000.
11760.
35290.
47060.
05880.
0000f50.
00000.
01370.
16440.
34250.
38360.
08220.
0137f60.
01220.
02440.
04880.
09760.
54880.
20730.
0610f70.
01200.
02410.
28920.
22890.
32530.
07230.
0482表4正、负理想累积分布向量Table4Theprobabilitydistributionsoftheidealandnadirsolutions(∞,3)[3,2)[2,1)[1,0)[0,1)[1,2)[2,3)[3,+∞)F+1(x)0.
00000.
00000.
00000.
08330.
08330.
60420.
87501.
0000F+2(x)0.
00000.
00000.
00000.
03030.
12120.
45450.
90911.
0000F+3(x)0.
00000.
00000.
00850.
05080.
05080.
60170.
95761.
0000F+4(x)0.
00000.
00000.
00000.
11760.
27270.
76470.
94121.
0000F+5(x)0.
00000.
00000.
00000.
12500.
45830.
86360.
95451.
0000F+6(x)0.
00000.
00000.
03090.
08540.
18290.
73170.
93901.
0000F+7(x)0.
00000.
00000.
02130.
17020.
21280.
78950.
95181.
0000F1(x)0.
00000.
00000.
04260.
48940.
57140.
82860.
96431.
0000F2(x)0.
00000.
02440.
13330.
51220.
53331.
00001.
00001.
0000F3(x)0.
00000.
00000.
06350.
53970.
63490.
96831.
00001.
0000F4(x)0.
00000.
04350.
05880.
69570.
91301.
00001.
00001.
0000F5(x)0.
00000.
02080.
05880.
45100.
86271.
00001.
00001.
0000F6(x)0.
00000.
03130.
09380.
68750.
81250.
96881.
00001.
0000F7(x)0.
00000.
01200.
05260.
61110.
77780.
97221.
00001.
0000由表3可知,备选相机A1关于属性f1的多粒度情感强度分布形式的属性值为P11(3)=0.
0000,P11(2)=0.
0000,P11(1)=0.
0834,P11(0)=0.
0000,P11(1)=0.
5208,P11(2)=0.
2708,P11(3)=0.
1250.
第3期毕建武等:依据在线评论的商品排序方法431依据式(8),P11(x)的相应累积分布函数F11(x)可以写为F11(x)=0.
0000,x<30.
0000,3x<20.
0000,2x<10.
0834,1x<00.
0834,0x<10.
6042,1x<20.
8750,2x<31.
0000,x3.
在此基础上,依据式(9)和式(10),可构建正、负理想累积分布向量F+=(F+1(x),F+2(x)F+7(x))和F=(F1(x),F2(x)F7(x)),结果如表4所示.
根据式(11)式(14),计算备选相机Ai到正向和负向理想累积分布向量F+和F的距离,即D+i和Di,i=1,2,3,4.
计算结果为D+1=0.
5331,D+2=0.
7449,D+3=0.
7241,D+4=0.
4979,D1=0.
8724,D2=0.
6605,D3=0.
6813,D4=0.
9075.
最后,依据式(15),可计算备选相机的贴近度,计算结果为C1=0.
6207,C2=0.
4700,C3=0.
4847,C4=0.
6457.
通过比较4款备选相机的贴近度的值可得到4款相机排序结果为A4A1A3A2,即该消费者可以考虑购买备选相机A4.
4结结结束束束语语语本文给出了一种依据商品在线评论的基于多粒度情感强度分析和随机TOPSIS的商品排序方法.
在该方法中,首先,采用爬虫软件和ICTCLAS对消费者关注的备选商品的在线评论信息进行获取和预处理.
然后,依据预处理后的评论,通过提出的多粒度情感强度分析算法可以确定每条评论针对消费者关注的商品属性的情感强度值.
进一步地,通过对得到的情感强度值进行统计分析,可以构建备选商品针对商品属性的多粒度情感强度分布形式的属性值.
在此基础上,可以依据随机TOPSIS方法确定备选商品的排序.
该方法具有概念清晰、计算简单等特点,有较强的可操作性和实用性,为解决依据在线评论的商品排序问题提供了一种新的思路.
需要强调的是,在本文研究中,提出了一种多粒度情感强度分析算法.
使用该算法,可以将在线评论的情感强度划分为七个情感粒度,进而通过统计分析,可以将海量在线评论中所蕴含的针对商品的情感强度转化为多粒度情感强度分布形式的属性值.
这种处理方式,一方面避免了仅考虑正向和负向情感倾向所造成的大量信息损失,另一方面方便借助已有的基于随机(频度)分布的信息处理和决策分析方法进行基于海量在线评论信息的信息处理与决策分析,为进一步开展基于在线评论信息的决策分析奠定了良好的基础.
参参参考考考文文文献献献:[1]ChenH,ChiangRHL,StoreyVC.
BusinessintelligenceandanalyticsFrombigdatatobigimpact.
MISQuarterly,2012,36(4):1165–1188.
[2]刘洋,廖貅武,刘莹.
在线评论对应用软件及平台定价策略的影响.
系统工程学报,2014,29(4):560–570.
LiuY,LiaoXW,LiuY.
Theimpactofonlinereviewonsoftwareandplatform'spricingstrategies.
JournalofSystemEngineering,2014,29(4):560–570.
(inChinese)[3]Hennig-ThurauT,GwinnerKP,WalshG,etal.
Electronicword-of-mouthviaconsumeropinionplatforms:Whatmotivatescon-sumerstoarticulatethemselvesontheinternet.
JournalofInteractiveMarketing,2004,18(1):38–52.
[4]LiuY,BiJW,FanZP.
Rankingproductsthroughonlinereviews:Amethodbasedonsentimentanalysistechniqueandintuitionisticfuzzysettheory.
InformationFusion,2017,36:149–161.
432系统工程学报第33卷[5]SenecalS,NantelJ.
Theinuenceofonlineproductrecommendationsonconsumers'onlinechoices.
JournalofRetailing,2004,80(2):159–169.
[6]张紫琼,叶强,李一军.
互联网商品评论情感分析研究综述.
管理科学学报,2010,13(6):84–96.
ZhangZQ,YeQ,LiYJ.
Literaturereviewonsentimentanalysisofonlineproductreviews.
JournalofManagementSciencesinChina,2010,13(6):84–96.
(inChinese)[7]ZhangW,XuH,WanW.
Weaknessnder:FindproductweaknessfromChinesereviewsbyusingaspectsbasedsentimentanalysis.
ExpertSystemswithApplications,2012,39(11):10283–10291.
[8]ZhangK,NarayananR,ChoudharyA.
MiningOnlineCustomerReviewsforRankingProducts.
TechnicalReport,EECSDepart-ment,NorthwesternUniversity,2009.
[9]ZhangK,NarayananR,ChoudharyA.
Voiceofthecustomers:Miningonlinecustomerreviewsforproductfeature-basedranking//Proceedingsofthe3rdConferenceonOnlineSocialNetworks.
2010.
[10]ZhangK,ChengY,LiaoW,etal.
Miningmillionsofreviews:Atechniquetorankproductsbasedonimportanceofreviews//Proceedingsofthe13thACMInternationalConferenceonElectronicCommerce.
2011.
[11]PengY,KouG,LiJ.
AfuzzyPROMETHEEapproachforminingcustomerreviewsinChinese.
ArabianJournalforScienceandEngineering,2014,39(6):5245–5252.
[12]ChenK,KouG,ShangJ,etal.
Visualizingmarketstructurethroughonlineproductreviews:Integratetopicmodeling,TOPSIS,Andmulti-dimensionalscalingapproaches.
ElectronicCommerceResearchAndApplications,2015,14(1):58–74.
[13]NajmiE,HashmiK,MalikZ,etal.
CAPRA:Acomprehensiveapproachtoproductrankingusingcustomerreviews.
Computing,2015,97(8):843–866.
[14]YangX,YangG,WuJ.
Integratingrichandheterogeneousinformationtodesignarankingsystemformultipleproducts.
DecisionSupportSystems,2016,84:117–133.
[15]Serrano-GuerreroJ,OlivasJA,RomeroFP,etal.
Sentimentanalysis:Areviewandcomparativeanalysisofwebservices.
Informa-tionSciences,2015,311:18–38.
[16]TangH,TanS,ChengX.
Asurveyonsentimentdetectionofreviews.
ExpertSystemswithApplications,2009,36(7):10760–10773.
[17]LiuQ,LiS.
WordsimilaritycomputingbasedonHow-Net//Proceedingsofthe3thChineseLexicalSemanticWorkshop.
2002.
[18]HuangSL,ChengWC.
DiscoveringChinesesentencepatternsforfeature-basedopinionsummarization.
ElectronicCommerceResearchandApplications,2015,14(6):582–591.
[19]FanZP,ZhangX,LiuY,etal.
Amethodforstochasticmultipleattributedecisionmakingbasedonconceptsofidealandanti-idealpoints.
AppliedMathematicsandComputation,2013,219(24):11438–11450.
作者简介:毕建武(1988—),男,河北唐山人,博士生,研究方向:大数据与管理决策分析,Email:jianwubi@126.
com;刘洋(1978—),男,辽宁沈阳人,博士,副教授,博士生导师,研究方向:大数据管理决策分析,Email:liuy@mail.
neu.
edu.
cn;樊治平(1961—),男,江苏镇江人,博士,教授,博士生导师,研究方向:运作管理与决策分析,Email:zpfan@mail.
neu.
edu.
cn.

vdsina:俄罗斯VPS(datapro),6卢布/天,1G内存/1核(AMD EPYC 7742)/5gNVMe/10T流量

今天获得消息,vdsina上了AMD EPYC系列的VDS,性价比比较高,站长弄了一个,盲猜CPU是AMD EPYC 7B12(经过咨询,详细CPU型号是“EPYC 7742”)。vdsina,俄罗斯公司,2014年开始运作至今,在售卖多类型VPS和独立服务器,可供选择的有俄罗斯莫斯科datapro和荷兰Serverius数据中心。付款比较麻烦:信用卡、webmoney、比特币,不支持PayPal...

香港站群多ip服务器多少钱?零途云香港站群云服务器怎么样?

香港站群多ip服务器多少钱?想做好站群的SEO优化,最好给每个网站都分配一个独立IP,这样每个网站之间才不会受到影响。对做站群的站长来说,租用一家性价比高且提供多IP的香港多ip站群服务器很有必要。零途云推出的香港多ip站群云服务器多达256个IP,可以满足站群的优化需求,而且性价比非常高。那么,香港多ip站群云服务器价格多少钱一个月?选择什么样的香港多IP站群云服务器比较好呢?今天,小编带大家一...

80VPS:香港服务器月付420元;美国CN2 GIA独服月付650元;香港/日本/韩国/美国多IP站群服务器750元/月

80vps怎么样?80vps最近新上了香港服务器、美国cn2服务器,以及香港/日本/韩国/美国多ip站群服务器。80vps之前推荐的都是VPS主机内容,其实80VPS也有独立服务器业务,分布在中国香港、欧美、韩国、日本、美国等地区,可选CN2或直连优化线路。如80VPS香港独立服务器最低月付420元,美国CN2 GIA独服月付650元起,中国香港、日本、韩国、美国洛杉矶多IP站群服务器750元/月...

点评网站为你推荐
音视频iphone现有新的ios更新可用请从ios14be苹果手机更新不了最新14系统是怎么回事?linux防火墙设置如何在Linux中启动/停止和启用/禁用FirewallD和Iptables防火墙企业信息查询系统官网怎么查企业信息是否在网上公示过银花珠树晓来看关于下雪景的诗句泉州商标注册泉州本地商标注册要怎么注册?具体流程是什么?curl扩展如何增加mysqli扩展什么是通配符DOS命令具体讲的是什么?网站后台密码破解怎样破解网站后台管理用户名密码powerbydedecms如何去掉织梦网站底部的powered by dedecms方法
kvmla 加勒比群岛 好看的留言 seovip tightvnc 镇江联通宽带 linux空间 免费防火墙 百度云1t 美国免费空间 hkt 上海联通宽带测速 空间登录首页 日本代理ip xuni 存储服务器 小夜博客 godaddyssl 塔式服务器 winserver2008 更多