用户新手指南

新手指南  时间:2021-03-02  阅读:()
基于PageRank的微博用户影响力算法研究作者孙红,左腾机构上海理工大学;上海现代光学系统重点实验室发表期刊《计算机应用研究》预排期卷2018年第35卷第4期访问地址http://www.
arocmag.
com/article/02-2018-04-041.
html发布日期2017-04-0117:22:31引用格式孙红,左腾.
基于PageRank的微博用户影响力算法研究[J/OL].
[2017-04-01].
http://www.
arocmag.
com/article/02-2018-04-041.
html.
摘要伴随着互联网的高速发展与普及,微博作为信息交流与传播的载体,已成为新型社会化媒体的代表.
在中国,微博用户规模已经达到了2.
42亿.
微博用户影响力计算对社会日常信息在微博里面有效传播,正确传播,健康传播有着非常重要的意义.
本文以新浪微博数据为实验的对象,通过改进传统的PageRank模型,提出了的新的微博用户影响力排名算法---MBUI-Rank(Micro-BlogUserInfluenceRank)算法.
该算法在传统的PageRank算法模型上,加入了微博用户自身在微博里面行为活动,同时…关键词PageRank,新浪微博,用户影响力,用户自身行为中图分类号TP391基金项目国家自然科学基金资助项目(61170277,61472256);上海市教委科研创新重点项目(12zz137);沪江基金资助项目(C14002)优先出版计算机应用研究第35卷基金项目:国家自然科学基金资助项目(61170277,61472256);上海市教委科研创新重点项目(12zz137);沪江基金资助项目(C14002)作者简介:孙红(1964-),女,北京人,副教授,硕导,博士研究生,主要研究方向为计算机网络通信与云计算、管理科学与工程、计算机科学与技术、控制科学与工程、模式识别与智能系统(823372873@qq.
com);左腾(1992-),男,湖北人,硕士研究生,主要研究方向为大数据、云计算.
基于PageRank的微博用户影响力算法研究*孙红1,2,左腾1(1.
上海理工大学,上海200093;2.
上海现代光学系统重点实验室,上海200093)摘要:伴随着互联网的高速发展与普及,微博作为信息交流与传播的载体,已成为新型社会化媒体的代表.
在中国,微博用户规模已经达到了2.
42亿.
微博用户影响力计算对社会日常信息在微博里面有效传播,正确传播,健康传播有着非常重要的意义.
本文以新浪微博数据为实验的对象,通过改进传统的PageRank模型,提出了的新的微博用户影响力排名算法---MBUI-Rank(Micro-BlogUserInfluenceRank)算法.
该算法在传统的PageRank算法模型上,加入了微博用户自身在微博里面行为活动,同时考虑到了微博用户的自身行为,结合用户权值得到最终影响力.
实验结果表明,MBUI-Rank算法与传统的PageRank算法相比,可以更加真实有效地反映微博用户的实际影响力.
关键词:PageRank;新浪微博;用户影响力;用户自身行为中图分类号:TP391Researchonalgorithmofmicro-bloguserinfluencebasedonPageRankSunHong1,2,ZuoTeng1(1.
UniversityofShanghaiforScience&Technology,shanghai200093,China;2.
ShanghaiKeyLabofModernOpticalSystem,Shanghai200093,China)Abstract:WiththerapiddevelopmentandpopularizationoftheInternet,micro-blogasacarrierofinformationexchangeanddissemination,hasbecomeanewtypeofsocialmediarepresentatives.
InChina,micro-blogusersizehasreached242million.
Microblogginguserinfluencecalculationofthedailyinformationinthemicro-bloginsidetheeffectivedissemination,thecorrectdisseminationofhealthcommunicationhasaveryimportantsignificance.
ThispapertakesSinaWeibodataastheobjectofexperiment,andimprovesthetraditionalPageRankmodel,andputsforwardthenewmicro-bloguserinfluencerankalgorithm.
ThealgorithminthetraditionalPageRankalgorithmmodel,joinedthemicro-blogusersthemselvesinthemicro-bloginsidethebehaviorofactivities,takingintoaccountthemicro-bloguser'sownbehavior,combinedwiththeuser'sweighttogettheultimateinfluence.
TheexperimentalresultsshowthattheMBUI-Rankalgorithmcanreflecttheactualinfluenceofmicro-blogusersmoreeffectivelyandeffectivelythanthetraditionalPageRankalgorithm.
KeyWords:PageRank;SinaWeibo;userinfluence;user'sbehavior0引言现如今随着互联网的快速发展,大数据时代也随之到来.
社交作为互联网应用发展的必备要素,不再局限于信息传递,而是与沟通交流、商务交易类应用融合,借助其他应用的用户基础,形成更强大的关系链,从而实现对信息的广泛、快速传播.
微博(Micro-Blog)作为当前最为流行的社交网络之一,它有着诸多优点.
如用户可以随时随地发布消息,用户之间互动性强,操作简单简.
据CNNIC发布的第38次《中国互联网络发展状况统计报告》数据显示[1],截至2016年6月,微博用户规模为2.
42亿,逐渐回升,使用率为34%,与2015年底相比略有上涨.
在微博里面,新浪微博发布的消息种类丰富,可以是140个字符以内的简短微博,也可以是超过140个字符的长微博,可以配上图片,可添加地点,可以添加短视频可以"@"(艾特)其他微博用户等.
因为有着诸多特点,新浪微博占有着微博界的主导地位.
每一个微博用户可以通过微博获取最新的实时新闻资讯,了解朋友及其他社会名人,社会媒体,公众媒体等等其他一些本文关心的实时动态.
本文可以给别人的微博点赞,评论,转发,这样从而提高了新闻信息的传播速度及其影响的范围.
如果一则微博消息在微博里面迅速传播开来,如有很多人转播,评论,点赞,或着其他一些微博用户也发布相关主题的微博,那么这则微博相关的话题就会上微博热搜或者微博头条,从而会有更多的人知道这则消息,从而影响到整个社会舆论情况.
优先出版计算机应用研究第35卷如果某个微博用户有众多的粉丝和关注度,那么他发布的微博消息就会得到广泛的关注,那么该用户就影响到了信息的在微博里面的传播.
所以,现在就会有很多人通过购买粉丝(也称水军),来提高自己微博信息传播的影响力,然而这些所谓的粉丝是不能够当作正常微博用户来看的,他们会照成谣言和不良信息的的散布,给社会带来不利的影响和舆论恐慌.
1研究背景微博最早起源于国外的,所以相关的研究算法也起源于国外学者的研究,也取得了相应成果.
因为Twitter作为微博的鼻祖,国外对微博的研究主要集中在对Twitter的研究.
目前有关微博影响力分析算法主要参考Google的PageRank[2]算法及其改进后的算法[3,4]和HITS[5]算法及其改进后算法[6,7].
PageRank算法模型是为了实现网页排名,该算法也是Google使用的搜索结果排名中的重要组成部分.
事实上,PageRank模型本质上是用于有向图的节点级的计算技术,因此应用于用户对微博的影响是自然的.
2009年,Tunkelang等人构建了一个基于链接的有向图,并使用PageRank模型来实现Twitter用户的影响力排名.
借鉴PageRank算法的思想,文献[8]提出了TwitterRank算法,该算法主要是衡量一个用户在某一话题内的影响力,主要思想是给定一个话题,用户的影响力定义为他的所有粉丝的影响力之和[9].
但是该算法仅考虑拥有相似话题的用户间相互的影响力,不具有一般性.
文献[10]中,对Twitter的传播特性进行了分析,使用粉丝数量和微博转发数量比对研究用户在话题传播过程中的影响,结果发现拥有众多粉丝数量的微博用户所发的微博不一定会得到很多的转发或者评论,这说明粉丝数量和影响力之间并没有必然的联系,但是那些有影响力的用户能够在微博里面产生显著的影响.
国内也有诸多学者对社交网络进行影响力分析,如丁兆云[11]等,综合考虑转发关系、回复关系、复制关系、阅读关系四种网络关系,对话题层次影响力进行分析.
李国良[12]等人提出了多社交网络上的影响计算模型来建模节点间的影响力,然后扩展了基于树的算法模型以适应多社交网络上的影响力最大化问题.
毛佳昕[13]等人利用微博用户发布微博的时间和数量来分析用户影响力,该方法并没有引入实际的话题来分析用户对社会问题的影响.
师亚凯[14]等利用微博用户内容建立词共现矩阵,继而运用LDA模型进行潜在主题的识别并进行降维,通过KL散度的方法得到用户之间的相似性,最后结合用户影响力权值得到用户的影响力.
在文献[15]里面,XunChen等人提出来PersonalRank算法,该算法也可以用于计算微博用户的影响力,但是在计算时还是需要依赖PageRank算法.
在文献[16]里面,JunZhou等人使用回归模型来预测每个用户的影响力分数分析个人财产及其内容消息,而且他们的研究揭示了个体大多数用户的影响随时间而变化.
在文献[17]里面,Guo-JunMao等人对用户的活跃度进行了分析,但是该文章里面只对用户的评论数进行了分析,并没有深入分析也没有剔除"僵尸粉"的干扰.
微博用户之间的关系就好像网页页面之间的关系,因此,利用他们的相似性,PageRank模型可以计算出微博用户的影响.
本文综合考虑微博用户的关系网络特性和微博用户实际行为特征,提出了名为MBUI-Rank的微博用户影响力排名算法.
2MBUI-Rank微博用户影响力模型2.
1PageRank模型最初的PageRank模型,是Google在搜索引擎结果中对网站排名的核心算法.
PageRank通过计算页面链接的数量和质量来确定网站的重要性的粗略估计,PageRank是基于从许多优质的网页链接过来的网页,必定还是优质网页的回归关系,来判定所有网页的重要性.
为了方便研究,现给出与本文相关的公式定义.
定义1PageRank算法.
对所有研究的网页给定一个有向图G=,它是由顶点的集合V和边的集合A组成.
网页Pi∈(G)的排名可以用下面的公式来计算.
(1)其中Mpi是所有对Pi网页有出链的网页集合,L(Pi)是网页Pi的出链数目,N是研究网页总数,α代表的是阻尼因子,取值范围是0-1.
根据上面的公式,本文可以计算每个网页的PR(下文的所有的PR代表PageRank)值,在不断迭代趋于平稳的时候,即为最终结果.
图1显示了运用PageRank算法时,网页Pi与网页Pj之间的关系.
图1网页Pi和网页Pj的关系在表现网页之间链接关系时,Google使用了矩阵,即下面的定义2.
定义2Google初始矩阵.
本文可以用一个矩阵来表示这张图的出链入链关系,初始矩阵S=(si,j),其中si,j代表网页j跳转到页面i的概率.
也就是说,对于i,j∈G,与有向图G相关的Google矩阵可以被设置如下:(2)其中L(j)是网页j的出站链接总数.
现在给出N为4的一个例子(共有A、B、C、D四张网页)帮助说明这个矩阵.
对于图2所示的有向图,其Google初始矩阵可以通过公式(2)获得,图3给出了Google初始矩阵S计算结果.
优先出版计算机应用研究第35卷图2页面有向图图3Google初始矩阵定义3Google矩阵.
得到初始矩阵后,本文就可以计算PR值了,当只有α概率的用户会点击网页链接,剩下(1-α)概率的用户会跳到无关的页面上去,而访问的页面恰好是这4个页面中A的概率只有(1-α)/4(α是阻尼系数,Google在计算网页排名的时候取α等于0.
85,所以本文在这里也取0.
85),所以真正的Google矩阵由公式3计算,Google矩阵GM如下图4所示.
(3)图3Google初始矩阵定义4PR值计算.
在有向图G及其Google矩阵GM里面,其中n是G中的节点数然后.
于是得到Pn=GM*Pn-1,可以通过以下公式(3)逐级地迭代更新秩向量,直到得到Pn=Pn-1时,才算迭代完成,这时的Pn就是PR的值.
于是计算PR值的过程就变成了一个Markov过程.
(4)2.
2MBUI-Rank模型传统的PageRank模型可以帮助评估微博用户的影响力,但其有效性并不被大多数人认可.
传统的PageRank模型仅考虑链接关系,即用户与用户之间的关注与被关注关系.
把微博用户的粉丝看做网站的入站链接,微博用户关注的人看做网站的出站链接,这样就可以把PageRank模型应用到计算微博用户影响力里面来[18].
但是,在计算影响力的时候,那些拥有众多"僵死粉"的微博用户的影响力就会被虚假提高,从而计算出来的影响力并不准确,其实那些拥有众多"水军"的用户影响力并没有那么高.
所以,首先要剔除微博用户的僵尸粉,在进行粉丝筛选的时候,需要选取高质量的粉丝.
需要选取长期关注博主的粉丝,而不是近期突然增加的粉丝.
定义5粉丝选取.
认定选取的粉丝集合为F,其中选取的粉丝是关注博主三个月以上的用户.
而且这些用户在三个礼拜以内有和别人互动,且评论或者转发过该博主的微博等这样的交互行为.
(5)F(i)代表用户i的粉丝集合,j代表其中一个粉丝,FT代表的是粉丝j关注博主的时间,大于三个月,AT代表粉丝j活跃的天数是三周.
这一步只是对粉丝进行了筛选,剔除了一些僵死粉的干扰.
选取完粉丝后就需要计算用户的活跃度了,下面的定义6代表粉丝活跃度计算公式.
定义6用户活跃度计算.
用户的活跃度包括很多条件,如用户发布的微博数,转发微博数,点赞微博数,评论微博数,@别人的微博数,收藏微博数量以及在微博中的活跃的天数.
综合这些条件,下面给定微博用户i其活跃度的计算公式:(6)其中nbi是微博用户i发布的微博数量,NB是整个微博里面所有微博用户发布的微博数量;nri是微博用户i转发的微博数量,NRi是整个微博里面所有微博用户转发微博数量;nci是微博用户i评论微博数量,NCi是整个微博里面所有微博用户评论微博数量;nli是微博用户i点赞微博数量,NLi是整个微博里面所有微博用户点赞微博数量;nai是微博用户i"@"其他用户微博数量,NAi是整个微博里面所有微博用户"@"其他用户微博数量;di是微博用户i的活跃天数,Di是整个微博里面所有微博用户平均活跃天数.
在研究了用户的活跃度之后,但还需要对用户的微博质量进行研究.
微博的质量体现在微博的内容是否健康,真实,是否对本文整个社会有一定的影响.
例如那些在微博里面散布广告,发布虚假消息的微博用户,那么他们的这些行为对于整个微博环境,对于整个社会带来了负面的影响,应当予以否定.
所以,在选取微博内容时,就需要剔除那些质量较差的微博,选取能够对于社会产生正面影响的微博.
因此,在筛选微博数据的时候,本文就选取了和社会话题相关的微博作为研究对象.
同时对用户微博被评论的数量,被转发的数量,被点赞的数量,和被收藏数量进行研究.
如果微博被众多人评论,转发,点赞和收藏自然说明该用户的影响力要高.
根据上面提出的思想,下面的定义7给出了在用户微博质量的简单评估计算方法.
定义7用户微博质量计算.
对于微博用户i,选取的研究话题为社会话题为SI(SocialIssues),用户微博质量计算公式如下:(7)(8)(9)优先出版计算机应用研究第35卷(10)(11)(12)其中nsii是用户i发布与主题SI相关的微博数量,Ni是用户i在微博中发布的所有微博数量;rsii是用户i发布与主题SI相关的微博被转发的数量,Ri是在微博里面所有被转发的微博数量;csii是用户i发布与主题SI相关的微博被评论的数量,Ci是在微博里面所有被评论的微博数量;lsii是用户i发布与主题SI相关的微博被点赞的数量,Li是在微博里面所有被点赞的微博数量.
fsii是用户i发布与主题SI相关的微博被收藏的数量,Fi是在微博里面所有被收藏的微博数量.
此外,还有另一个因素也可以在很大程度上反映用户的影响力,就是微博用户的可信度.
比如微博里面的那些大V,一些经过官方认证博主,那么他们的发言就会很有影响力,人们愿意相信这些人所发布的微博.
目前在新浪微博平台上已经提供认证机制,共有四种认证方式.
第一种是兴趣认证,第二种是自媒体认证,第三种是身份认证,最后一种是官方认证.
在此,本文利用微博上不同的认证,给出不同的用户信誉度.
定义8给出了在微博上用户可信度的简单计算方法.
定义8微博用户可信度.
对于微博用户i,其可信度可以计算公式如下:(13)在进行运算PageRank算法之前还需要修改微博用户的权重,由定义9给出.
定义9微博用户权重.
对于微博用户i,它的权重w(weiht)计算公式如下:(14)然后将用户权重加入进原始PageRank模型计算.
定义10加权Google矩阵.
对于有向图G=,令其加权的Google矩阵Z=(zi,j),其中zi,j计算如下:(15)公式(15)中的zi,j是公式3中的值gmi,j与用户权重w(i)的乘积,所以加权的Google矩阵考虑的用户的链接结构包括用户活跃度,用户微博质量和用户可信度等因素.
假设已经获得图1中每个节点的评估参数,如令w(A)=w1,w(B)=w2,w(C)=w3和w(D)=w4,那么通过计算,就可以获得加权后的的Google矩阵Z.
下面是MBUI-Rank算法的主要处理过程.
输入:微博用户社交网络图G;阻尼系数α;迭代终止条件.
输出:用户节点P的影响向量.
处理过程:a)计算G的google矩阵:GM=(gmi,j);b)fori∈G执行c)通过定义6,7,8计算Activity(i),Quality(i),Credibility(i);d)w(i)=Activity(i)+Quality(i)+Credibility(i);e)结束forf)fori∈G执行g)forj∈G执行h)zi,j=w(i)*gmi,j;i)Z=(zi,j);j)P0=I;k)重复l)P=Z*P0;m)Pn=Pn-1n)直到|P-P0|≤o)将P作为最终的影响向量返回.
在算法MBUI-Rank中,首先给每个页面赋予随机的PR值,特征向量P的初始值为值为1的N*1矩阵,通过Pn=GM*Pn-1不断地迭代,得到收敛的PR值,即当满足下面的不等式|Pn-Pn-1|≤后迭代结束,获得用户的影响力.
3实验与分析3.
1实验数据在获取新浪微博数据时,首先要先注册新浪微博账号,然后利用该账号在新浪微博开放平台完成开发者的注册,注册身份为学生,然后在开放平台上创建一个应用,创建完应用后,开发者会得到获取两个非常重要的参数AppKey和SecretKey.
在创建应用过程中需要填写一个授权回调页.
应用创建完成后,就可以利用新浪官方API进行开发了.
首先进入开放平台,在文档里面资源下载和API选项,首先需要在资源下载下面下载相关的SDK,本文用到的是JAVASDK.
下载完了JAVASDK后就需要导入到eclipse里面,然后是配置下载下来的JAVASDK.
主要改一个文件,src文件夹下面的config.
properties,配置如下参数.
1.
client_ID:appkey创建应用获取到的appkey(AppKey)2.
client_SERCRET:app_secret创建应用获取到的appsecret(SecretKey)3.
redirect_URI:回调地址OAuth2的回调地址(就是在高级信息里面填写的授权回调页).
在配置好配置文件后就需要进行Oath2.
0认证,这是在调用所有API之前都需要进行的操作.
调用example下面weibo4j.
examples.
oauth2包里面的OAuth4Code.
java.
如果这个步骤完成了就可以任意调用微博API了.
然后再微博API选项下面查阅相关的API文档,就可以在eclipse里面下载到需要用到的数据.
然后利用微博API获取了59528个微博用户,其中包含用户的基本信息和用户关系网络和发布的微博信息等一些数据,然后从59528个用户里面选择2958个微博用户作为实验对象.
虽然2958个用户只是新优先出版计算机应用研究第35卷浪微博用户总数的一小部分,但这些用户的关系是相对完整的,所以本文可以使用它们来测试本文的算法在本文中的有效性.
3.
2实验环境本次实验使用1台计算机,配置为:CPU为8核Intel酷睿i76700HQ主频为3.
4GHz,内存DDR42133MHz8GB,硬盘1TB,操作系统为win10.
3.
3实验结果本文对实验结果进行比较分析选取社会话题作为PageRank和MBUI-Rank算法计算时的主题,分别对传统的PageRank算法和本文MBUI-Rank算法计算出的用户影响力进行排序,列出PageRank算法和MBUI-Rank算法影响力排名前10的用户,计算结果如表1和表2所示.
表1PageRank算法计算结果排名微博用户名粉丝数微博数认证1新手指南17256756510002官方2微博管理员156722636978官方3谢娜881249879010身份4陈坤807571305036身份5姚晨803214379058身份6赵薇789882864286身份7何炅820992697725身份8angelababy780246962423身份9人民日报5097641171985官方10央视新闻4857616581213官方表2MBUI-Rank算法计算结果排名微博用户名粉丝数微博数认证1中国新闻网3108911077884官方2人民日报5097641171985官方3央视新闻4857616581213官方4新浪新闻1068791712276官方5人民网37137367107630官方6法制晚报1616331182710官方7环球时报7106371116736官方8中国经营报233649890318官方9新京报2743303236902官方10头条新闻5143594211932官方PageRank和MBUI-Rank影响力排名前10的用户与粉丝数、关注数和微博数的相关性如图5和图6所示.
3.
4结果分析对比表1和2可以清楚地看到在相同的数据集上面,不同算法得到的结果排序是截然不同的.
通过对表1的分析可以看出:影视大咖等这一些知名度较高的微博用户的影响力较高,他们的粉丝众多而且他们发布的微博数量高.
由此可看出如今很多微博用户习惯于在微博中查看相关娱乐名人的生活动态,因此该类用户对微博里面的信息传播有着重的引导能力.
而且大多数影响力大的用户都是微博认证用户,这样就增加了微博用户对他们的信任感.
结合表1和图5来看,用户粉丝数量、用户活跃度高的微博用户,他们的影响力也比较高.
但是,本文发现排名第一和第二微博用户是新手指南和微博管理员,但是他们实际的影响力并没有计算结果那么高.
他们的排名之所以这么高是应为他们拥有众多粉丝,他们拥有粉丝数量是排名第三微博用户(谢娜)的将近两倍,因为他们拥有这么多的粉丝数量,在传统的PageRank算法计算影响力的时候就把他粉丝的影响力加权起来了,这样影响力就比其他用户的高了许多.
拥有这么多粉丝数量的原因是在用户最开始注册微博的时候就系统就帮微博用户就自动关注了他们,而且用户也没有去取消关注,还有就是当微博用户不去用他们的微博账号后,之前的微博账号不能注销,所以这样在无形之中就产生了"僵尸用户",而且这些"僵尸用户"也不会被系统清除,所以他们的粉丝才会这么多,但其活跃度相对而言不是很高.
所以在目前微博里面就会有明星花钱去买粉丝,来提高自己的想象力,提高自己的知名度.
在表1里面,本文还可以看到,人民日报和央视新闻也挤入了前十,虽然他们得粉丝数量和前面的微博用户相差很大,但是他们是社会话题的发布者,所以这样就提升了他们的影响力.
图5Pagerank排名图6MBUI-Rank排名结合表2和图6可以看出,MBUI-Rank算法得到的结果和粉丝数量没有呈现出正相关的关系.
而微博用户的自身的活动,他的微博数量,所发布微博的内容等一些他的动态行为成了评论影响力强有力的标准.
如微博用户头条新闻他的粉丝数量和微博数量是最高的,但是他的排名却不是靠前的,只是勉优先出版计算机应用研究第35卷强进入前十.
究其原因可以知道,因为头条新闻他发布的微博很是杂乱,不管什么新闻他都会发布,比如娱乐新闻,社会新闻,体育新闻等等一些事实,所以在社会问题上面就不是很突出.
排名靠前的是中国最具权威的报刊和新闻媒体人民日报和央视新闻,可以看到,他们的粉丝数量和微博数量都是非常高的.
本文还可以看出,MBUI-Rank算法的前10个用户他们都是官方认证用户,而且拥有足够的微博,关注者和粉丝.
此外,为了评估文章的质量,本文把主题放在社会问题上,所以MBUI-Rank算法得到的前10个用户,大多是官方认证的新闻媒体,他们具有更大的权威性,而且这10个用户里面没有一个娱乐明星,这也说明这些娱乐明星发布的微博很少与社会话题有关,通过查看他们的微博,他们发布的微博话题大多数都是他们的日常生活或者一些宣传,因此在MBUI-Rank算法里面他们都排不上名.
PageRank算法在评估用户影响力时没有考虑到用户自身的动态行为,而是依赖于粉丝数量,过于简单片面,所以在一定程度上受到"僵尸粉的"干扰.
对比PageRank算法与MBUI-Rank算法排名发现,MBUI-Rank算法在交互式用户排名之前考虑用户的活动,质量和可信度,这使得用户以综合的和面向主题的方式影响评估.
4结束语本文分析了微博社交网络的用户的关系网络和自身的行为,结合传统Pagerank算法,新的用户影响力算法,它比传统的PageRank模型更适合社交网络用户影响力数据挖掘.
MBUI-Rank算法考虑用户的实际微博活动行为以及用户的链接,使得挖掘结果更客观和准确.
通过计算微博用户的活跃度,微博质量和用户可信度来估算用户影响力.
从实验结果可以看出,与传统的PageRank算法相比,MBUI-Rank算法能更好的反映微博用户影响力.
在下一步研究工作中,将会研究在不同话题领域的影响力.
在算法方面多加考虑约束条件,比如选取那些有代表性的评论和转发,选取有代表性的微博用户,加大这些用户的权重,这样会使得最后得到的结果更加准确.
参考文献:[1]第38次中国互联网络发展状况统计报告[R].
北京:中国互联网络信息中心,http://www.
cnnic.
net.
cn/2016July.
[2]Page,Lawrence,Brin,etal.
ThePageRankcitationranking[C]//BringingOrdertotheWeb.
StanfordInfoLab.
1998:1-14.
[3]LambertiF,SannaA,DemartiniC.
ARelation-BasedPageRankAlgorithmforSemanticWebSearchEngines[J].
IEEETransonKnowledge&DataEngineering,2009,21(1):123-136[4]JingYushi,SBaluja.
Pagerankforproductimagesearch[C]//ProcofInternationalConferenceonWorldWideWeb.
2008:307-316.
[5]KleinbergJM.
Authoritativesourcesinahyperlinkedenvironment[J].
JournaloftheACM,1999,46(5):604-632.
[6]LiuYing,LinY.
SupervisedHITSalgorithmforMEDLINEcitationranking[C]//ProcofIEEEInternationalConferenceonBioinformaticsandBioengineering.
2007:1323-1327.
[7]AsanoY,YuT,NishizekiT.
ImprovementsofHITSAlgorithmsforSpamLinks[J].
IeiceTransonInformation&Systems.
2008,E91D(2):200-208.
[8]JianshuWeng,Ee-PengLim,JingJiang,etal.
TwitterRank:findingtopic-sensitiveinfluentialtwitterers.
[J].
Wsdm,2010:261-270.
[9]杨长春,俞克非,叶施仁,等.
一种新的中文微博社区博主影响力的评估方法[J].
计算机工程与应用,2012,48(25):229-233.
[10]ChaM,HaddadiH,BenevenutoF,etal.
MeasuringUserInfluenceinTwitter:TheMillionFollowerFallacy[J].
ICWSM,2010,10(10-17):30[11]丁兆云,周斌,贾焰,等.
微博中基于多关系网络的话题层次影响力分析[J].
计算机研究与发展,2013,50(10):2155-2175.
[12]李国良,楚娅萍,冯建华,等.
多社交网络的影响力最大化分析[J].
计算机学报,2016,39(4):643-656.
[13]毛佳昕,刘奕群,张敏,等.
基于用户行为的微博用户社会影响力分析[J].
计算机学报,2014(4):791-800.
[14]师亚凯,马慧芳,张迪,等.
融合用户行为和内容的微博用户影响力方法[J].
计算机应用研究,2016,33(10):2906-2909.
[15]ChenXu,WangPengfei,QinZheng,etal.
HLBPR:ahybridlocalbayesianpersonalrankingmethod[C]//ProcofInternationalConferenceCompaniononWorldWideWeb.
InternationalWorldWideWebConferencesSteeringCommittee,2016:21-22.
[16]JunZhou,YanZhang,BingWang,etal.
Predictinguserinfluenceinmicroblogs[C]//ProcofIEEEInternationalConferenceonComputerCommunicationandtheInternet.
2016:292-295.
[17]MaoGJ,ZhangJ.
APAGERANK-BASEDMININGALGORITHMFORUSERINFLUENCESONMICRO-BLOGS[J].
2016.
[18]徐文涛,刘锋,朱二周.
基于MapReduce的新型微博用户影响力排名算法研究[J].
计算机科学,2016,43(9):66-70.

亚州云-美国Care云服务器,618大带宽美国Care年付云活动服务器,采用KVM架构,支持3天免费无理由退款!

官方网站:点击访问亚州云活动官网活动方案:地区:美国CERA(联通)CPU:1核(可加)内存:1G(可加)硬盘:40G系统盘+20G数据盘架构:KVM流量:无限制带宽:100Mbps(可加)IPv4:1个价格:¥128/年(年付为4折)购买:直达订购链接测试IP:45.145.7.3Tips:不满意三天无理由退回充值账户!地区:枣庄电信高防防御:100GCPU:8核(可加)内存:4G(可加)硬盘:...

cera:秋季美国便宜VPS促销,低至24/月起,多款VPS配置,自带免费Windows

介绍:819云怎么样?819云创办于2019,由一家从2017年开始从业的idc行业商家创办,主要从事云服务器,和物理机器819云—-带来了9月最新的秋季便宜vps促销活动,一共4款便宜vps,从2~32G内存,支持Windows系统,…高速建站的美国vps位于洛杉矶cera机房,服务器接入1Gbps带宽,采用魔方管理系统,适合新手玩耍!官方网站:https://www.8...

HostKvm:香港国际/韩国KVM夏季7折,2G内存套餐月付5.95美元起

HostKvm是一家成立于2013年的国外主机服务商,主要提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,均为国内直连或优化线路,延迟较低,适合建站或者远程办公等。目前商家发布了夏季特别促销活动,针对香港国际/韩国机房VPS主机提供7折优惠码,其他机房全场8折,优惠后2GB内存套餐月付5.95美元起。下面分别列出几款主机套餐配置信息。套餐:韩国KR...

新手指南为你推荐
暴风影音怎么截图暴风影音3 如何截图1433端口如何打开1433端口办公协同软件oa办公系统软件有哪些硬盘人什么叫“软盘人”和“硬盘人”?创维云电视功能谁能具体介绍一下创维云电视的主要功能,以及基本的使用方式,如果能分型号介绍就更好了,O(∩_∩)O谢谢iphone6上市时间苹果6是什么时候出的 ?网络虚拟机虚拟机的网络怎么弄?中国杀毒软件排行榜杀毒软件的最新排名?中国的排名?怎样申请支付宝怎么申请支付宝?优锁笔记本电脑怎么样防止被盗
mysql虚拟主机 备案域名购买 国外域名 ddos enzu pw域名 pccw 免费博客空间 网站被封 丹弗 ca4249 蜗牛魔方 毫秒英文 天互数据 免费美国空间 789电视剧 ca187 国外视频网站有哪些 服务器防火墙 supercache 更多