pagerankpagerank算法主要基于什么对结果进行排序

pagerank  时间:2021-03-20  阅读:()

如何并行计算 pageRank

PageRank在算法和数学上并不复杂,具体描述可见中国/wiki/PageRank 。

在做web级别的计算时,主要的挑战来自海量的数据,需要有大规模并行计算技术的支持。

因为PageRank存在的缺陷,现已为更高级的模型(可参见HITS和TrustRank)取代

哪些因素会影响网页的pagerank值

一、网页排名和谷歌算法的诞生 在谷歌诞生之前那段时间,流行的网页排名算法都很类似,它们都使用了一个非常简单的思想:越是重要的网页,访问量就会越大,许多大公司就通过统计网页的访问量来进行网页排名。

但是这种排名算法有两个很显著的问题: 1、因为只能够抽样统计,所以统计数据不一定准确,而且访问量的波动会比较大,想要得到准确的统计需要大量的时间和人力,还只能维持很短的有效时间。

2、访问量并不一定能体现网页的“重要程度”,可能一些比较早接触互联网的网民还记得,那时有很多人推出了专门“刷访问量”的服务。

那有没有更好的方法,不统计访问量就能够为网页的重要度排序呢? 就是在这种情况下,1996年初,谷歌公司的创始人,当时还是美国斯坦福大学研究生的佩奇和布林开始了对网页排序问题的研究。

在1999年,一篇以佩奇为第一作者的论文发表了,论文中介绍了一种叫做pagerank的算法(具体算法可查看马海祥博客《pr值是什么》的相关介绍),这种算法的主要思想是:越“重要”的网页,页面上的链接质量也越高,同时越容易被其它“重要”的网页链接。

于是,算法完全利用网页之间互相链接的关系来计算网页的重要程度,将网页排序彻底变成一个数学问题,终于摆脱了访问量统计的框框。

二、模拟pagerank算法的运行过程 在详细讲述这个算法之前,不妨让我们用一个游戏,先来简单模拟一下pagerank算法的运行过程,以便读者更好地理解。

三兄弟分30颗豌豆,起初每人10颗,他们每次都要把手里的豌豆全部平均分给自己喜欢的人,下图表示了三兄弟各自拥有的初始豌豆数量,以及相互喜欢的关系(箭头方向表示喜欢,例如老二喜欢老大,老大喜欢老二和老三)。

第一次分配后,我们会得到结果如下: 就这样,让游戏一直进行下去,直到他们手中的豌豆数不再变化为止。

那么这个游戏到底是否可以结束呢,如果可以,最终的结果又是什么样的? 在此我们用电脑模拟了这个过程,得出的结果是:老大和老二的盘子里各有12颗豌豆,而老三的盘子里有6颗豌豆,这时候无论游戏怎么进行下去,盘子里的豌豆数量都不会再变化。

看到这里,读者可能会问:这个游戏和网页排序有什么关系? 实际上,pagerank会给每个网页一个数值,这个数值越高,就说明这个网页越“重要”。

而刚刚的游戏中,如果把豌豆的数量看作这个数值(可以不是整数),把孩子们看作网页,那么游戏的过程就是pagerank的算法,而游戏结束时豌豆的分配,就是网页的pagerank值。

三、pagerank算法的数学模型 不同于之前的访问量统计,pagerank求解了这样一个问题:一个人在网络上浏览网页,每看过一个网页之后就会随机点击网页上的链接访问新的网页。

如果当前这个人浏览的网页x已经确定,那么网页x上每个链接被点击的概率也是确定的,可以用向量nx表示。

在这种条件下,这个人点击了无限多次链接后,恰好停留在每个网页上的概率分别是多少? 在这个模型中,我们用向量ri来表示点击了i次链接之后可能停留在每个网页上的概率(则为一开始就打开了每个网页的概率,后面我们将证明的取值对最终结果没有影响)。

很显然r i的l1范式为1 ,这也是pagerank算法本身的要求。

仍以上面的游戏为例,整个浏览过程的一开始,我们有: 其中,a表示每一次点击链接概率的矩阵,a的第i列第j行的含义是如果当前访问的网页是网页i,那么下一次点击链接跳转到网页j的概率为 。

这样设计矩阵a的好处是,通过矩阵a和向量相乘,即可得出点击一次链接后每个网页可能的停留概率向量。

例如,令,可以得到点击一次链接后停留在每个网页的概率: 之后一直迭代下去,有: 对于上面的例子,迭代结果如下图: 由上图我们可以看到,每个网页停留的概率在振荡之后趋于稳定。

在这种稳定状态下,我们可以知道,无论如何迭代,都有,这样我们就获得了一个方程: 而整个迭代的过程,就是在寻求方程r = ar的解,而无论是多少,迭代无限多次之后,一定会取得令r = ar成立的r值,整个求解r的过程,就如同一个人在一张地图上的不同位置之间随机地行走一样,所以被称为“随机行走模型”。

随机行走模型有一个显著的特点,那就是每一次迭代的结果只与前一次有关,与更早的结果完全无关,这种过程又被称为马尔可夫过程(markov process)或马尔可夫链(markov chain)。

马尔可夫过程的数学定义是:如果对于一个随机变量序列, 其中x n表示时间n的状态及转移概率p,有: 即只受的影响,则此过程成为马尔可夫过程。

其中称作“一步转移概率”,而两步、三步转移概率则可以通过一步转移概率的积分求得。

当状态空间有限时,转移概率可以用用一个矩阵a来表示,称作转移矩阵(transition matrix),此时转移概率的积分即为矩阵的幂,k步转移概率可以用表示,这也是随机行走模型中的情况,而对于一个正的(每个元素都为正的)转移矩阵a ,可以证明一定有: 这就完整解释了为什么的取值对最终结果没有影响。

四、修正“悬挂网页”带来的不良影响 但是这里有一个问题:即便的取值对最终结果没有影响,用r作为网页排序的依据是否真的合理? 在马海祥看来,这个其实并不合理,因为当一个网页只有链入链接没有链出链接的时候,这个网页就会像一个“黑洞”一样,将同一个连通子图中其它网页流向它的pagerank慢慢“吞掉”(因为算法中虚拟的用户一旦进入那样的网页,就会由于没有对外链接而永远停留在那里),这种网页我们称之为“悬挂网页”(dangling link)。

这种“黑洞”效应是如此显著,以至于在一个连通性良好的互联网上,哪怕只有一个“悬挂网页”,也足以使整个互联网的网页排序失效,可谓是“一粒老鼠屎坏了一锅粥”。

为了解决这个问题,佩奇和布林进行了修正,他们意识到,当用户访问到“悬挂网页”时,都不可能也不应该就停留在了这个页面,而是会自行访问其它网页。

虽然对每个用户来说,自行访问的网页与各人的兴趣有关,但马海祥觉得从平均意义上来讲,佩奇和布林假定用户将会在整个互联网上随机选取一个网页进行访问。

所以他们给pagerank算法加入了一个新的向量e,它的作用是,按照其中所描述的比例来向全部网页分配悬挂网页每一次“吞掉”的pagerank。

这样,相当于为悬挂网页添加了链向网络上全部网页的链接,避免了悬挂链接的出现。

以上就是谷歌背后最重要的pagerank算法奥秘,与以往那种凭借关键词出现次数所作的排序不同,这种由所有网页的相互链接所确定的排序是不那么容易做假的,因为做假者再是把自己的网页吹得天花乱坠,如果没有真正吸引人的内容,别人不链接它,一切就还是枉然。

而且“佩奇排序”还有一个重要特点,那就是它只与互联网的结构有关,而与用户具体搜索的东西无关,这意味着排序计算可以单独进行,而无需在用户键入搜索指令后才临时进行,谷歌搜索的速度之所以快捷,在很大程度上得益于此。

马海祥博客点评: 最后,我要强调的一点是,虽然pagerank是google搜索结果排序的重要依据,并以此发家,不过它并不是全部依据,实际上,google发展到现在,已同时用了数百种不同的算法来确定最终显示给用户的搜索结果顺序。

GOOGLE搜索里面的PageRank数值是怎么计算的?

PR分值的计算公式:PR(A)=(1-d) d(PR(t1)/C(t1) ... PR(tn)/C(tn)) 公式解释:其中PR(A)表示的是从一个外部链接站点t1上,依据Pagerank系统给你的网站所增加的PR分值;PR(t1)表示该外部链接网站本身的PR分值;C(t1)则表示该外部链接站点所拥有的外部链接数量。

一个网站的投票权值只有该网站PR分值的0.85,而且这个0.85的权值平均分配给其链接的每个外部网站。

设想一个网站, 被链接至PR值为4,外部链接数为10的网站, 则计算公式如下: PR(AKA)=(1-0.85) 0.85*(4/10)=0.15 0.85*(0.4)=0.15 0.34=0.49 也就是说,如果我的网站获得一个PR值为4,外部链接数为9的网站的链接,最后我的网站将获得的PR分值=0.49。

再让我们看看如果我们网站获得的是一个PR分值为8,外部链接数为32的网站的链接,那么我将获得的PR分值将是: 也就是说,如果我的网站获得一个PR值为8,外部链接数为32的网站的链接,最后我的网站将获得的PR分值=0.3625。

什么是PageRank技术?

它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。

在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。

 PageRank(网页级别),2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇

PageRank专利人——拉里·佩奇

(Larry Page)。

因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。

它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。

在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。

其级别从1到10级,10级为满分。

PR值越高说明该网页越受欢迎(越重要)。

例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。

一般PR值达到4,就算是一个不错的网站了。

Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。

  Google的PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。

PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。

这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。

PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。

  Google有一套自动化方法来计算这些投票。

Google的PageRank分值从0到10;PageRank为10表示最佳,但非常少见,类似里氏震级(Richter scale),PageRank级别也不是线性的,而是按照一种指数刻度。

这是一种奇特的数学术语,意思是PageRank4不是比PageRank3好一级——而可能会好6到7倍。

因此,一个PageRank5的网页和PageRank8的网页之间的差距会比你可能认为的要大的多。

  PageRank较高的页面的排名往往要比PageRank较低的页面高,而这导致了人们对链接的着魔。

在整个SEO社区,人们忙于争夺、交换甚至销售链接,它是过去几年来人们关注的焦点,以至于Google修改了他的系统,并开始放弃某些类型的链接。

比如,被人们广泛接受的一条规定,来自缺乏内容的“link farm”(链接工厂)网站的链接将不会提供页面的PageRank,从PageRank较高的页面得到链接但是内容不相关(比如说某个流行的漫画书网站链接到一个叉车规范页面),也不会提供页面的PageRank。

Google选择降低了对PageRank的更新频率,以便不鼓励人们不断的对其进行监测。

  Google PageRank一般一年更新四次,所以刚上线的新网站不可能获得PR值。

你的网站很可能在相当长的时间里面看不到PR值的变化,特别是一些新的网站。

PR值暂时没有,这不是什么不好的事情,耐心等待就好了。

  为您的网站获取外部链接是一件好事,但是无视其他SEO领域的工作而进行急迫的链接建设就是浪费时间,要时刻保持一个整体思路并记住以下几点:

  ·Google的排名算法并不是完全基于外部链接的

  ·高PageRank并不能保证Google高排名

  ·PageRank值更新的比较慢,今天看到的PageRank值可能是三个月前的值

  因此我们不鼓励刻意的去追求PageRank,因为决定排名的因素可以有上百种。

尽管如此,PageRank还是一个用来了解Google对您的网站页面如何评价的相当好的指示,建议网站设计者要充分认识PageRank在Google判断网站质量中的重要作用,从设计前的考虑到后期网站更新都要给予PageRank足够的分析,很好的利用。

我们要将PageRank看作是一种业余爱好而不是一种信仰。

pagerank原理

  通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重要性做出客观的评价。

PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。

这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。

  此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。

重要网页获得的 PageRank(网页排名)较高,从而显示在搜索结果的顶部。

Google 技术使用网上反馈的综合信息来确定某个网页的重要性。

搜索结果没有人工干预或操纵,这也是为什么 Google 会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。

  其实简单说就是民主表决。

打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。

那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说刚从 Google 离职的那个是真的,那么他就是真的。

  在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。

这就是 Page Rank 的核心思想。

当然 Google 的 Page Rank 算法实际上要复杂得多。

比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。

Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?

  Google 的两个创始人拉里·佩奇 (Larry Page )和谢尔盖·布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。

他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。

他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。

值得一提的事,这种算法是完全没有任何人工干预的。

  理论问题解决了,又遇到实际问题。

因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。

如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。

这样大的矩阵相乘,计算量是非常大的。

拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。

今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。

  网页排名的高明之处在于它把整个互联网当作了一个整体对待。

它无意识中符合了系统论的观点。

相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。

  今天,Google 搜索引擎比最初复杂、完善了许多。

但是网页排名在 Google 所有算法中依然是至关重要的。

在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。

一般人简称 RP值

网站的"PageRank"值是什么意思?

网站的PR值(全称为PageRank),是google搜索排名算法中zhidao的一个组成部分,级别从1到10级,10级为满分,PR值越高说明该网页在搜索排名中的地位越重版要,也就是说,在其他条件相同的情况下,PR值高的网站权在google搜索结果的排名中有优先权。

pagerank算法主要基于什么对结果进行排序

它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。

在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。

PageRank(网页级别),2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇 PageRank专利人——拉里·佩奇 (Larry Page)。

因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。

它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准

VirMach:$27.3/月-E3-1240v1/16GB/1TB/10TB/洛杉矶等多机房

上次部落分享过VirMach提供的End of Life Plans系列的VPS主机,最近他们又发布了DEDICATED MIGRATION SPECIALS产品,并提供6.5-7.5折优惠码,优惠后最低每月27.3美元起。同样的这些机器现在订购,将在2021年9月30日至2022年4月30日之间迁移,目前这些等待迁移机器可以在洛杉矶、达拉斯、亚特兰大、纽约、芝加哥等5个地区机房开设,未来迁移的时...

bluehost32元/月,2核2G/20GB空间,独立ip,新一代VPS美国云主机!

bluehost怎么样?bluehost推出新一代VPS美国云主机!前几天,BlueHost也推出了对应的周年庆活动,全场海外虚拟主机月付2.95美元起,年付送免费的域名和SSL证书,通过活动进入BlueHost中文官网,购买虚拟主机、云虚拟主机和独立服务器参与限时促销。今天,云服务器网(yuntue.com)小编给大家介绍的是新一代VPS美国云主机,美国SSD云主机,2核2G/20GB空间,独立...

VoLLcloud7折月付$3,香港CMI云服务器原生IP解锁,香港VoLLcloud

vollcloud怎么样?vollcloud LLC创立于2020年,是一家以互联网基础业务服务为主的 技术型企业,运营全球数据中心业务。VoLLcloud LLC针对新老用户推出全场年付产品7折促销优惠,共30个,机会难得,所有产品支持3日内无条件退款,同时提供产品免费体验。目前所有产品中,“镇店之宝”产品性价比高,适用大部分用户基础应用,卖的也是最好,同时,在这里感谢新老用户的支持和信任,我们...

pagerank为你推荐
wordpress模板wordpress模板与主题的区别建企业网站建一个企业网站需要多少钱?大概要多久做好?googlepr值怎样提高谷歌PR值波音737起飞爆胎美国737MAX又紧急迫降,为什么它还在飞?重庆400年老树穿楼生长重庆的树为什么都长胡须?重庆杨家坪猪肉摊主杀人昨天重庆九龙坡出了严重交通事故吗360公司迁至天津公司名字变更,以前在北京,现在在天津,跨地区了怎么弄?设计eset滴滴估值500亿滴滴出行股权项目投资怎么投 100w怎么可以投资不科创板首批名单中国兰男队员名单
北京租服务器 播放vps上的视频 贝锐花生壳域名 漂亮qq空间 国外永久服务器 唯品秀 la域名 网站实时监控 gg广告 asp免费空间申请 爱奇艺vip免费领取 中国电信测速器 东莞主机托管 腾讯数据库 tracker服务器 蓝队云 so域名 远程登录 symantec 美国西雅图独立 更多