PageRank算法研究现状与展望
摘要为了能使用户在Inte rnet海量的信息中准确的找到需要的资源 Web挖掘这项新技术出现了。而PageRank算法就是在这种背景下产生的。它是基于Web超链接结构分析算法最成功的代表之一 已经成功的运用在了实际系统中。但同时PageRank算法也有一定的局限性和不足之处。本文讨论了PageRank算法的背景、算法原理及其主要的缺陷。
关键词 P age Rank算法 Web结构 超链接
1.引言
随着Inter ne t的飞速发展Web上的信息量也以惊人的速度增长人们也越来越多的在Interne t上发布和获取信息万维网已经成为资料共享和信息交流的最大平台。那么一个很突出的问题就出现了如何在互联网中海量的资源中迅速、准确的找到自己所需的信息而Web挖掘这项新技术就是为了解决这一难题的。Web挖掘技术是数据挖掘技术和Inte rnet技术的结合是当今计算机研究领域的新热点。
2.经典的Web结构分析算法
传统的互联网应用技术大多是基于文档内容的业界对互联网搜索功能的理解是某个关键词在一个文档中出现的频率越高该文档在搜索结果中的排列位置就要越显著。这种做法都是忽略了互联网包含而传统数据环境没有的另一种丰富信息互联网的超链接拓扑结构。所谓的超链接就是指从一个网页指向另一个目标的连接关系。另一个目标可以是其它网页也可以是本网页其它位置。假设网页A有一条超链接指向网页B那么我们就认为网页A的创建者判定网页B包含了有价值的信息。因此充分利用互联网间的链接结构信息对互联网的搜索具有重大意义。
基于超链接的分析方法 Page Rank、HI TS、 SALSA等算法应运而生。其中不少算法已经在实际系统中使用并取得了良好的效果而PageRank算法就是其中应用最广泛的一个。
3.PageRank算法原理
PageRank算法是Google创始人Sergey Brin和Lwarence Page于1998年提出来的它是基于Web超链接结构分析的算法中最成功的代表也是评鉴网页权威性的重要工具。
PageRank算法借鉴了传统的情报检索理论中的引文分析方法。核心思想就是 当网页A存在一条超链接指向网页B时就理解为“网页A向网页B投了一票”网页B的重要级数就得到增加。PageRank算法还认为网页B的重要性不
麻花云在7月特意为主机测评用户群定制了促销活动:香港宽频CN2云服务器、安徽移动云服务器(BGP网络,非单线,效果更好)、安徽移动独立服务器、安徽电信独立服务器,全部不限制流量,自带一个IPv4,默认5Gbps的DDoS防御。活动链接:https://www.mhyun.net/act/zjcp特价云服务器不限流量,自带一个IPv4,5Gbps防御香港宽频CN2全固态Ⅲ型 4核4G【KVM】内存:...
官方网站:https://www.akkocloud.com/AkkoCloud新品英国伦敦CN2 GIA已上线三网回程CN2 GIA 国内速度优秀.电信去程CN2 GIALooking Glass:http://lonlg.akkocloud.com/Speedtest:http://lonlg.akkocloud.com/speedtest/新品上线刚好碰上国庆节 特此放上国庆专属九折循环优惠...
hostsailor怎么样?hostsailor成立多年,是一家罗马尼亚主机商家,机房就设在罗马尼亚,具说商家对内容管理的还是比较宽松的,商家提供虚拟主机、VPS及独立服务器,今天收到商家推送的八月优惠,针对所有的产品都有相应的优惠,商家的VPS产品分为KVM和OpenVZ两种架构,OVZ的比较便宜,有这方面需要的朋友可以看看。点击进入:hostsailor商家官方网站HostSailor优惠活动...