用户论坛采集器

论坛采集器时间:2021-02-28 阅读:()

86一个个性化的Web信息采集模型吴丽辉1,2王斌1张刚1,2(1.
中国科学院计算技术研究所软件研究室北京1000802.
中国科学院研究生院北京100039)摘要介绍了个性化技术和个性化Web信息的采集技术重点分析了个性化的Web信息采集模型包括系统总体结构用户兴趣的获取个性化Web信息采集流程个性化推荐的实现最后对个性化Web信息采集与搜索引擎作了一个比较分析了个性化Web信息采集的应用关键词个性化个性化的Web信息采集搜索引擎ACustomizedWebCrawlingModelWULihui1,2,WANGBin1,ZHANGGang1,2(1.
SoftwareDivision,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080;2.
GraduateSchoolofChineseAcademyofSciences,Beijing100039)AbstractThispaperintroducespersonalizationandcustomizedWebcrawlingtechnology.
ThecustomizedWebcrawlingmodelistheemphasisofthispaper,includingthesystemarchitecture,describingusers'interests,customizedWebcrawlingflowandtherecommendationtechnology.
Atlast,comparisonbetweencustomizedWebcrawlingandsearchengineispresented,andtheapplicationsofcustomizedWebcrawlingisanalyzes.
KeywordsPersonalization;CustomizedWebcrawling;Searchengine计算机工程ComputerEngineering第31卷第22期Vol.
31222005年11月November2005软件技术与数据库文章编号10003428(2005)22008603文献标识码A中图分类号TP3911991年WWW诞生至2000年7月Internet上的网页数量就已经超过21亿而且还在以每天700万的速度增加Web包含了从技术资料商业信息到新闻报道娱乐信息等多种类别和形式地信息为用户提供了一个极具价值地信息源Web已成为人们获取信息的一个重要途径但同时Internet是一个具有开放性动态性和异构性的全球分布式网络资源分布很分散且没有统一的管理和结构这就导致了信息获取的困难如何快速准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题搜索引擎是最普遍的辅助人们检索信息的工具比如Google(www.
google.
com)Yahoo(www.
yahoo.
com)等搜索引擎技术满足了人们一定的需求但由于其通用的性质仍然不能满足不同背景不同目的和不同时期的查询请求当用户输入关键词后搜索引擎返回的结果往往成百上千其中包含大量与用户兴趣不相关重复甚至是过时的信息个性化技术就是针对这个问题而提出来的个性化的实质是针对性[1]即对不同的用户采取不同的服务策略提供不同的服务内容Web信息采集主要是指通过Web页面之间的链接关系从Web上自动地获取页面信息并且随着链接不断地向所需要的Web页面扩展的过程实现这一过程主要是由Web信息采集器来完成的个性化的Web信息采集的目标就是通过用户兴趣制导或与用户交互等灵活手段来采集信息1个性化技术个性化技术研究已经成为当前学术界和产业界研究开发的热点各大计算机公司和著名网站纷纷推出个性化服务和个性化开发工具例如雅虎公司推出的MyYahoo!
网站IBMAlmaden研究中心开发的中间件系统WBI[2]支持Web服务器和浏览器之间的信息流转换实现Web个性化功能开发当前支持个性化的技术分为3类(1)手工决策规则系统它是由Web站点管理员根据用户的静态特征和动态属性来制定规则规则决定了在不同的情况下如何提供不同的服务例如IBM的WebSphere(www.
ibm.
com/websphere)BroadVision(www.
broadvision.
com)其优点是简单直接缺点是规则质量很难保证此外随着规则的数量增多系统将变得越来越难以管理(2)基于内容的过滤系统它利用资源与用户兴趣的相似性来过滤信息例如PersonalWebWatcher[3]Letizia[4]其优点是简单有效缺点是难以区分资源内容的品质和风格且不能为用户发现新的感兴趣的资源只能发现和用户已有兴趣相似的资源(3)协同过滤系统它是通过用户群的相似性进行内容推荐例如WebWatcher[5]GroupLens[6]其优点是能为用户发现新的感兴趣的信息缺点是存在稀疏性即在系统使用初期系统资源还未获得足够多的评价系统很难利用这些评价来发现相似的用户还有一些个性化服务系统同时采用了基于内容过滤和协同过滤这两种技术目的是克服各自的一些缺点例如WebSIFT[7]Anatagonomy[8]等2个性化Web信息采集技术目前Web信息采集技术的发展在传统的Web信息采集技术的基础上又出现了许多轻型的各具特色的采集技术如个性化的Web信息采集基于整个Web的信息采集是一种较传统的信息采集技术主要是指目标为从一些种子URL扩充到整个Web的信息采集它主要是作为门户搜索引擎和大型的Web服务提供商的数据收集部分典型的系统有Google[9]Mercator[10]作者简介吴丽辉(1974—)女博士生研究方向个性化服务技术信息采集数据挖掘王斌副研究员博士张刚博士生收稿日期2004-09-16E-mailwulh@ict.
ac.
cn87个性化的Web信息采集是一种轻量级的采集系统它的目标就是通过用户兴趣制导或与用户交互等灵活手段来采集信息这种个性化信息一般有两个来源(1)用户手工在系统提供的个性化设置页面里设置这里主要考虑的问题是如何全面灵活简单地提供这种设置使得用户的各种喜好都能够表达(2)系统自动获取通过跟踪用户的浏览习惯和兴趣等SPHINX[11]是美国的卡耐基-梅隆大学开发的一个典型的个性化的Web信息采集器用户的个性化设置嵌在工作台里用户可设置采集站点的URL采集的深度将指定URL的页面信息保存到指定的本地目录将指定URL的页面信息合并到一个指定的页面等系统的优点是灵活小巧针对性强缺点是实用性和有效性还有待提高美国的乔治亚理工学院的一个实验室系统KrakatoaChronicle[12]是Web上的一个个性化的新闻站点它是针对指定站点www.
nando.
net/newsroom/nt/nando.
html的由服务器端和客户端组成服务器端从指定站点获取新闻转换为纯文本然后采用SMART搜索引擎将文章转换为文档向量通过TFIDT将文章转换为相应的关键词/权重集客户端管理用户交互和浏览器中新闻的显示3个性化的Web信息采集模型3.
1系统总体结构个性化的Web信息采集的体系结构如图1所示图1系统体系结构每个用户都会有其个性化的兴趣用户可以在搜索引擎上提交感兴趣的关键词对搜索引擎的返回结果进行选择选择的结果提交给个性化的Web信息采集用户也可以直接将个人兴趣提交给个性化的Web信息采集系统通过分析用户已访问过的站点信息用户对链接的选择和用户在网页上停留的时间等也可以获得用户的兴趣反馈根据用户的个性化兴趣个性化的Web信息采集到Web上寻找最能符合用户需求的最新信息推荐给用户3.
2用户兴趣的获取个性化Web信息采集面临的第1个问题就是用户兴趣的获取如何有效地获得用户的个性化信息将直接影响到个性化服务的质量每位用户都会有其个性化的兴趣显式的用户个性化的兴趣获取可以设置一个初始的用户兴趣文件来描述用户的个人兴趣在初始的用户兴趣文件中用户可以提交感兴趣的关键词和站点用户可设置起始的URL或将采集限定在某些站点指定采集的URL具有的前缀以及采集的深度等信息用户也可以在搜索引擎上提交感兴趣的关键词对搜索引擎的返回结果进行选择隐式的用户个性化兴趣获取包括分析用户已访问过的站点信息用户对链接的选择和用户在网页上停留的时间等3.
3个性化的Web信息采集流程个性化的Web信息采集流程如图2所示包括初始化URL处理器协议处理器重复内容检测器URL提取器和语义信息解析器它们协调起来从Web上获取信息图中的箭头表示数据走向图2个性化的Web信息采集流程一般采集器是从一个种子URL集出发通过Web协议向Web上所需的页面扩展的个性化的Web信息采集也不例外也有一个起始采集的种子URL集URL处理器主要给待采集的URL排序并根据一定的策略向协议处理器分配URLURL处理器还有一个任务就是DNS解析协议处理器主要通过各种Web协议来完成数据的采集一般来说协议包括HTTPFTPGopher以及BBS等但从主流上看仍以HTTP为主Web上存在着大量的镜像页面和内容最近的研究表明将近30%的页面是重复的极大地浪费了网络的带宽和影响了系统的效率重复内容检测变成了采集系统特别是大型采集系统的重要组成部分采用的检测方法根据系统的需要从简单的段落匹配到复杂的相似度比较中选择对于采集到的页面经过重复内容检测后需要分析其中的链接并对链接进行必要的转换这些任务由URL提取器来完成语义信息解析器所要获取的内容包括已采集页面的Meta信息Anchor信息页面的标题页面的摘要等获取它们的主要目的是力图尽可能多地挖掘meta结构等的语义信息来为从这些页面中提取出来的URL的好坏给出一个度量3.
4个性化推荐个性化推荐可以采用手工决策规则的技术基于内容过滤的技术和协同过滤技术个性化的Web信息采集采用基于内容过滤的技术利用页面与用户兴趣的相似性来推荐信息其关键问题是相关度判定在相关度判定中需要考虑的因素包括(1)内容的匹配与相关页面的内容是与用户个性化的需求匹配和相关的(2)内容的时效性用户希望得到的是最新的信息比如用户对于3年前的数据是不感兴趣的(3)用户的个性特征比如用户希望得到的是关于F1的专业介绍(4)内容的有效容量比如用户需要的页面内容是大于1kB的采用检索领域常用的向量空间模型作为系统页面与用户兴趣之间的相关度判定方法实际上向量空间模型的处理能力较强而且处理方法也较简便个性化推荐的算法如下(1)在采集之前先将描述用户兴趣的多个页面进行关键词的提取和加权学习到属于该用户兴趣的特征向量及向量用户问题与反馈Web用户问题搜索引擎个性化的Web信息采集相关文档数据库Web初始化url处理器协议处理器url提取器用户个性化兴趣待采的相关url已访问url数据库重复内容检测器语义信息解析器相关度88的权重(2)对页面的正文进行分词除去停用词留下关键词并按照关键词在文章中出现的频率对关键词加权(3)将此页面的标题分词并将得到的关键词与文章中的关键词合并并加重权于这个关键词上(4)根据用户兴趣的特征向量对页面中的关键词进行修剪和扩充(5)根据式(1)计算出页面与用户兴趣的相似度其中D1为用户兴趣D2为待比较的页面∑∑∑=====NkkNkkNkkkwwwwDDSim12212112121)()(*cos),(θ(1)(6)根据Sim(D1,D2)值的大小和阈值d进行比较如果Sim(D1,D2)大于等于d则页面与用户兴趣相关主动推荐给用户否则不相关删除此页4与搜索引擎的比较大多数的传统搜索引擎都是基于客户/服务器模型的在线搜索模式并在服务器后台维护着预定义海量的信息数据库这种结构对信息数据库和网络存在着过多的依赖性(1)搜索引擎采用一套预定义的分类手段并不考虑用户的特殊选择因此用户得到的搜索结果可能会与期望结果大相径庭(2)搜索引擎通常不具备学习功能无法从广阔的信息空间动态地收集信息(3)中心数据过于庞大很难对其进行及时维护和更新(4)搜索引擎不支持结果的异步传送要求在提交请求和回送结果的过程中保持良好的网络链接(5)传统的搜索引擎强调以引擎为中心而忽视了不同背景和不同兴趣的用户的需求而在个性化的Web信息采集中通过对用户反馈信息的学习可以有效地改进信息搜集的效率正好弥补了传统搜索引擎的这些不足之处.
5应用考虑个性化Web信息采集的应用用户很关注伊拉克战争希望了解伊拉克战争的最新报道此时用户一般会登录某个网站浏览关于伊拉克战争的文章或者通过某个搜索引擎如Google查询伊拉克战争然后点击查询结果查看而实际上此时关于伊拉克战争新进展的报道不断推出可用户查看的网页可能并不是最新的用户登录不同网站看到的报道又可能是重复的而搜索引擎的数据库可能并没有及时刷新搜索引擎返回的查询结果也不是最新的个性化Web信息采集通过用户浏览的网页或在搜索引擎上提交的查询词了解到用户很关注伊拉克战争此时在不打搅用户的情况下个性化Web信息采集在Web上去搜寻伊拉克战争的最新报道然后以合适的方式主动把最新的相关网页推荐给用户从而满足了用户个性化的需求考虑个性化Web信息采集的另一个应用用户每天都比较关注某几个网站如新浪新闻而每天登录这些网站一方面是花时间另一方面看到的可能是大量重复的网页此时用户可以把这些固定站点提供给个性化Web信息采集个性化Web信息采集每天去跟踪这些网站一旦发现网页刷新就把这些新网页以合适的方式主动推荐给用户从而满足了用户个性化的需求6结束语个性化服务是一种趋势通用的搜索引擎技术不可能满足不同背景不同目的和不同时期的用户个性化的需求为解决用户个性化的需求本文研究了个性化技术和个性化Web信息采集技术重点分析了个性化的Web信息采集模型并对个性化Web信息采集与搜索引擎做了一个比较随着人们对Web服务种类和质量要求的提高对个性化Web信息采集的要求也越来越高在将来的研究中还需要对本系统进一步完善例如用户兴趣和行为的表达用户兴趣是多方面的动态变化的跟踪学习和表达用户兴趣是需要进一步研究的方向还有安全问题用户一般都很注意保护自己的隐私个性化Web信息采集技术要发挥作用必须有效地保护用户隐私才能顺利实现个性化推荐的目的参考文献1高文,刘峰,黄铁军等.
数字图书馆原理与技术实现[M].
北京清华大学出版社,20002BarrettR,MaglioPP,KellemDC.
WBI:AConfederationofAgentsthatPersonalizetheWeb[J].
In:ProceedingsoftheFirstInternationalConferenceonAutonomousAgents,NewYork:ACMPress,19973MladenicD.
MachineLearningforBetterWebBrowsing[J].
AAAISpringSymposiumTechnicalReportsonAdaptiveUserInterfaces,MenloPark,CA:AAAIPress,2000:82-844LiebermanH.
Letizia:AnAgentthatAssistsWebBrowsing[J].
In:ProceedingsoftheInternationalJointConferenceonArtificialIntelligence,MenloPark,CA:AAAIPress,1995:924-9295JoachimsT,FreitagD,MitchellT.
WebWatcher:ATourGuidefortheWorldWideWeb[J].
In:ProceedingsoftheInternationalJointConferenceonArtificialIntelligence,SanFrancisco:MorganKaufmannPublishers,1997:770-7776KonstanJ,MillerB,MaltzD,etal.
GroupLens:ApplyingCollaborativeFilteringtoUsenetNews[J].
CommunicationsoftheACM,1997,40(3):77-877SrivastavaJ,CooleyR,Deshpand,M,etal.
WebUsageMining:DiscoveryandApplicationsofUsagePatternsfromWebData[J].
In:ProceedingsoftheACMSIGKDDExplorations,NewYork:ACMPress,2000,1(2):12-238SakagamiH,KambaT,SugiuraA,etal.
EffectivePersonalizationofPush-typeSystemsVisualizingInformationFreshness[J].
ComputerNetworksandISDNSystems,1998,30(1-7):53-639BrinS,PageL.
TheAnatomyofaLarge-scaleHypertextualWebSearchEngine[J].
In:ProceedingsoftheSeventhInternationalWorldWideWebConference,Brisbane,Australia,1998-0410HeydonA,NajorkM.
Mercator:AScalable,ExtensibleWebCrawler[J].
In:WorldWideWebJournal,1999,2(4):219-22911MillerR,BharatK.
SPHINX:AFrameworkforCreatingPersonal,Site-specificWebCrawlers[J].
In:Proceedingsofthe7thInternationalWWWConference,Brisbane,Australia,1998-0412KambaT,BharatK,AlbersM.
TheKrakatoaChronicleanInteractive,Personalized,NewspaperontheWeb[J].
In:ProceedingsofWWW4,Boston,USA,1995

展开全文