采集中国脚本网

中国脚本网时间:2021-01-24 阅读:()

80WWWWWWWWWWWW论坛中的动态网页采集论坛中的动态网页采集论坛中的动态网页采集论坛中的动态网页采集李李李李魁魁魁魁1,2程学旗程学旗程学旗程学旗1郭郭郭郭岩岩岩岩1张张张张凯凯凯凯11.
中国科学院计算技术研究所北京1000802.
中国科学院研究生院北京100039摘摘摘摘要要要要网络论坛已经成为互联网信息发布的主要形式对论坛信息的检索和挖掘都涉及到论坛信息的获取然而传统的针对静态网页的广度优先采集工具不能有效地获取论坛信息该文利用论坛的结构特点提出了一种版面-主题关联判断(BTCJ)算法采用一种基于版面扩展的采集策略实验证明该方法在论坛采集准确率和覆盖率方面显著优于广度优先策略具有良好的泛化能力应用在实践中已覆盖各种类型的论坛12000余个关键词关键词关键词关键词互联网论坛信息采集动态网页CrawlingDynamicWebPagesinWWWForumsLIKui1,2,CHENGXueqi1,GUOYan1,ZHANGKai1(1.
InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080;2.
GraduateSchool,ChineseAcademyofSciences,Beijing100039)AbstractWebForumshavebeenoneofdominatingwaysforinformationreleaseandexchangeinInternet.
CrawlingisthegroundworkofsearchingandmininginformationfromWebForums.
However,traditionalcrawlingcomponentusuallyusing"Broad-first"strategycannotfetchinformationfromWebForumseffectively.
Exploringinnerstructure-featuresofforums,thispaperpresentsacrawlingstrategy,whichisbasedon"board-topiccorrelationjudgments"algorithm.
Comparedwith"board-first"strategy,thissolutionperformsremarkablybetterbothinprecisionsandrecall.
Inpractice,thealgorithmisperformedover12000differentWebforumsandachievesagoodresult.
KeywordsWWWforums;Informationcrawling;DynamicWebpage计计计计算算算算机机机机工工工工程程程程ComputerEngineering第第第第33卷卷卷卷第第第第6期期期期Vol.
33No.
62007年年年年3月月月月March2007软件技术与数据库软件技术与数据库软件技术与数据库软件技术与数据库文章编号文章编号文章编号文章编号10003428(2007)06008003文献标识码文献标识码文献标识码文献标识码A中图分类号中图分类号中图分类号中图分类号TP311WWW论坛对比一般的网站具有交互性参与性内容新颖涉猎面广的特点已经成为现时代一种非常热门的信息获取渠道论坛中蕴涵着大量富有使用价值和商业价值的内容挖掘网上论坛不仅可以便利广大网民搜索网络资源也可以提供给第3方公司有意义的信息资料同时由于论坛反映的是和用户密切相关的内容论坛成为互联网上一个非常重要而独特的信息宝库针对于WWW论坛的信息采集具有越来越重要的意义不同于普通网站以静态网页为主WWW论坛大多借助于数据库和动态网页技术生成使得传统的采集方式遇到了前所未有的困扰采集陷阱和采集质量低下[1~3]作为应对当前流行的搜索引擎往往采用消极的规避策略尽量避免过多采集论坛中的动态页面[4,5]这使得WWW论坛中的资源不能得到有效的采集利用1WWW论坛的特点与采集的难点论坛的特点与采集的难点论坛的特点与采集的难点论坛的特点与采集的难点对于WWW论坛论坛中的链接具有如下独特的性质(1)链接的种类多除了访问资源的超链接还存在大量功能性的链接和噪声链接所谓功能性的链接即完成某种特定操作的链接如发表评论等功能(2)链接的层次深大量的内容需要深入论坛才能访问到(3)链接冗余现象明显所谓链接冗余即指同一内容存在多个不同的链接与之相对这些特点使得广度优先的采集策略在论坛采集中受到了严峻的挑战一方面采集的负担明显加重容易陷于采集陷阱消耗大量的资源另一方面采集的效率非常低下大量无意义重复的链接被采集由于以上原因的存在因此在对动态网页的采集中采集陷阱是一个非常棘手的问题所谓采集陷阱是指采集器陷入在网站的链接的无穷尽的扩展中对采集器而言此网站被认为存在无穷的链接需要被采集采集陷阱的存在会导致采集器有限的资源的白白浪费甚至使采集程序崩溃为了避免陷入采集陷阱当今主流搜索引擎对动态网页的采集都采用相应的规避策略如限制采集单个网站的层次和限制采集的数量另外大量噪声链接和冗余链接的存在使得采集的精度大大降低大量无实际意义的网页被采集2基于版面扩展的论坛采集策略基于版面扩展的论坛采集策略基于版面扩展的论坛采集策略基于版面扩展的论坛采集策略分析互联网论坛的结构可以发现互联网论坛中存在版面-主题索引页-主题的3层扁平逻辑结构如图1所示论坛被人为地根据不同的话题类别组织成若干个讨论区称之为版面用户在讨论区中对相关话题发表讨论用户发表的一个主题的内容称之为主题一个主题包括其后的跟帖版面是同类型主题的集合主题是采集器在论坛中唯一关心的信息资源从论坛首页出发找到各个版面再获得版面中的所有主题是一种很自然的想法进一步发现在各个版面中主题是以列表的形式分页呈现若干个主题的列表形成一个分页同一版面的各分页之间通过上一页下一页之类的链接相互链接因分页中含有大量主题的链接把这样的分页称为主题索引页面基金基金基金基金项目项目项目项目国家973计划基金资助项目大规模文本内容计算(2004CB318109)作者简介作者简介作者简介作者简介李魁(1982)男硕士生主研方向信息检索自然语言处理程学旗研究员郭岩张凯助理研究员收稿日期收稿日期收稿日期收稿日期2006-03-25E-mailibucan@126.
com81版面的所有主题页面的集合组成了该版面主题集合的一个分划主题索引页面是从版面得到主题的中介论坛站点版面1第1页主题索引页面版面2版面3主题1主题2主题1主题2主题1主题2第2页第3页图图图图1论坛逻辑结构论坛逻辑结构论坛逻辑结构论坛逻辑结构在采集的过程中利用论坛的逻辑结构通过主题索引页面定位主题实现对论坛的精确采集首先找到论坛的各个版面再从版面开始得到该版面的所有主题索引页面最后从主题索引页面中提取各个主题的链接称之为基于版面扩展的采集策略3算法描述算法描述算法描述算法描述3.
1链接的分类链接的分类链接的分类链接的分类论坛采集中面对的主要是动态网页的链接所谓动态网页是指网页在服务器端并不存在而是在客户请求时由服务器端即时生成的网页动态网页对应的URL称为动态URL动态URL中含有服务器端脚本需要传递的参数名和参数值Web服务器在得到对动态URL的请求后解析相应服务器端脚本并结合参数生成网页内容发送给客户端如下为动态URL的示例http://ServerHost/Dir/ScriptNamePara1=Value1[Para2=Value2.
.
.
.
]其中ServerHost为脚本所在站点域名Dir为脚本所在Web服务器目录路径ScriptName脚本名称Para(i)为传递给脚本的第i个参数的名称Value(i)为传递给脚本的第i个参数的值链接分类的思想在于在同一站点中性质相似的网页具有相似的URLWWW互联网论坛网页中的链接按照性质可以分为若干类如主题链接版面链接显示用户信息的链接其它功能性链接等这些不同类型的链接在URL上表现都有自己的特征这种特征在单个URL上不一定能够清晰地体现出来但当同种类型的链接的URL作为一个整体的时候这种URL内在蕴涵的特征就能呈现明显地区别于其它类型链接的URL我们这样定义动态URL的相似性同一站点中具有相同的ScriptName相同的参数名和相同的参数个数的两个URL是相似的以此作为动态链接分类的依据使不同类型的链接得到区分在试验中这种链接的分类方法在互联网论坛链接分类的应用上具有非常良好的分类精度和区分性而且分类结果具有良好的可解释性3.
2版面链接的判断版面链接的判断版面链接的判断版面链接的判断从论坛的首页中抽取得到站内链接按照上面的链接分类算法对链接进行分类得到若干个链接类排除过小的类得到候选版面链接类此时确定版面链接类有需要描绘版面链接类的特征我们提出了一种版面主题关联判断算法来确定版面链接类版面链接指向的页面为版面页面通透过判断链接指向的页面是否为版面页面来判定链接是否是版面链接版面页面实际上是特殊的主题索引页面它是该版面中的第一个主题索引页面其中内容主要是帖子列表显示从以下两方面去归纳版面页面的特征(1)链接描述文字特征版面页面中的主体是主题列表显示其中包含一定数目主题的链接集合这些链接对应的链接描述文字则是关于主题内容的概括我们发现主题的链接描述文字通常具有完整的语义这从长度上反应出来是具有较大的长度区别于版面页面中其它链接(2)数量特征版面页面的主题列表的分页显示这决定了主题链接在版面页面具有相当数量版面-主题关联判断算法(BTCJ)如下(1)提取待判断页面中的链接(2)对所有站内链接使用前述分类算法分类(3)若链接类满足这样的条件类的大小超过一定值且此类的锚文本平均长度大于阈值则标注此类为主题链接类(4)当且仅当存在单一的主题链接类时此页面被认为是版面页面否则不是3.
3主题索引链接的自动翻页扩展主题索引链接的自动翻页扩展主题索引链接的自动翻页扩展主题索引链接的自动翻页扩展识别了站点的版面页面链接后还要获得各个版面中所有的主题索引页面的链接如上文所述版面页面为该版面的第1个主题索引页面称之为种子索引页面同一版面内的各个主题索引页面之间通过链接相互连接从版面种子索引页面出发通过链接蔓延再加上一些启发式信息可能得到该版面的所有主题索引页面但这不是一种经济的方法若版面的主题索引页面较多即意味着要深入很多层链接才能得到所有的主题索引页面链接蔓延的代价随深度呈指数增长另一方面主题索引页面具有的逻辑先后顺序在链接蔓延中丢失这对更新是不利的我们已经得到版面链接这是一种特殊的主题索引页面链接它与该版面的其它主题索引页面链接在URL的表现形式上存在相关性需要利用这种相关性找到该版面的其它主题索引链接的样例我们注意到同一版面所有的主题索引页面链接(除种子索引页面)的URL上具有相似性变化的只是个别参数的值这个参数值的不同对应着该版面不同的主题索引页面链接此参数称之为翻页参数相邻两个主题索引页面的翻页参数值之间的差值称之为翻页参数间距http://bbs.
myadobe.
com.
cn/forumdisplay.
phpf=85&page=5&sort=lastpost&order=&pp=20&daysprune=-1http://bbs.
myadobe.
com.
cn/forumdisplay.
phpf=85&page=6&sort=lastpost&order=&pp=20&daysprune=-1上例所示翻页参数为page翻页参数间距为1确定了翻页参数和翻页间距就可以方便地得到该版面的所有主题索引页面最后通过这些主题索引页面就能得到论坛中有效信息(主题)的链接4实验实验实验实验4.
1WWW论坛中的论坛中的论坛中的论坛中的采集陷阱采集陷阱采集陷阱采集陷阱现象现象现象现象以对一组WWW论坛站点以广度优先策略进行采集采集深度为5记录每个站点实际采集网页的数量与该站点中实际所有的主题数进行比较从表1可看出广度优先策略在论坛采集中遇到的采集陷阱问题采集器获取的页面数远远大于论坛中实际的主题数82表表表表1广度优先采集数与帖子数对比广度优先采集数与帖子数对比广度优先采集数与帖子数对比广度优先采集数与帖子数对比论坛站点名BF—5采集网页数实际主题数WWW.
cntong.
com/phpbb/941933452csapa.
org/phpBB/1555607201forum.
lnnu.
edu.
cn82731878388bbs.
centrmus.
com616286164354.
2与广度优先算法的比较与广度优先算法的比较与广度优先算法的比较与广度优先算法的比较在WWW论坛中对采集器而言有效的网页是用户在论坛中发表的主题定义论坛采集的准确率和覆盖率准确率=采集得到主题数/采集的网页总数覆盖率=采集得到主题数/论坛主题数选取了各种类型的WWW的论坛对广度优先算法和我们的算法(BPCJ)的采集准确率和覆盖率进行了比较结果如表2所示表表表表2论坛采集算法与广度优先采集算法效果比较论坛采集算法与广度优先采集算法效果比较论坛采集算法与广度优先采集算法效果比较论坛采集算法与广度优先采集算法效果比较BPCJ算法的采集准确率达到了90%以上明显优于广度优先算法采集覆盖率也比广度优先算法有了显著提高个别站点采集覆盖率较低的原因是该站点中主题数目众多而BPCJ扩展的版面翻页数有限(在实验中扩展翻页数为32)4.
3结论结论结论结论从表2中可以看出我们的算法在对论坛中的动态网页采集上具有明显的优势通过对版面和主题链接的识别以及扁平化的采集策略解决了互联网论坛中采集陷阱这一阻碍采集的根本问题消除了噪声链接造成的采集质量低下的困扰而值得一提的是我们的算法并不针对某一论坛或某一类型的论坛它不需要训练学习也不需要对某一站点指定特定规则而是总结了互联网论坛在逻辑上和应用技术上的内在规律具有极强的泛化能力在实际中已经覆盖了各种类型的论坛站点12000余个这进一步证明了我们先前的假设在同一站点中功能相似的链接在URL形式上具有很强的相似性参考文献参考文献参考文献参考文献1ChoJ,Garcia-MolinaH,PageL.
EfficientCrawlingThroughURLOrdering[C]//Proceedingsofthe7thInternationalWorldWideWebConference.
1998:161-172.
2NajorkM,WienerJL.
Breadth-firstCrawlingYieldsHigh-qualityPages[C]//Proceedingsofthe10thInternationalWorldWideWebConference.
2001:114-118.
3LiJun,FuruseK,YamaguchiK.
FocusedCrawl-ingbyExploitingAnchorTextUsingDecisionTree[C]//Proceedingsofthe14thInternationalWorldWideWebConference.
2005:1190-1191.
4CastilloC.
EffectiveWebCrawling[D].
UniversityofChile,2004.
5BrinS,PageL.
TheAnatomyofaLarge-scaleHypertextualWebSearchEngine[J].
ComputerNetworksandISDNSystems,1998,30(1-7):107-117.
(上接第73页)遗忘协同过滤算法的MAE值都小于传统的协同过滤算法但是对于不同的k线性逐步遗忘协同过滤算法的优势不一样显然它受邻居用户大小k的影响3.
4结论结论结论结论由前面的实验结果可得到如下结论总体上线性逐步遗忘协同过滤算法在准确性方面优于传统的协同过滤算法由于用户兴趣大多都是逐渐改变的因此在推荐系统中使用线性逐步遗忘策略将有效提高推荐算法的准确性4结束语结束语结束语结束语针对协同过滤系统中的用户兴趣变化问题本文提出了线性逐步遗忘协同过滤算法实验结果表明当用户兴趣发生变化时线性逐步遗忘协同过滤算法在准确性方面优于传统的协同过滤算法参考文献参考文献参考文献参考文献1KarypisG.
EvaluationofItem-basedTop-NRecommendationAlgorithms[R].
Minneapolis:Dept.
ofComputerScience,UniversityofMinnesota,TechnicalReport:#00-046,2000.
2CaiDeng,LuZen-xiang,LiYanda.
CollaborativeFiltering[J].
ComputerScience,2002,29(6):1-4.
3SarwarB,KarypisG,KonstanJ.
Item-basedCollaborativeFilteringRecommendationAlgorithms[C]//Proc.
ofthe10thInternationalWorldWideWebConference.
2001:285-295.
4DeshpandeM,KarypisG.
Item-basedTop-NRecommendationAlgorithms[J].
ACMTransactionsonInformationSystems,2004,22(1):143-177.
5GoldbergD,NicholsD,OkiBM.
UsingCollaborativeFilteringtoWeaveanInformationTapestry[J].
CommunicationsoftheACM,1992,35(12):61-70.
6KoychevI,SchwabI.
AdaptationtoDriftingUser'sInterests[C]//Proc.
ofECML'00,Barcelona,Spain.
2000.
7KukarM.
DriftingConceptsasHiddenFactorsinClinicalStudies[C]//Proc.
ofthe9thConf.
onArtificialIntelligenceinMedicineinEurope,Protaras,Cyprus.
2003.
8ZengChun,XingChunxiao,ZhouLizhu.
ASurveyofPersonalizationTechnology[J].
JournalofSoftware,2002,13(10):1952-1961.
9YuLi,Liulu,LiXuefeng.
ResearchonPersonalizedRecommendationAlgorithmforUSer'sMultipleInterests[J].
ComputerIntegratedManufacturingSystems,2004,10(12):1610-1615.
10YuanGenqing.
MedicalPsychology[M].
Nanjing:SoutheastUniversityPress,1995.
BTCJ算法广度优先采集算法站点名称论坛类型论坛主题数采集的网页总数采集得到主题采集准确率%采集覆盖率%采集得到主题采集准确率%采集覆盖率%csapa.
orgphpbb72016601655499.
391.
0221933.
630.
8WWW.
cntong.
comphpbb34522531247297.
771.
6135253.
439.
2WWW.
linuxbyte.
netIBP30202148209797.
669.
463329.
521.
0WWW.
soking.
comBMForum26051949184994.
971.
035718.
311.
8luntan.
popo.
163.
com自设计142315503784912297.
534.
535977.
02.
5envi.
ruc.
edu.
cn/bbs/Newvbb21031899171390.
263.
432617.
215.
5

展开全文