网页hao123是什么网站

hao123是什么网站  时间:2021-02-20  阅读:()
第59卷第1期2015年1月基于查询意图的中文信息类网页分类研究王晓艳林昌意福建师范大学协和学院福州350117摘要:[目的/意义]通过网页分类提高搜索引擎及内容网站的检索性能,根据查询意图分类更精确地满足用户需求.
[方法/过程]以信息类中文网页为研究对象,采用人工归纳的方法构建信息类查询意图类目体系,提出根据该类目体系对信息类网页进行分类的方法,并通过实验进行验证.
[结果/结论]实验结果表明,所提出的方法具有较强的可行性,有助于精确地满足用户信息需求,提高搜索引擎及内容网站的检索性能.
关键词:查询意图网页分类特征提取分类模型搜索导航分类号:G256.
6DOI:10.
13266/j.
issn.
0252-3116.
2015.
01.
015作者简介:王晓艳,讲师,硕士,Email:21155271@qq.
com;林昌意,副教授,硕士.
收稿日期:2014-11-28修回日期:2014-12-20本文起止页码:113-118,126本文责任编辑:王善军1引言网页信息因其内容驳杂、结构多样、来源广泛等特点,一直是信息组织领域的难点.
随着网页数量的激增,关键词搜索引擎的查询效果面临极大挑战.
在此背景下,网页分类再次成为一个重要课题.
目前网页分类的方式主要有按主题分类和按体裁分类两种.
上述两种方式均有其存在的依据和支持,但都以网页本身为出发点,忽略了用户的需求特点,因此在一定程度上限制了搜索引擎的检索性能.
近年来,查询意图引起了学术界的广泛关注,查询意图的识别将有助于提高搜索引擎检索质量[1].
但目前的研究大多局限于用户意图本身而并非如何实现这些意图[2],因此,本文提出了根据用户查询意图对网页分类的思想.
2002年,A.
Broder等[3]提出,可以把用户查询意图分为导航类、信息类和事务类.
该分类体系受到了广泛认可,也成为本文的研究基础.
与用户查询意图相对应,本文认为,网页也可以被粗分为上述三大类.
经验表明,导航类网页很容易通过URL识别,而事务类网页主要集中在少数网站,且已有大量垂直搜索引擎能够满足用户的该类查询请求.
与上述两类网页相比,信息类网页所占比重大、种类繁多,且信息类查询常常呈现搜索目标不明确等特点,例如,输入"融资担保",可能是需要相关业务知识,也可能想了解业界有哪些公司,或者是相关政策法律等.
因此,信息类查询满意度相对较低.
鉴于上述情况,本文选择信息类网页作为研究对象,旨在提出一种能够对信息类网页实施有效分类的方法.
应用该方法,不仅可以为用户提供搜索导航,根据用户的具体查询要求提供更具针对性的搜索结果,而且有助于信息类网站实现栏目的自动化组织.
2相关研究2.
1查询意图查询意图是对用户真实查询目标及需求的描述.
以关键词为主要表现形式的查询请求往往无法准确完整地描述用户真正所需,因此,查询意图成为近年来一个热门研究领域.
关于查询意图的研究主要围绕4个方面展开:查询意图类目体系构建、查询意图特征识别、查询意图分类方法、数据集与评价方法[1].
本文只涉及类别体系构建,因此只介绍相关研究.
2002年,A.
Broder[3]将查询意图分为导航类、信息类和事务类,导航类是为了查找网站主页、栏目主页等目录型页面;信息类是为了查找理应分布在一个或多个页面的信息;事务类是为了进行一些基于Web的活动,一般需要与Web进行交互.
D.
E.
Rose等人[4]基本认同上述分类方式,只是将"事务类"用"资源类"取代,并提出了更具体的细分体系:将信息类分为有指导性的(directed)、无指导性的(undirected)、建议(advice)、位置(locate)和列表(list)5个小类;将资源类分为下载、娱乐、交互和结果页等.
此后,国内外不少学者相继提出311第59卷第1期2015年1月了不同的分类体系,但A.
Broder和D.
E.
Rose等的类目体系影响最大,因此,本文的论述在此框架下展开.
2.
2网页分类一般认为,网页分类是文本分类的一个分支,文本分类的流程、方法和技术可以应用到网页分类中.
但网页与普通文本相比,结构更加复杂,格式也更加多样,因此,网页分类有其自身的特点和难点,不能完全照搬文本分类.
从上个世纪末开始,网页分类就激起了学术界浓厚的研究兴趣,十几年来,国内外均涌现出了不少研究成果.
纵观这些成果,笔者认为以下学者的观点比较有代表性和影响力:S.
Chakrabarti等[5]认为,网页之间的超链接从某种程度上反映了网页之间内容的相关性,因此可利用超链接对网页进行分类;A.
P.
Asirvatham等[6]从网页结构入手,提出了如何利用、、、等网页标签定义的文档结构特征对网页进行分类的方法;W.
W.
Cohen[7]考虑到了锚文本在揭示网页主要内容方面的特殊作用,并对链接关系进行了具体描述,提出了利用锚文本和链接关系改进分类器的方法;M.
Y.
Kan等[8]观察到网页的URL中往往蕴含类别区分能力较强的词条,因此提出了一种使用URL特征的快速分类方法;M.
Kovacevic等[9]从网页内容提取的角度,提出了利用视觉特征识别内容块的方法,并认为内容块可作为网页分类的依据;ShenDou等[10]另辟蹊径,认为可利用查询日志对网页进行分类,该方法认为,指向同一查询词的网页具有内在关联性;S.
B.
Elizabeth[11]将研究视角转向分类方式,提出了按体裁对网页进行分类的思想.
综上所述,网页分类与传统文本分类最大的区别在于特征提取,这是由两者本身的差异决定的.
上述学者分别从各个角度提出了可用于网页分类的特征,包括链接、网页结构、锚文本、URL、查询日志等.
单独利用某项特征对网页进行分类的效果并不十分理想,因此,有必要将这些特征综合起来加以应用.
网页分类并非一个崭新的研究领域,现有研究成果也为数可观,但目前的研究基本都在按主题分类这个框架下展开,少数文献涉及到按体裁分类.
本文从用户的真实需求出发,提出了按查询意图分类的思想,旨在找到一种能满足用户真实查询需求、提高检索相关度的方法,这对于提高搜索引擎性能、节约网站编辑成本均有一定意义.
3信息类网页分类体系目前,查询意图分类体系尚无统一的标准,D.
E.
Rose等人提出的分类体系虽影响深远,但该体系在完备性、相互独立性及通俗性方面还有所欠缺.
因此,有必要建立一个更加简明通俗的分类体系.
为了构建这个分类体系,笔者做了以下两方面的工作:第一,对搜狗查询日志进行归纳分析;第二,选择了4个门户网站、8个资讯网站、4个博客网站、5个社区、2个百科、2个知识问答网站、8个专业/行业门户网站和10个企业网站,对其栏目结构进行处理,包括同名栏目去重、相似栏目合并、异名同类栏目映射、子类栏目提炼上升等.
最终,在求得各大网站栏目的共性的基础上,结合用户调查及查询日志分析的结果,以"生活优先,简便易行"为原则,将信息类网页分为10个类别:资讯:用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,具有时效性和地域性.
观点:某人或机构从一定的立场或角度出发,对事物或问题所持的看法.
知识:人类在实践中认识客观世界(包括人类自身)的成果,具有普遍性和通用性.
案例:人们在生产生活当中所经历的典型的富有多种意义的事件陈述,具有典型性和叙述性.
人物:某方面有代表性,或有突出特点的人.
数据资料:科学实验、检验、统计等所获得的和用于科学研究、技术设计、查证、决策等的数值、图表、报告、文档等材料.
机构:由人组成的团体或组织.
产品及服务:能够提供给市场,被人们使用和消费,并能满足人们某种需求的任何东西,包括有形的物品、无形的服务.
会议活动:为了某种目的聚集人群的行为,包括会议、集会、招聘、促销、比赛等活动形式.
话题及问答:以提问、问答或讨论的方式进行的信息交流.
上述类别定义主要来自百度百科,表述或欠规范.
就目前来说,上述分类体系还只是一个初步体系,随着研究的深入和实践的开展,将会逐步完善.
4特征选择针对查询意图对中文网页进行分类不同于传统主题分类,也有别于体裁分类.
本文在参考相关研究成果[12-14]的基础上,总结观察到的大量经验,并通过人工归纳和自动抽取相结合的方式,将网页的URL特征、结构特征、内容特征等进行了综合应用.
考虑到网411王晓艳,林昌意.
基于查询意图的中文信息类网页分类研究[J].
图书情报工作,2015,59(1):113-118,126页所在栏目的名称常常揭示了其对应的查询意图,可视为类别标签,因此,栏目名称是本文选择分类特征的重要对象.
实践表明,网页所在栏目的名称一般会出现在以下位置:URL、面包屑导航、网页标题及相关推荐.
因此,本文首先选择了上述4项特征.
此外,沿用文本分类的思想和方法,正文中的词汇及短语特征也是对网页进行分类的重要依据.
最后,笔者注意到命名实体在不同类别网页中的出现频率有所不同,因此,将该特征也纳入选择范围.
具体的特征项选取如下:4.
1URL特征URL特征包括两个方面:①URL本身;②URL中的类别标签.
4.
1.
1URL本身经验表明,同一网站同一栏目下的网页对应的查询意图相同,且URL相似.
例如:新浪上某条资讯的URL为http://news.
sina.
com.
cn/s/2014-04-23/054329991413.
shtml;另一条资讯的URL为http://news.
sina.
com.
cn/s/2014-04-22/233129989781.
shtml.
上述两条资讯的URL前半段完全一样,揭示了网页来源,后半段是日期和以ID编号命名的文件名,用于区分同类网页.
该规律普遍存在于各类网站.
因此,本文认为,可利用正则表达式替换URL中含有"日期"、"ID"、""、"="、"&"、"#"、"%"等动态参数的子目录(即两个"/"之间的内容)或文件名,然后将替换过的URL与已分类样本库中同样经过替换的URL进行匹配,若存在URL完全匹配的样本,则将待分类网页归入该样本所在类别.
4.
1.
2URL中的类别标签经验表明,URL中的子域名或子目录通常与网站的栏目名称对应,含有以英文或拼音形式存在的类别标签.
例如,"资讯"类网页的URL中均含有"news","观点"类网页的URL中常含有"opinion".
通过统计,笔者归纳了子域名或子目录中常见的类别标签,并建立了"类别标签集(字母版)".
4.
2网页标题网页标题中常常含有类别标签,例如"习近平北大行勉励学生"人生就像扣扣子"_新浪新闻"中含有"新闻"一词.
因此,可以通过网页标题中的类别标签进行归类.
通过统计,笔者归纳并建立了"类别标签集(中文版)".
值得注意的是,网页标题中的类别标签通常出现在分隔符"_"之后.
4.
3面包屑导航面包屑导航形如"当前位置:首页>电子商务>电子商务其他>资讯>正文",揭示了访问者目前在网站中的位置.
面包屑导航通常与网站栏目层次结构对应,含有当前网页对应的类别标签,因此是一项重要的分类特征.
4.
4相关链接很多网页上都会向用户推荐相关资源.
常见的形式包括"相关"、"最新"、"热门"等.
这些"相关链接表达式"中常常含有类别标签,可对其进行正则处理,然后与待分类网页中的"相关链接表达式"进行匹配,抽取其中的类别标签,用作网页分类.
4.
5模糊字符串某些类别的网页在表达方式、语法和句法方面呈现出一些共同特征,例如,新闻资讯常常含有"据报道"、"报讯"、"报年月日讯"、"来源:报"、"[新闻]"等模糊字符串.
模糊字符串属于低频高权特征项,具有较强的类别区分能力.
为了精确识别和匹配模糊字符串,采用正则表达式来对其进行表示,然后用于替换网页正文中的对应字符串.
通过统计,笔者归纳并建立了经正则处理过的"模糊字符串集",见表1.
4.
6词条词条指在各类别中分布倾斜,因而具有类别区分能力的词、短语或词组等.
根据词条进行网页分类源于传统文本分类,因而可以直接应用传统文本分类的特征选择方法.
传统文本分类一般采用基于评估函数的方法,本文也沿袭这种做法.
4.
7命名实体命名实体是指人名、地名、机构名、时间、日期、数量短语、货币等以名称作为表示的实体.
通过观察发现,不同类别网页中命名实体出现的频率有所不同.
例如:资讯中上述命名实体均出现很多,而知识中则出现较少;数据资料中日期及数量词频繁出现;产品及服务中常常含有货币数量词.
因此,笔者将各种命名实体也选作分类特征.
但为了降低特征维数,并不像对待词条特征那样,每个具体命名实体对应一维特征,而是对每类命名实体进行"归一化"处理,即诸如"王石"、"李开复"等人名均用词条"人名"替代,诸如"北京"、"上海"等地名均用词条"地名"替代,以此类推,将各类命名实体替换成统一标识符.
经过替换,分类过程中处理命名实体的方法就变得与词条特征一致了.
经验及后面的实验结果表明,上述7组特征中,前4组特征包含类别标签,类别区分能力明显高于后面3组.
因此,本文按照类别区分能力的高低,将上述7组特征分为两级,见图1.
511第59卷第1期2015年1月表1各类模糊字符串举例资讯"据\S{1,8}报道"、"\S{1,8}报讯"、"据\S{0,8}消息"、"\S{1,8}报\d{4}年\d{1,2}月\d{1,2}日讯"、"来源:\S{1,8}报"、"来源:\S{1,8}网"、"来源:\S{1,8}社"、"\S{1,8}社消息"、"\S{1,8}报消息"、"\S{1,8}网消息"、"\S{1,8}社\d{1,2}月\d{1,2}日电"、"\S{1,8}网\d{1,2}月\d{1,2}日电"、"\S{1,8}报\d{1,2}月\d{1,2}日电"、"\S{2,8}时间\d{1,2}月\d{1,2}日"、"\d{1,2}月\d{1,2}日消息"、"\S{1,2}点\S{1,2}分"观点"人名:\S+";"\S{1,8}作者\S{0,8}观点";"\S{1,8}个人观点,不代表\S{1,8}";"\S{1,8}仅代表个人,不代表\S{1,8}";"\S{1,8}的\S{0,8}文章"知识"如何\S{1,20}\"、"怎么\S{1,20}\"、"什么是\S{1,20}\"、"\S{1,20}什么\S{1,20}\"、"\S{1,20}吗\""\S{1,20}属于什么\"、"为什么\S{1,20}\"、"为何\S{1,20}\""哪些\S{1,20}\"、"能否\S{1,20}\"、"\S{1,20}是什么原因\"、"什么原因\S{1,20}\""哪里\S{1,20}\"、"可以\S{1,20}吗\"、"\S{1,20}会不会\S{1,20}\"、"\S{1,20}能不能\S{1,20}\"、"\S{1,20}多久\S{1,20}\"、"\S{1,20}有什么用\"、"\S{1,20}指什么\"、"教你\S{1,20}""\S{1,20}是什么\""怎样\S{1,20}\""\S{1,10}入门"、"\S{1,10}基础"、"\S{1,10}图解""本文\S{1,10}"、"\S{1,10}例子"、"例\S{1,2}"、"图\S{1,2}"、"表\S{1,2}"、"\d{1,2}、"、"\d{1,2}.
"、"第\S{1,2}章"、"第\S{1,2}节"、"\S{1,10}法"、"\S{1,10}方法"、"\S{1,10}的应用"案例"\S{0,10}案例"、"\S{0,10}事例"、"\S{0,10}实例"、"\S{0,10}示例"人物"出生\S{1,2}"、"出生地\S{1,10}"、"毕业院校\S{1,20}"、"\d{4}年\d{1,2}月\d{1,2}日出生于\S{1,10}"、"就读于\S{1,10}"、"获\S{1,10}学位"、"毕业于\S{1,10}"、"担任\S{1,10}"、"任职于\S{1,11}"、"\d{4}年\d{1,2}月\d{1,2}日逝世"数据资料"增长\d%";"提高\d%";"上升\d%";"减少\d%";"下降\d%%";"回落\d%";"\d\d\d\d年\S{1,2}季度";"\d\d\d\d年\d月";"\d\d\d\d年\S{1}半年";"与\S{2,4}年相比";"与\S{1,2}月相比";"与\S{1,2}季度相比";"占\S{1,10}比重";"达到\d%";"达到\S{1,10}元";"较\d\d\d\d年";"\d\d\d\dQ\d";"\S{1,2}季度";"据\S{1,20}报告";"据\S{1,20}统计";"截止d\d\d\d年";"截至d\d\d\d年"机构"成立于\S{1,11}"、"创办于\S{1,11}"、"\d{4}年\S{0,6}成立"、"由\S{1,20}创办"、"主要生产\S{1,20}"、"主要经营\S{1,20}"、"主要销售\S{1,20}"、"主管部门\S{1,20}"、"主管单位\S{1,20}"、"总部地址\S{1,30}"、"\S{1,5}任领导"、"有\S{1,8}员工"、"有\S{1,8}成员"产品及服务"$\d{1,10}"、"$\d{1,10}"、"\S{1}折"、"\S{2}购物车"、"\S{0,2}晒单"会议活动"主办单位\S{1,20}"、"第\S{1,3}届"、"参会\S{1,3}"话题及问答"问题:\S+"、"回答:\S+"、"答案:\S+"、"问:\S+"、"答:\S+"、"提问者\S{1,10}"、"\S{1,5}帖"、"#\S{1,20}#"图1分类特征组综上所述,本文选择上述组合特征,并采用向量空间模型(VSM)来表示网页.
具体说明如下:某信息类网页d∈D,即D={d1,…,di,…,dn},其中d=(u1,u2;t;n;r;sw1,sw2,…,swm;cw1,cw2,…,cwn;e1,e2,e3,e4,e5).
u1表示经过正则表达式替换的URL;u2表示URL中的类别标签;t表示标题中的类别标签;n表示面包屑导航中的类别标签;r表示"相关链接表达式"中的类别标签;swi(i=1,2,…,m)表示第i个模糊字符串的权重值;cwi(i=1,2,…,n)表示第i个词条的权重值;e1表示人名的权重值;e2表示地名的权重值;e2表示机构名的权重值;e4表示数量词的权重值;e5时间词的权重值.
本文选择TFIDF公式[15]来计算权重值.
5分类模型由于所选特征异构程度高,且在类别区分能力上也存在明显差异,因此本文采用基于投票的组合分类法[16],即针对不同特征采用不用分类法,然后将分类结果根据得票情况加以组合.
对于上述一级特征,构建了一组规则来完成分类;对于二级特征,笔者认为,基于统计和机器学习的传统文本分类法,如朴素贝叶斯(Bayes)、支持向量机(SVM)、K近邻(KNN)、质心向量(Rocchio)等均具有较强的适应性.
考虑到分类效率,本文首先利用一级特征进行分类,若成功则分类完成,否则利用二级特征进行再分类.
为了方便下面论述,首先给出以下定义:定义1:待分类网页为di,且di=(u1i,u2i;ti;ni;ri;swi1,swi2,…,swim;cwi1,cwi2,…,cwin;e1i,e2i,e3i,e4i,e5i);定义2:类别集C={C1,…,Ck,…,C10};定义3:类别Ck对应的字母版类别标签集为Tk={tagk1,…,tagkr,…,tagkn};中文版类别标签集为Bk={bk1,…,bkr,…,bkn};定义4:类别Ck的得票数为V(Ck),0≤V(Ck)≤5,初始值设为0.
5.
1基于规则的一级特征分类一级特征中,经正则处理的URL将与已分类样本库中的URL进行匹配来确定类别,而另外4个特征项均携带类别标签,因此,可根据URL的匹配情况及类611王晓艳,林昌意.
基于查询意图的中文信息类网页分类研究[J].
图书情报工作,2015,59(1):113-118,126别标签在4个一级特征项中出现的频数确定相应类别.
具体处理规则如下:对待分类网页di,设样本库中某已标注网页为dj,且dj归入类别Ck,则分类规则如下:规则1:如果经正则替换的URLu1i=u1j,则V(Ck)=V(Ck)+1;规则2:如果URL中的类别标签u2i∈Tk,则V(Ck)=V(Ck)+1;规则3:如果标题中的类别标签ti∈Bk,则V(Ck)=V(Ck)+1;规则4:如果面包屑导航中的类别标签ni∈Bk,则V(Ck)=V(Ck)+1;规则5:如果相关链接中的类别标签ri∈Bk,则V(Ck)=V(Ck)+1;规则6:如果V(Ck)达到事先设定的阈值λ(1≤λ≤5),则将网页di归入类别Ck.
5.
2基于统计和机器学习的二级特征分类部分网页一级特征比较稀疏,无法据此确定类别,因此有必要引入二级特征,并利用传统文本分类算法进行分类.
笔者的思路是:对模糊字符串、词条和命名实体三组特征,分别构建分类器,然后将分类结果进行加权综合,以此来确定最终类别.
具体见公式1:V(Ck)=αVs(Ck)+βVw(Ck)+γVe(Ck)(1)上式中,Vs(Ck)、Vw(Ck)、Ve(Ck)分别表示模糊字符串、词条和命名实体对应的3个分类器给类别Ck的投票数,取值范围为0或1;α、β、γ为三者对应的权值,反映了3个二级特征类别区分能力的高低,根据经验,αβγ.
如果V(Ck)达到事先设定的阈值λ(1≤λ≤5),则将网页di归入类别Ck.
6实验分析6.
1实验描述6.
1.
1实验数据集以hao123、265等导航网站为依托,结合个人经验,分别从门户类、新闻类、商业类、互联网类、财经类、汽车类、IT类、时尚类、电子商务类、博客类、百科类网站中选择了人气较高的少数网站,包括虎嗅网、艾瑞网、财经网、新浪、搜狐、网易、腾讯、新华网、人民网、凤凰网、汽车之家、东方财富网、中关村在线、太平洋时尚网、梅花网、钛媒体、创业邦、亿邦动力、博客园、新浪博客、百度百科等数十个网站,从这些网站上下载了865个网页,根据其所在栏目并结合人工判断将其归入前文所述10个类别.
6.
1.
2网页预处理网页预处理是实现分类的首要环节,预处理的质量高低直接影响到分类效果.
利用HtmlParser来完成预处理过程,具体如下:第一步,对网页进行常规去噪,去除"script","form","style","img","iframe","link"、"meta"等节点.
第二步,提取网页URL、标题、面包屑导航及相关链接表达式.
其中后两项特征不易识别,根据笔者的经验,判断规则如下:面包屑导航:①单独构成一个"块()";②形如">>"或">>>>",即符合以下正则表达式:\S{2,6}>\S{2,6}\S或\S{2,6}>>\S{2,6}\S;③不超过30个字符;④可能含有词汇"首页"或"当前位置".
相关链接表达式:①该节点字数10个以内;②不带超链接,即非锚文本.
第三步,去除HTML标签、链接及锚文本.
考虑到大概"只有40%多的链接页面与源网页具有主题相关性"[10],而且"主题相关"的链接并非"查询意图相关",因此链接及锚文本对本文的分类工作意义不大,故全部去除以降低特征维数.
6.
1.
3实验方法与工具目前,常用的特征选择方法有文档频率(DF)、信息增益(IG)、交叉熵(ECE)、互信息(MI)、χ2统计量法(CHI)等[17].
YangYiming等的研究证明[18],χ2统计量法(CHI)是目前效果最好的特征选择方法之一.
因此选择χ2统计量法(CHI)进行词条特征选择,所选词条数500.
分类方法采用SVM[19],分类工具采用LibSVM,核函数采用径向基函数,惩罚参数取1000.
分词软件采用中国科学院的开源中文分词工具ICTCLAS.
分类性能评估采用最常用的4个指标:各个类别的准确率P、召回率R、F1值以及整体的宏平均值[18];参数取经验值λ=2,α=2.
2,β=1.
6,γ=1.
2;数据采用对训练文档集进行三折交叉实验获得的均值.
6.
2实验结果及分析表2反映了10个类别网页采用上文所述方法分类后的准确率、召回率、FI值和各类别的宏平均值.
实验数据显示,总体分类效果较好,这与所选样本数量不多有一定关系;各类别分类效果略有差异,但控制在合理范围之内,说明本文的分类方法并没有明显"类别偏好";"知识"和"话题及问答"两个类别的3项指标偏低,这与笔者预计的结果吻合,因为这两类网页边界略欠清晰.
711第59卷第1期2015年1月表2实验结果网页类别准确率P召回率RF1资讯99.
197.
498.
2观点95.
396.
796.
0知识91.
489.
590.
4案例92.
291.
391.
7人物98.
297.
898.
0数据资料92.
691.
191.
8机构93.
794.
394.
0产品及服务93.
390.
892.
0会议活动92.
195.
493.
7话题及问答90.
688.
789.
6宏平均93.
993.
393.
6为了检验参数λ对分类效果的影响,笔者又进行了对比实验,分别对λ值取1、2、3、4、5时的上述4项指标进行了统计,为了方便对比分析,将F1的宏平均值作为参考,结果如图2所示:图2参数λ对分类的影响由图2可知,参数λ对分类效果的影响甚大,λ取值为2时效果最好,取值越大,分类性能反而下降.
这主要是因为本文选择的是"过滤式"分类方法,一级特征过于稀疏、无法确定类目时就利用二级特征,而二级特征区分能力明显低于一级特征.
这也证明了笔者之前的经验判断.
7结语本文从信息用户的现实需求出发,提出了按查询意图对网页进行分类的思想,并建立了初步的分类体系和特征空间.
由于可供借鉴的研究成果较少,本文的部分观点主要建立在经验总结的基础上,缺乏足够的理论支撑,但实验结果表现良好,这表明本文提出的方法具有较强的可行性.
对于未分类体系的优化、特征空间的完善等问题,笔者将进行进一步的深入研究.
参考文献:[1]陆伟,周红霞,张晓娟.
查询意图研究综述[J].
中国图书馆学报,2013,39(1):100-111.
[2]王大玲,于戈,鲍玉斌,等.
基于用户搜索意图的Web网页动态泛化[J].
软件学报,2010,21(5):1083-1087.
[3]BroderA.
AtaxonomyofWebsearch[J].
SIGIRForum,2002,36(2):3-10.
[4]RoseDE,LevinsonD.
UnderstandingusergoalsinWebsearch[C]//Proceedingofthe13thInternationalConferenceonWorldWideWeb.
NewYork,:ACM,2004:13-19.
[5]ChakrabartiS,DomB,IndykP.
Enhancedhypertextcategorizationusinghyperlinks[C]//ProceedingsofACMSIGMODInternationalConferenceonManagementofData.
NewYork:ACM,1998:307-318.
[6]AsirvathamAP,RaviKK,PrakashA,etal.
Webpageclassificationbasedondocumentstructure[EB/OL].
[2014-11-28].
http//citeseerx.
ist.
psu.
edu/viewdoc/downloaddoi=10.
1.
1.
24.
7710&rep=rep1&type=pdf.
[7]CohenWW.
Improvingapageclassifierwithanchorextractionandlinkanalysis[C]//ProceedingsofAdvancesinNeuralInformationProcessingSystems.
Cambridge:MITPress,2002:1481-1488.
[8]KanMY,ThiHON.
FastwebpageclassificationusingURLfeatures[C]//Proceedingsofthe14thACMInternationalConferenceonInformationandKnowledgeManagement.
NewYork:ACM,2005:325-326.
[9]KovacevicM,DiligentiM,GoriM,etal.
RecognitionofcommonareasinaWebpageusingvisualinformation:Apossibleapplicationinapageclassification[C]//Proceedingsof2002IEEEInternationalConferenceonDataMining(ICDM#02).
Maebashi:IEEEPress,2002:250-257.
[10]ShenDou,SunJiantao,YangQiang,etal.
Acomparisonofimplicitandexplicitlinksforwebpageclassification[C]//Proceedingsofthe15thInternationalConferenceonWorldWideWeb.
NewYork:ACM,2006:643-650.
[11]ElizabethSB.
GenreclassificationofWebdocuments[D].
FortCollins:ColoradoStateUniversity,2005.
[12]周帆.
基于VSM的中文网页分类特征选择技术研究与实现[D].
武汉:武汉理工大学,2012.
[13]朱丽娜.
中文网页分类特征提取方法研究[D].
青岛:中国石油大学,2009.
[14]朱珠.
基于网页特征的中文网页自动分类[D].
合肥:合肥工业大学,2009.
[15]黄臻臻,吴扬扬.
中文网页体裁分类特征项的权值调整策略[J].
广西师范大学学报:自然科学版,2007,25(2):173-177.
[16]时雷,虎晓红,席磊.
基于集成学习的网页分类算法[J].
郑州大学学报(理学版),2009,41(3):26-29.
[17]庞观松,蒋盛益.
文本自动分类技术研究综述[J].
情报理论与实践,2012,35(2):123-128.
[18]YangYiming,LiuXin.
Areexaminationoftextcategorizationmethod[C]//Proceedingsofthe22ndACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.
NewYork:ACM,1999:42-49.
[19]RossiF,VillaN.
Supportvectormachineforfunctionaldataclassification[J].
Neurocomputing,2006,69(7):730-742.
(下转第126页)811第59卷第1期2015年1月nationalConferenceonIntelligentUserInterfaces.
NewYork:ACM,2010:31-40.
[12]BüyükorakS,KarabulutKurtG,ToprakkiranG.
Userbehaviormodelingofvoicecommunications:Anempiricalstudy[EB/OL].
[2014-12-24].
http://onlinelibrary.
wiley.
com/doi/10.
1002/wcm.
2491/full.
[13]顾立平.
用户行为模型驱动个性化服务研究综述[J].
现代图书情报技术,2010,26(10):1-9.
[14]CiloglugilB,InceogluM.
UsermodelingforadaptiveeLearningsystems[M]//MurganteB,GervasiO,MisraS,etal.
ComputationalScienceandItsApplicationsICCSA2012.
BerlinHeidelberg:Springer,2012:550-561.
[15]王微微,夏秀峰,李晓明.
一种基于用户行为的兴趣度模型[J].
计算机工程与应用,2012,48(8):148-151,199.
[16]伍大清,阳小华,马家宇,等.
基于隐式反馈的用户兴趣漂移方法[J].
计算机应用与软件,2010(9):88-90.
[17]MoeWW.
Buying,searching,orbrowsing:Differentiatingbetweenonlineshoppersusinginstorenavigationalclickstream[J].
JournalofConsumerPsychology,2003,13(1/2):29-39.
[18]徐,张盼,丁婕.
只逛不买的电子商务用户分析———以淘宝网为例[J].
信息系统学报,2012(1):64-75.
[19]YinHongzhi,CuiBin,ChenLing,etal.
Atemporalcontextawaremodelforuserbehaviormodelinginsocialmediasystems[C]//ProceedingsofSIGMOD/PODS'14.
NewYork:ACM,2014.
[20]朱志国.
Web用户使用模式与兴趣挖掘方法研究[M].
北京:北京师范大学出版社,2012.
[21]刘春,梁光磊,谭国平.
基于用户兴趣变化融合的个性化推荐模型[J].
计算机工程与设计,2013,34(8):2944-2950.
[22]BucklinRE,SismeiroC.
AmodelofWebsitebrowsingbehaviorestimatedonclickstreamdata[J].
JournalofMarketingResearch,2003,40(3):249-267.
作者贡献声明:袁兴福:负责数据处理、分析,完成建模实验,论文主体初稿撰写;张鹏翼:负责研究定位、框架设计,论文修改、定稿;刘洪莲:用户聚类统计结果分析,论文审校;王军:研究思路、方向指导,论文审阅.
ModelingEcommerceUserSessionBehaviorsBasedonClickthroughSequencesYuanXingfuZhangPengyiLiuHonglianWangJunDepartmentofInformation,PekingUniversity,Beijing100871Abstract:[Purpose/significance]Mostusersessionmodelsbasedonclick-throughsequencestakesequencesofthepagetypes,butnotusers'behaviors.
Thispaperaimstoconstructauserbehaviortypologyandmodelusersessionbehaviorsusingthetypology.
[Method/process]ByanalyzingfeaturesofURLparameterandpagescontents,thispapertakes81759ecommerceusersessionbehaviorsforexamplesandproposesanovelapproachtomodelusersessionswithE-commerceclick-throughdatabymappingmovementsfromURLtoURLtoatypologyofuserbehaviors.
[Result/conclusion]Thisapproachistestedwithasampleof81759usersessions.
Itrecognizes6differenttypesofsessionsbytheirbehaviorsequencepatterns.
Thebehaviortypologyisusefulinmodelingsessionbehaviorandtherecognizedbehaviorpatternsmaybesuedformarketingandrecommendation.
Keywords:ecommercesitessessionmodelinguserbehaviorproductinformationseekingproductinformation欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟browsing(上接第118页)ResearchonChineseInformationalWebpageClassificationBasedonQueryIntentionWangXiaoyanLinChangyiConcordCollege,FujianNormalUniversity,Fuzhou350117Abstract:[Purpose/significance]Webpageclassificationcanhelptoimprovetheretrievalperformanceofthesearchengineandthecontentsite,anditwillpreciselymeettheneedsofuserstoclassifypagesaccordingtoqueryintentions.
[Method/process]ThisthesisselectsChineseinformationalpagesastheresearchobject,andfirstlyusesthemethodofartificialinductiontoconstructtheclassificationsystemforinformationalqueryintentions,thenproposesthemethodofgroupingpagesbasedontheclassificationsystemabove,whichisverifiedbyexperiments.
[Result/conclusion]Experimentalresultsshowthatthemethodaboveisviablez,andhasacertainreferencevalueforimprovingtheretrievalrelevanceandmeetingusers'realqueryintentions.
Keywords:queryintentionwebpageclassificationfeatureextractionclassificationmodelsearchnavigation621

gcorelabs:CDN业务节点分布100多个国家地区,免费版提供1T/月流量

卢森堡商家gcorelabs是个全球数据中心集大成的运营者,不但提供超过32个数据中心的VPS、13个数据中心的cloud(云服务器)、超过44个数据中心的独立服务器,还提供超过100个数据中心节点的CDN业务。CDN的总带宽容量超过50Tbps,支持免费测试! Gcorelabs根据业务分,有2套后台,分别是: CDN、流媒体平台、DDoS高防业务、块存储、cloud云服务器、裸金属服务器...

快快云:香港沙田CN2/美国Cera大宽带/日本CN2,三网直连CN2 GIA云服务器和独立服务器

快快云怎么样?快快云是一家成立于2021年的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务,快快云目前提供有香港云服务器、美国云服务器、日本云服务器、香港独立服务器、美国独立服务器,日本独立服务器。快快云专注为个人开发者用户,中小型,大型企业用户提供一站式核心网络云端服务部署,促使用户云端部署化简为零,轻松快捷运用云计算!多年云计算领域服务经验,遍布亚太地区的海量节点为业务推进提供强大...

提速啦(24元/月)河南BGP云服务器活动 买一年送一年4核 4G 5M

提速啦的来历提速啦是 网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑 由赣州王成璟网络科技有限公司旗下赣州提速啦网络科技有限公司运营 投资1000万人民币 在美国Cera 香港CTG 香港Cera 国内 杭州 宿迁 浙江 赣州 南昌 大连 辽宁 扬州 等地区建立数据中心 正规持有IDC ISP CDN 云牌照 公司。公司购买产品支持3天内退款 超过3天步退款政策。提速啦的市场定位提速啦主...

hao123是什么网站为你推荐
快递打印如何快递打印快递单博客外链外链都要怎么做?博客外链有没有效果?无线路由器限速设置无线路由器限速怎么设置!在线代理网站求有效的代理服务器地址?迅雷云点播账号求百度云或者迅雷云播账号密码宕机宕机 这个词是什么意思啊云挂机趣头条后台云挂机辅助后台云挂机辅助有谁用过?想了解实际情况。发邮件怎么发怎么发邮箱blogcnCK沉珂是个怎样的一个人?之后又是怎样的 ?如何清理ie缓存怎么清理IE缓存
深圳域名空间 河南vps 免费注册网站域名 电信测速器 yardvps hawkhost bluehost koss evssl证书 南昌服务器托管 免费ftp空间申请 seednet 新家坡 gtt 33456 789电视剧 in域名 阿里云官方网站 独立主机 日本代理ip 更多