利用改进的Aprio ri算法挖掘用户浏览网页模式
【摘 要】万维网不断发展用户浏览网页等信息越来越多而Web挖掘可以从这些信息中发现有用的信息 比如用户浏览网页的模式。Apriori算法是一种快速挖掘算法是大多数关联规则算法的基础。本文在分析此算法的基础上提出改进算法从而挖掘用户浏览网页模式。
【关键词】Web挖掘 Aprio ri算法改进算法防治技术用户浏览网页模式
引言
随着计算机网络、电子商务的发展很多商业性网站中对于用户的关注越来越多因为了解用户的需求才能增高网站的收益因此了解用户浏览模式是一项重要的工作。如何从这些海量的访问信息中发现潜在的有用的信息确定用户浏览网页的顺序、频繁访问哪些网页从而为用户推荐网页、推荐商品成为了一个新的研究课题。Web数据挖掘应运而生Web数据挖掘就是从与WWW相关的资源和用户浏览行为中抽取感兴趣的、有用的模式和隐含的信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。
挖掘用户访问模式常用算法有Web数据挖掘特有的用户访问路径模式挖掘算法(路径分析技术)和数据挖掘传统算法,如关联规则挖掘算法、序列模式挖掘算法等。而本文主要介绍如何利用Apriori算法来挖掘用户的浏览模式。
Apriori算法概述
Aprio ri算法是由R.Agraw a l等人提出的一种快速挖掘算法是大多数关联规则算法的基础它是一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori算法采用逐层搜索的迭代方法来找出所有的频繁项目集在第k次迭代过程中找出所有的频繁k-项集Lk。该算法使用如下的Apriori性质一个项目集是频繁项目集则此项目集的所有子集构成的项目集也一定是频繁项目集一个项目集是非频繁项目集则此项目集的所有超集(即包含此项目集的项目集)一定是非频繁项目集。
Apriori算法的基本思想如下 C1=I I为事务所包含的项目扫描数据库得到频繁1-项集L1将L1中的项目集两两合并产生C2扫描数据库得到
L2此后在第k遍扫描中则是首先利用Lk-1来生成Ck若Ck=Φ则算法结束否则扫描数据库得到Lk。在第k遍扫描中第一步连接步通过Lk-1与自己连接来产生Ck即侯选k-项集的集合第二步剪枝步 Ck是Lk的超集扫描数据库确定Ck中每个候选的计数计数值大于等于最小支持度计数的所有候选项是频繁的从而属于Lk删除不满足条件的其候选项。
综上所述经典的Apriori算法描述如算法1.1所示。
算法1.1挖掘关联规则的Apriori算法
输入事务数据库D最小支持度阈值min_s up
输出 D中的频繁项集L
L 1=find_fre nque nt_1-ite mse t(D);for(k=1;Lk-1≠?尴;k++)
{
Ck=apriori_gen(Lk-1,min_sup);for each transaction t∈D
RAKsmart怎么样?RAKsmart是一家由华人运营的国外主机商,提供的产品包括独立服务器租用和VPS等,可选数据中心包括美国加州圣何塞、洛杉矶、中国香港、韩国、日本、荷兰等国家和地区数据中心(部分自营),支持使用PayPal、支付宝等付款方式,网站可选中文网页,提供中文客服支持。本月商家继续提供每日限量秒杀服务器月付30.62美元起,除了常规服务器外,商家美国/韩国/日本站群服务器、1-10...
MechanicWeb怎么样?MechanicWeb好不好?MechanicWeb成立于2008年,目前在美国洛杉矶、凤凰城、达拉斯、迈阿密、北卡、纽约、英国、卢森堡、德国、加拿大、新加坡有11个数据中心,主营全托管型虚拟主机、VPS主机、半专用服务器和独立服务器业务。MechanicWeb只做高端的托管vps,这次MechanicWeb上新Xeon W-1290P处理器套餐,基准3.7GHz最高...
mineserver怎么样?mineserver是一家国人商家,主要提供香港CN2 KVM VPS、香港CMI KVM VPS、日本CN2 KVM VPS、洛杉矶cn2 gia端口转发等服务,云服务器网(yuntue.com)介绍过几次,最近比较活跃。现在新推出了3款特价KVM VPS,性价比高,香港CMI/洛杉矶GIA VPS,2核/2GB内存/20GB NVME/3.5TB流量/200Mbps...