利用改进的Aprio ri算法挖掘用户浏览网页模式
【摘 要】万维网不断发展用户浏览网页等信息越来越多而Web挖掘可以从这些信息中发现有用的信息 比如用户浏览网页的模式。Apriori算法是一种快速挖掘算法是大多数关联规则算法的基础。本文在分析此算法的基础上提出改进算法从而挖掘用户浏览网页模式。
【关键词】Web挖掘 Aprio ri算法改进算法防治技术用户浏览网页模式
引言
随着计算机网络、电子商务的发展很多商业性网站中对于用户的关注越来越多因为了解用户的需求才能增高网站的收益因此了解用户浏览模式是一项重要的工作。如何从这些海量的访问信息中发现潜在的有用的信息确定用户浏览网页的顺序、频繁访问哪些网页从而为用户推荐网页、推荐商品成为了一个新的研究课题。Web数据挖掘应运而生Web数据挖掘就是从与WWW相关的资源和用户浏览行为中抽取感兴趣的、有用的模式和隐含的信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。
挖掘用户访问模式常用算法有Web数据挖掘特有的用户访问路径模式挖掘算法(路径分析技术)和数据挖掘传统算法,如关联规则挖掘算法、序列模式挖掘算法等。而本文主要介绍如何利用Apriori算法来挖掘用户的浏览模式。
Apriori算法概述
Aprio ri算法是由R.Agraw a l等人提出的一种快速挖掘算法是大多数关联规则算法的基础它是一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori算法采用逐层搜索的迭代方法来找出所有的频繁项目集在第k次迭代过程中找出所有的频繁k-项集Lk。该算法使用如下的Apriori性质一个项目集是频繁项目集则此项目集的所有子集构成的项目集也一定是频繁项目集一个项目集是非频繁项目集则此项目集的所有超集(即包含此项目集的项目集)一定是非频繁项目集。
Apriori算法的基本思想如下 C1=I I为事务所包含的项目扫描数据库得到频繁1-项集L1将L1中的项目集两两合并产生C2扫描数据库得到
L2此后在第k遍扫描中则是首先利用Lk-1来生成Ck若Ck=Φ则算法结束否则扫描数据库得到Lk。在第k遍扫描中第一步连接步通过Lk-1与自己连接来产生Ck即侯选k-项集的集合第二步剪枝步 Ck是Lk的超集扫描数据库确定Ck中每个候选的计数计数值大于等于最小支持度计数的所有候选项是频繁的从而属于Lk删除不满足条件的其候选项。
综上所述经典的Apriori算法描述如算法1.1所示。
算法1.1挖掘关联规则的Apriori算法
输入事务数据库D最小支持度阈值min_s up
输出 D中的频繁项集L
L 1=find_fre nque nt_1-ite mse t(D);for(k=1;Lk-1≠?尴;k++)
{
Ck=apriori_gen(Lk-1,min_sup);for each transaction t∈D
ZJI原名维翔主机,是原来Wordpress圈知名主机商家,成立于2011年,2018年9月更名为ZJI,提供香港、日本、美国独立服务器(自营/数据中心直营)租用及VDS、虚拟主机空间、域名注册业务。ZJI今年全新上架了台湾CN2线路服务器,本月针对香港高主频服务器和台湾CN2服务器提供7折优惠码,其他机房及产品提供8折优惠码,优惠后台湾CN2线路E5服务器月付595元起。台湾一型CPU:Inte...
快云科技: 12.12特惠推出全场VPS 7折购 续费同价 年付仅不到五折公司介绍:快云科技是成立于2020年的新进主机商,持有IDC/ICP等证件资质齐全主营产品有:香港弹性云服务器,美国vps和日本vps,香港物理机,国内高防物理机以及美国日本高防物理机产品特色:全配置均20M带宽,架构采用KVM虚拟化技术,全盘SSD硬盘,RAID10阵列, 国内回程三网CN2 GIA,平均延迟50ms以下。...
hostslim美国独立日活动正在进行中,针对一款大硬盘荷兰专用服务器:双E5-2620v2/4x 1TB SATA硬盘,活动价60美元月。HostSlim荷兰服务器允许大人内容,不过只支持电汇、信用卡和比特币付款,商家支持7天内退款保证,有需要欧洲服务器的可以入手试试,记得注册的时候选择中国,这样不用交20%的税。hostslim怎么样?HostSlim是一家成立于2008年的荷兰托管服务器商,...