利用改进的Aprio ri算法挖掘用户浏览网页模式
【摘 要】万维网不断发展用户浏览网页等信息越来越多而Web挖掘可以从这些信息中发现有用的信息 比如用户浏览网页的模式。Apriori算法是一种快速挖掘算法是大多数关联规则算法的基础。本文在分析此算法的基础上提出改进算法从而挖掘用户浏览网页模式。
【关键词】Web挖掘 Aprio ri算法改进算法防治技术用户浏览网页模式
引言
随着计算机网络、电子商务的发展很多商业性网站中对于用户的关注越来越多因为了解用户的需求才能增高网站的收益因此了解用户浏览模式是一项重要的工作。如何从这些海量的访问信息中发现潜在的有用的信息确定用户浏览网页的顺序、频繁访问哪些网页从而为用户推荐网页、推荐商品成为了一个新的研究课题。Web数据挖掘应运而生Web数据挖掘就是从与WWW相关的资源和用户浏览行为中抽取感兴趣的、有用的模式和隐含的信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。
挖掘用户访问模式常用算法有Web数据挖掘特有的用户访问路径模式挖掘算法(路径分析技术)和数据挖掘传统算法,如关联规则挖掘算法、序列模式挖掘算法等。而本文主要介绍如何利用Apriori算法来挖掘用户的浏览模式。
Apriori算法概述
Aprio ri算法是由R.Agraw a l等人提出的一种快速挖掘算法是大多数关联规则算法的基础它是一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori算法采用逐层搜索的迭代方法来找出所有的频繁项目集在第k次迭代过程中找出所有的频繁k-项集Lk。该算法使用如下的Apriori性质一个项目集是频繁项目集则此项目集的所有子集构成的项目集也一定是频繁项目集一个项目集是非频繁项目集则此项目集的所有超集(即包含此项目集的项目集)一定是非频繁项目集。
Apriori算法的基本思想如下 C1=I I为事务所包含的项目扫描数据库得到频繁1-项集L1将L1中的项目集两两合并产生C2扫描数据库得到
L2此后在第k遍扫描中则是首先利用Lk-1来生成Ck若Ck=Φ则算法结束否则扫描数据库得到Lk。在第k遍扫描中第一步连接步通过Lk-1与自己连接来产生Ck即侯选k-项集的集合第二步剪枝步 Ck是Lk的超集扫描数据库确定Ck中每个候选的计数计数值大于等于最小支持度计数的所有候选项是频繁的从而属于Lk删除不满足条件的其候选项。
综上所述经典的Apriori算法描述如算法1.1所示。
算法1.1挖掘关联规则的Apriori算法
输入事务数据库D最小支持度阈值min_s up
输出 D中的频繁项集L
L 1=find_fre nque nt_1-ite mse t(D);for(k=1;Lk-1≠?尴;k++)
{
Ck=apriori_gen(Lk-1,min_sup);for each transaction t∈D
最近上洛杉矶机房联通CUVIP线路主机的商家越来越多了,HostKvm也发来了新节点上线的邮件,适用全场8折优惠码,基于KVM架构,优惠后最低月付5.2美元起。HostKvm是一家成立于2013年的国人主机商,提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,君选择国内直连或优化线路,延迟较低,适合建站或者远程办公等。以洛杉矶CUVIP线路主机为例,...
A400互联是一家成立于2020年的商家,本次给大家带来的是,全新上线的香港节点,cmi+cn2线路,全场香港产品7折优惠,优惠码0711,A400互联,只为给你提供更快,更稳,更实惠的套餐。目前,商家推出香港cn2节点+cmi线路云主机,1H/1G/10M/300G流量,37.8元/季,云上日子,你我共享。A400互联优惠码:七折优惠码:0711A400互联优惠方案:适合建站,个人开发爱好者配置...
企鹅小屋:垃圾服务商有跑路风险!企鹅不允许你二次工单的,二次提交工单直接关服务器,再严重就封号,意思是你提交工单要小心,别因为提交工单被干了账号!前段时间,就有站长说企鹅小屋要跑路了,站长不太相信,本站平台已经为企鹅小屋推荐了几千元的业绩,CPS返利达182.67CNY。然后,站长通过企鹅小屋后台申请提现,提现申请至今已经有20几天,企鹅小屋也没有转账。然后,搞笑的一幕出现了:平台账号登录不上提示...