利用改进的Aprio ri算法挖掘用户浏览网页模式
【摘 要】万维网不断发展用户浏览网页等信息越来越多而Web挖掘可以从这些信息中发现有用的信息 比如用户浏览网页的模式。Apriori算法是一种快速挖掘算法是大多数关联规则算法的基础。本文在分析此算法的基础上提出改进算法从而挖掘用户浏览网页模式。
【关键词】Web挖掘 Aprio ri算法改进算法防治技术用户浏览网页模式
引言
随着计算机网络、电子商务的发展很多商业性网站中对于用户的关注越来越多因为了解用户的需求才能增高网站的收益因此了解用户浏览模式是一项重要的工作。如何从这些海量的访问信息中发现潜在的有用的信息确定用户浏览网页的顺序、频繁访问哪些网页从而为用户推荐网页、推荐商品成为了一个新的研究课题。Web数据挖掘应运而生Web数据挖掘就是从与WWW相关的资源和用户浏览行为中抽取感兴趣的、有用的模式和隐含的信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。
挖掘用户访问模式常用算法有Web数据挖掘特有的用户访问路径模式挖掘算法(路径分析技术)和数据挖掘传统算法,如关联规则挖掘算法、序列模式挖掘算法等。而本文主要介绍如何利用Apriori算法来挖掘用户的浏览模式。
Apriori算法概述
Aprio ri算法是由R.Agraw a l等人提出的一种快速挖掘算法是大多数关联规则算法的基础它是一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori算法采用逐层搜索的迭代方法来找出所有的频繁项目集在第k次迭代过程中找出所有的频繁k-项集Lk。该算法使用如下的Apriori性质一个项目集是频繁项目集则此项目集的所有子集构成的项目集也一定是频繁项目集一个项目集是非频繁项目集则此项目集的所有超集(即包含此项目集的项目集)一定是非频繁项目集。
Apriori算法的基本思想如下 C1=I I为事务所包含的项目扫描数据库得到频繁1-项集L1将L1中的项目集两两合并产生C2扫描数据库得到
L2此后在第k遍扫描中则是首先利用Lk-1来生成Ck若Ck=Φ则算法结束否则扫描数据库得到Lk。在第k遍扫描中第一步连接步通过Lk-1与自己连接来产生Ck即侯选k-项集的集合第二步剪枝步 Ck是Lk的超集扫描数据库确定Ck中每个候选的计数计数值大于等于最小支持度计数的所有候选项是频繁的从而属于Lk删除不满足条件的其候选项。
综上所述经典的Apriori算法描述如算法1.1所示。
算法1.1挖掘关联规则的Apriori算法
输入事务数据库D最小支持度阈值min_s up
输出 D中的频繁项集L
L 1=find_fre nque nt_1-ite mse t(D);for(k=1;Lk-1≠?尴;k++)
{
Ck=apriori_gen(Lk-1,min_sup);for each transaction t∈D
零途云(Lingtuyun.com)新上了香港站群云服务器 – CN2精品线路,香港多ip站群云服务器16IP/5M带宽,4H4G仅220元/月,还有美国200g高防云服务器低至39元/月起。零途云是一家香港公司,主要产品香港cn2 gia线路、美国Cera线路云主机,美国CERA高防服务器,日本CN2直连服务器;同时提供香港多ip站群云服务器。即日起,购买香港/美国/日本云服务器享受9折优惠,新...
HostKvm也发布了开年促销方案,针对香港国际和美国洛杉矶两个机房的VPS主机提供7折优惠码,其他机房业务提供8折优惠码。商家成立于2013年,提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,均为国内直连或优化线路,延迟较低,适合建站或者远程办公等。下面列出几款主机配置信息。美国洛杉矶套餐:美国 US-Plan1CPU:1core内存:2GB硬盘...
云步云怎么样?云步云是创建于2021年的品牌,主要从事出售香港vps、美国VPS、日本VPS、香港独立服务器、香港站群服务器等,机房有香港、美国、日本东京等机房,目前在售VPS线路有CN2+BGP、CN2 GIA,香港的线路也是CN2直连大陆,该公司旗下产品均采用KVM虚拟化架构。目前,云步云提供香港安畅、沙田、大浦、葵湾、将军澳、新世界等CN2机房云服务器,2核2G5M仅72.5元/月起。点击进...