查询大数据综合案例-搜狗搜索日志分析

alexa搜  时间:2021-01-08  阅读:()

1.数据处理

扩展脚本 年月日vim log-extend.sh

[root@master~]#bash log-extend.sh sogou.500w.utf8 sogou_log.txt 过滤脚本过滤搜索为空

Vim log-fi lter.sh

[root@master~]#bash log-fi lter.sh sogou_log.txt sogou_log.txt.flt

1.上传文件到h d fs

基于HIve构建日志数据的数据仓库

创建数据库hive>create database sogou;

使用数据库

Hive>use sogou;

创建扩展4个字段年、月、 日、小时数据的外部表hive>CREATE EXTERNALTABLE sogou_data(ts string,uid string,keyword string,rankint,sorder int,url string,year int,month int,dayint,hour int)

>ROWFORMATDELIMITED

>FIELDSTERMINATED BY'\t'

>STORED ASTEXTFILE;

OK

Timetaken:0.412seconds

Hive表加载数据load data inpath'/home/sogou_log.txt.flt' intotable sogou_data;

创建带分区的表hive>CREATE EXTERNALTABLE sogou_partitioned_data(ts string,uid string,keyword stringrankint,sorder int,url string)

>PARTITIONED BY(year int,monthint,dayint,hour int)>ROWFORMATDELIMITED

>FIELDSTERMINATED BY'\t'

>STORED ASTEXTFILE;

设置动态分区hive>set hive.exec.dynamic.partition.mode=nonstrict;hive> INSERT OVERWRITE TABLE sogou_partitioned_data partition(year,month,day,hour)SELECT* FROM sogou_data;

查询测试

Hive>select *from sogou_data l imit 10;

hive>select *from sogou_data l imit 10;

hive>select*from sogou_data where uid='6961d0c97fe93701fc9c0d861d096cd9';

(1)查询总条数hive>select count(*) from sogou_partitioned_data;

OK

5000000

(2)非空查询条数hive>select count(*) from sogou_partitioned_data where keyword is not nul l and keyword!=' ';

5000000

Time taken:28.606 seconds, Fetched: 1 row(s)

(3)无重复总条数hive> select count(*) from(select count(*) as no_repeat_count from sogou_partitioned_data group byts,uid,keyword,url having no_repeat_count=1)a;

OK

4999272

Time taken: 101.228 seconds, Fetched: 1 row(s)

(4)独立UID总数hive>select count(distinct(uid)) from sogou_partitioned_data;

OK

1352664

Time taken:44.639 seconds, Fetched: 1 row(s)

实现数据分析需求二关键字分析

(1)查询频度排名频度最高的前50词hive> select keyword,count(*)query_count from sogou_partitioned_data group by keyword orderby query_countdesc l imit50;

Total MapReduceCPUTimeSpent: 1 minutes4seconds510msec

OK

百度 38441baidu 18312

人体艺术 14475

4399小游戏 11438qq空间 10317

优酷 10158

新亮剑 9654

馆陶县县长闫宁的父亲 9127

公安卖萌 8192

百度一下你就知道7505

百度一下 7104

4399 7041

魏特琳 6665qq网名 6149

7k7k小游戏 5985

黑狐 5610

儿子与母亲不正当关系 5496

新浪微博 5369

李宇春体 5310

新疆暴徒被击毙图片 4997hao123 4834

123 4829

4399洛克王国 4112qq头像 4085nba 4027

龙门飞甲 3917qq个性签名 3880

张去死 3848cf官网3729

凰图腾 3632

快播 3423

金陵十三钗 3349

吞噬星空 3330dnf官网 3303

武动乾坤 3232

新亮剑全集 3210

电影 3155

优酷网 3115

两次才处决美女罪犯 3106

电影天堂 3028

土豆网 2969qq分组 2940

全国各省最低工资标准 2872

清代姚明 2784youku 2783

争产案 2755dnf 2686

12306 2682

身份证号码大全 2680

火影忍者 2604

Time taken: 119.195 seconds, Fetched:50 row(s)

实现数据分析需求三 UID分析

(1)查询次数大于2次的用户总数hive> select count(*) from(select count(*) as query_count from sogou_partitioned_data groupby uid having query_count>2)a;

OK

546353

Timetaken:69.837 seconds, Fetched: 1 row(s)

(2)查询次数大于2次的用户占比

A:hive> select count(*) from(select count(*) as query_count from sogou_partitioned_data groupby uid having query_count>2)a;

OK

546353

Timetaken:69.837 seconds, Fetched: 1 row(s)

Bhive>select count(distinct(uid)) from sogou_partitioned_data;

OK

1352664

A/B hive>select 546353/1352664;

OK

0.40390887907122536

Timetaken:0.255 seconds, Fetched: 1 row(s)

(3) rank次数在10以内的点击次数占比rank既是第四列的内容

A:

hive>select count(*) from sogou_partitioned_data where rank<11;

4999869

Time taken:29.653 seconds, Fetched: 1 row(s)

B:hive>select count(*) from sogou_partitioned_data;

5000000

A/B hive>select 4999869/5000000;

OK

0.9999738

(4)直接输入URL查询的比例

A:hive>select count(*) from sogou_partitioned_data where keyword l ike '%www%';

OK

73979

B:hive>select count(*) from sogou_partitioned_data;

OK

5000000

A/B hive>select 73979/5000000;

OK

0.0147958

实现数据分析需求四独立用户行为分析

(1)查询搜索过”仙剑奇侠传“的uid并且次数大于3hive> select uid,count(*) as cnt from sogou_partitioned_data where keyword='仙剑奇侠传'groupby uid havingcnt>3;

美国VPS 美国高防VPS 香港VPS 日本VPS 首月9元 百纵科技

百纵科技湖南百纵科技有限公司是一家具有ISP ICP 电信增值许可证的正规公司,多年不断转型探索现已颇具规模,公司成立于2009年 通过多年经营积累目前已独具一格,公司主要经营香港服务器,香港站群服务器,美国高防服务器,美国站群服务器,云服务器,母机租用托管!美国CN2云服务器,美国VPS,美国高防云主机,美国独立服务器,美国站群服务器,美国母机。美国原生IP支持大批量订货 合作 适用电商 亚马逊...

香港 1核1G 29元/月 美国1核 2G 36元/月 快云科技

快云科技: 11.11钜惠 美国云机2H5G年付148仅有40台,云服务器全场7折,香港云服务器年付388仅不到五折 公司介绍:快云科技是成立于2020年的新进主机商,持有IDC/ICP/ISP等证件资质齐全主营产品有:香港弹性云服务器,美国vps和日本vps,香港物理机,国内高防物理机以及美国日本高防物理机官网地址:www.345idc.com活动截止日期为2021年11月13日此次促销活动提供...

LOCVPS洛杉矶CN2线路KVM上线,洛杉矶/香港云地/香港邦联7折

LOCVPS发来了新的洛杉矶CN2线路主机上线通知,基于KVM架构,目前可与香港云地、香港邦联机房XEN架构主机一起适用7折优惠码,优惠后最低美国洛杉矶CN2线路KVM架构2GB内存套餐月付38.5元起。LOCPVS是一家成立较早的国人VPS服务商,目前提供洛杉矶MC、洛杉矶C3、和香港邦联、香港沙田电信、香港大埔、日本东京、日本大阪、新加坡、德国和荷兰等机房VPS主机,基于KVM或者XEN架构。...

alexa搜为你推荐
域名注册商如何成为一个域名注册商呀免费注册域名怎样免费注册域名呢 要详细的步骤哦vps试用小弟是VPS新手,请问各位哪里有VPS主机免费试用和T楼活动啊?求网站..网站服务器租用公司想建个网站,请问租服务器按年收费是多少钱个人虚拟主机个人网站该购买什么类型虚拟主机?免费域名空间求速度快的 免费空间 带域名的 谢谢大家100m网站空间网站空间100M和1000M有什么区别 ?网站空间免备案哪个网站有免费的免备案空间,海外港台都可国内最好的虚拟主机国内虚拟主机哪家的好?郑州虚拟主机什么是双线虚拟主机?
com域名注册 东莞服务器租用 域名空间购买 美国加州vps sharktech 西安电信测速 hostgator nerd 42u标准机柜尺寸 创宇云 好看的桌面背景图片 青果网 地址大全 华为网络硬盘 电子邮件服务器 softbank邮箱 adroit t云 电信主机 paypal注册教程 更多