河北省高等职业院校大数据技术与应用技能大赛零售大数据分析(样题)任务书参赛队编号_第一部分竞赛须知一、竞赛注意事项1、参赛选手应严格遵守赛场规章、操作流程和工艺准则,保证人身及设备安全,接受裁判员的监督和警示,文明竞赛;2、竞赛所需的硬件、软件和辅助工具由组委会统一布置,选手不得私自携带任何电子设备或其他资料、用品等进入赛场;3、比赛完成后,软件和赛题请保留在座位上,禁止将比赛所用的所有物品(包括试卷和草纸)带离赛场;4、裁判以各参赛队提交的竞赛结果文档为主要评分依据.
所有提交的文档必须按照赛题所规定的命名规则命名,不得以任何形式体现参赛院校、姓名、参赛证编号、赛位号等信息,否则取消竞赛成绩;5、本次比赛采用统一网络环境比赛,请不要随意更改客户端和竞赛环境的网络地址信息,对于更改客户端信息造成的问题,由参赛选手自行承担比赛损失;6、请不要恶意破坏竞赛环境(如修改竞赛环境密码、删除文件),对于恶意破坏竞赛环境的参赛者,组委会根据其行为予以处罚直至取消比赛资格;7、比赛中出现各种问题及时向现场裁判举手示意,不要影响其他参赛队比赛;二、竞赛选手须知1、任务书如出现缺页、字迹不清等问题,请及时向现场裁判示意,并由现场裁判进行更换;2、赛项竞赛时长4小时;3、参赛选手应严格遵守赛场规章、操作规程和工艺准则,保证人身及设备安全,接受裁判员的监督和警示,文明竞赛;4、参赛选手在收到开赛信号前不得启动操作.
在竞赛过程中,确因计算机软件或硬件故障,致使操作无法继续的,经项目裁判长确认,予以启用备用计算机;5、参赛选手需及时保存工作记录.
对于参赛选手自身原因造成的数据丢失,由参赛选手自行负责;6、在比赛中如遇非人为因素造成的设备故障,经裁判确认后,可向裁判长申请补足排除故障的时间;7、竞赛时间结束,选手应全体起立,停止操作.
将资料和工具整齐摆放在操作平台上,经工作人员清点后可离开赛场,离开赛场时不得带走任何资料;8、竞赛操作结束后,参赛队要确认成功提交竞赛要求的文件,裁判员在比赛结果的规定位置做标记,并与参赛队一起签字确认;9、符合下列情形之一的参赛选手,经裁判组裁定后中止其竞赛:1)不服从裁判员/监考员管理、扰乱赛场秩序、干扰其他参赛选手比赛,裁判员应提出警告,二次警告后无效,或情节特别严重,造成竞赛中止的,经裁判长确认,中止比赛,并取消竞赛资格和竞赛成绩;2)竞赛过程中,由于选手人为造成计算机、仪器设备及工具等严重损坏,负责赔偿其损失,并由裁判组裁定其竞赛结束与否、是否保留竞赛资格、是否累计其有效竞赛成绩;3)竞赛过程中,产生重大安全事故或有产生重大安全事故隐患,经裁判员提示没有采取措施的,裁判员可暂停其竞赛,由裁判组裁定其竞赛结束,保留竞赛资格和有效竞赛成绩;第二部分竞赛环境及注意事项一、竞赛环境每组竞赛选手使用三台计算机和一套大数据竞赛环境,竞赛选手依照本竞赛项目的任务内容,完成任务书要求的相关操作与开发任务.
二、竞赛结果文件提交1、所有竞赛结果提交文件夹存放在计算机桌面"竞赛文档"文件夹下,竞赛任务结果截图和文件存放在答案模板下.
2、请务必按照任务书说明文档题目要求内容截取答案/结果(可分段截取),并按顺序粘贴至答案模板中;在计算机桌面创建"竞赛文档"文件夹,并在该目录中创建word文件,用于存放答案截图,文件格式为:"XXX-02.
docx(XXX代表赛位号、02代表任务二)".
答案文档需学生自行创建并按照习题顺序自行排版.
3、竞赛结果需提交Word文件.
4、将任务成果Word文件压缩为一个XXX.
zip(XXX代表赛位号)文件,并上传至竞赛平台.
三、注意事项1、检查计算机设备、大数据竞赛环境是否能正常使用.
检查竞赛所需的各项设备、软件和竞赛材料等;2、竞赛过程中请严格按照竞赛任务中的描述,对大数据竞赛环境进行安装配置、操作使用,对于竞赛前大数据竞赛环境内的配置,与竞赛任务有关,请勿修改、删除;3、竞赛任务完成后,不要关闭任何设备,不要对计算机设备或大数据竞赛环境进行加密;第三部分竞赛任务背景描述当今社会,中国零售业所面临的最大挑战就是顾客和市场需求复杂多变,比起人的经验主义来做决策,只有实时的数据分析和反馈才能适应更快的变化.
零售的本质离不开人、货、场这三个核心,围绕这三个核心提升运营的效率,也就是线上线下的成功融合.
为了对零售业中经营模式、管理风格、重视程度、资金投入等做出正确的决策,对其进行数据分析必不可少.
现选用在业界广泛使用的"Hadoop"工具,来对该零售行业数据进行分析处理.
并综合利用MySQL、MapReduce、Hive、Sqoop、Spark、Echarts等技术和Java、Python语言对数据进行提取、清洗、整理、计算、表达、分析和可视化处理.
作为分析该零售行业的主要技术人员,你们是这次技术方案展示的核心成员,请按照下面步骤完成本次技术展示任务,并提交技术报告,祝你们成功.
任务一:Hadoop相关组件安装部署(15分)一、HadoopHA部署本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境,具体部署要求如下:1、解压安装JDK到路径/usr/local/src,并配置环境变量;截取环境变量配置文件截图保存.
2、创建ssh密钥对,实现主节点与从节点的无密码登录;截取主节点登录其中一个从节点的结果.
3、将Zookeeper组件安装到/usr/local/zookeeper路径,zookeeper的数据目录和日志目录分别为/usr/local/zookeeper/data和/usr/local/zookeeper/log.
4、启动节点action-1和action-2的Hadoop的NameNode和ResourceManager.
二、Hive组件部署本环节需要完成MySQL服务的启动和Hive的安装、配置和验证.
已安装Hadoop及需要配置前置环境.
具体部署要求如下:1、启动MySQL数据库,创建MySQL数据库用户,用户名/密码:root/root123.
把启动命令和结果截图.
2、进入MySQL控制台,创建hive数据库,并创建hive用户可访问该库的所有表的所有权限,hive用户的密码为hive,把执行语句和结果截图.
3、解压安装Hive到路径/usr/local/hive,把执行命令和结果截图.
4、修改/etc/profile文件,配置Hive环境变量,并使之生效,将环境变量配置内容截图.
5、把MySQL驱动mysql-connector-java-5.
1.
26-bin.
jar复制到hive安装路径的lib目录下,把执行命令和结果截图.
6、修改hive-site.
xml文件,以使用上面在MySQL里创建的hive数据库保存hive元数据,把修改后的文件内容截图.
7、初始化Hive元数据,把执行命令和结果截图.
8、启动hive,并验证Hive是否安装成功,将运行结果截图.
三、Spark组件部署本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,安装spark具体部署要求如下:1、下载、安装并配置spark.
2、配置spark环境变量.
3、启动sparkshell,验证安装完的spark是否可用.
四、Sqoop组件部署本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体部署要求如下:1、下载、安装并配置Sqoop,将其安装到/usr/local/sqoop路径下,安装完成后进行截图保存.
2、修改Sqoop环境变量,并使环境变量只对当前root用户生效.
3、测试Sqoop连接MySQL数据库是否成功,截图并保存结果.
任务二:数据采集(20分)1、分析网站,利用chrome查看网页源码,分析零售网站网页结构.
打开零售网站(网址见附录或见资料文件夹),在网页中检查网站,浏览网站源码查看所需内容.
2、从零售网站中爬取需要数据,按照要求使用Python语言编写并编写爬虫代码,爬取指定数据项,有效数据项包括但不限于:卡号、商品ID、品牌、产品名称、最小可用单位、SRP、毛重、净重、是否环保包装、是否低脂、子产品、产品类别、产品部、产品族等字段等多项字段.
并将代码文件与代码截图保存.
具体步骤如下:1)创建爬虫项目2)构建爬虫请求3)按要求定义相关字段4)获取有效数据5)将爬取到的数据保存到指定位置3、至此已从零售网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操作,请将操作命令截图并保存.
任务三:数据清洗与分析(25分)现已从相关网站及平台获取到原始数据集,在不涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用.
以product.
csv文件为例,该文件中包含了有关产品信息的数据,但原始数据经过多次采集汇总,数据集中不可避免地存在一些数据缺失、冗余、重复等现象.
你的小组需要通过编写代码或脚本完成对文件product.
csv中产品信息数据的清洗和整理,并完成数据计算和分析任务.
1、缺失值处理缺失值是一种常见的脏数据情况,现有数据集中某个或某些属性的值是不完全的.
对于缺失值的处理,从总体上来说分为缺失值删除和缺失值插补.
当缺失值过多时,信息条目本身的价值也会随之降低,此时如果对缺失值进行填补则将产生结果的人为干预.
请使用Java语言编写MapReduce程序删除product.
csv文件中缺失值(空字符串)大于n(3)个字段的数据条目剔除原始数据集并将其输出结果文件重命名为clean_data1.
csv,并在控制台输出剔除的条目数量,截图并保存结果.
2、重复数据处理原始数据集来自于多个平台及网站,且为多次采集汇总,因此数据集中的某些字段有可能会出现一些重复或非法格式,例如多次采集过程中产生的重复信息,或来自于某网站的不合规数据.
这些信息的存在既无实际的业务分析意义,甚至还会影响最终分析结果.
请使用Spark程序删除clean_data1.
csv文件中的非法数据和重复数据,将其输出至HDFS文件系统中,截图并保存结果.
3、导入数据启动Hive.
在Hive中创建数据库db1_hive,在该数据库上创建表sales、表retail、表product、表custom.
其表结构与sales.
csv、retail.
csv、product.
csv、custom.
csv相同,编写命令行查看各个表结构,将运行结果截图并保存.
在Hive端使用命令将文件sales.
csv、retail.
csv、product.
csv、custom.
csv对应导入到数据库db1_hive的sales表、retail表、product表、custom表中.
分别验证查看数据库表总记录数量,将运行结果截图并保存.
4、工作类型分析在销售行业中,有这样一句话——"顾客就是上帝".
对在零售网站中注册的客户进行有效的分析,显得尤为重要.
在客户数据集中,记录了客户的账号、姓名、卡片等级、地域、工作类型、孩子数量等情况.
请使用Spark程序根据custom.
csv文件中的数据,分析零售网站中客户的工作类型所对应的客户数量,将结果输出至HDFS文件系统中,将运行结果截图并保存.
5、客户等级分析在零售网站中,客户的等级代表了客户的购买能力,而客户的购买能力与诸多因素有关,例如年收入越多,购买能力越强;家中有小孩的客户,需要消耗更多的商品等等.
请使用Spark程序根据custom.
csv文件中的数据,查询零售网站中年收入在$30K-$50K之间、在家孩子数量大于0的客人的信息,将结果输出至HDFS文件系统中,将运行结果截图并保存.
6、媒体推广形式分析促销是通过向市场和消费者传播信息,以促进销售、提高业绩.
零售商品网站也会在不同时期,不同区域,通过不同的媒介,采用不同的促销方式进行促销活动.
请使用Spark程序根据custom.
csv文件中的数据,统计零售网站中不同媒体推广形式对应的总成本和总天数的情况,将结果输出至HDFS文件系统中,将运行结果截图并保存.
使用Hive系统中的sales表中的数据作为数据源,使用Hive命令,统计每种媒体推广形式的总成本、总天数,同时将数据写入数据表中,将命令与执行结果截图并保存.
7、客户家庭信息分析若要根据客户的特定信息了解客户在网站的消费情况,需要对客户数据及零售记录进行分析.
请以custom表、retail表、product表中的数据作为数据源(custom表中的id列对应product表中的Product_ID列;custom表中的id列对应retail表中的Customer),使用Hive命令,查询零售网站中卡号、卡片等级、年收入、在家孩子数量、有车数量、产品名称、购买产品数量、总金额等信息,同时将数据写入数据表中,将语句及输出结果截图并保存.
8、客户类型分析结果迁移在Hive中创建数据库db2_hive,并在该库中创建表job_type_hive,包含两个字段:工作类型及客户数量,将任务三中客户类型分析结果迁移到job_type_hive表.
在MySQL中创建数据库DB,并在该库中创建表job_type_sql,用于存储db2_hive中的job_type_hive表的数据,二者表结构相同.
使用sqoop命令将Hive中的db2_hive库的job_type_hive表中数据导入到MySQL的DB库中的job_type_sql表,将该命令截图并保存.
查看job_type_sql表的数据,将该命令和结果截图并保存.
9、媒体推广形式分析结果迁移在Hive中的数据库db2_hive创建表media_type_hive,包含两个字段:媒体推广类型及促销数量.
将任务三中媒体推广形式分析结果迁移到media_type_hive表.
在MySQL中创建数据库DB,并在该库中创建media_type_hive表,用于存储db2_hive中的media_type_hive表的数据,二者表结构相同.
使用sqoop命令将Hive中的db2_hive库的media_type_hive表中数据导入到MySQL的DB库中的media_type_sql表.
将该命令截图并保存.
查看media_type_sql表的数据,查看命令和结果截图并保存.
10、在家孩子数量与消费分析结果迁移在Hive中的数据库db2_hive创建表child_num_hive,包含两个字段:在家孩子的数量和购买产品的总金额.
将任务三中客户家庭信息中的在家孩子的数量和购买产品的总金额的分析结果插入到child_num_hive表.
在MySQL中创建数据库DB,并在该库中创建child_num_sql表,用于存储db2_hive中的child_num_hive表的数据,二者表结构相同.
使用sqoop命令将Hive中的db2_hive库的child_num_hive表中数据导入到MySQL的DB库中的child_num_sql表.
将该命令截图并保存.
查看child_num_sql表的数据,查看命令和结果截图并保存.
任务四:数据可视化(20分)本任务使用数据分析统计与数据可视化终端来完成.
为更好的将数据分析结果表达出来,需要对数据分析的结束进行可视化呈现,可视化呈现,要求使用Python的Django框架或Flask框架编写基于Web的程序,程序基础框架已搭建完成,相应的数据已给出,在前端页面中,使用Jinja2模板引擎获取相关统计图表数据并传递给前端页面中相应的EChart组件.
1、可视化的准备工作在windows本机安装Mysql服务器及客户端,相关文件详见附录.
将现有的的retail_store_db.
sql文件导入数据库作为可视化分析的数据源.
2、客户类型分析可视化各种工作类型的客户数量,可以帮助商家分析哪种工作类型对应的消费者较多.
根据表中数据,以柱状图呈现二者的关系.
3、媒体推广形式分析可视化不同媒体推广类型及其促销数量,可以帮助商家做促销活动时选择媒体推广形式.
根据表中数据,以折线图呈现二者的关系.
4、在家孩子数量与消费分析可视化不同在家的孩子数量及其对应的购买产品的总金额,可以帮助商家分析消费者的购买行为,进而制定相应的售卖计划.
根据表中数据,以直方图呈现二者的关系.
任务五:综合分析(15分)假定你为零售业的某店主,在综合理解任务一、二、三、四的相关结论后,对该零售业情况进行分析,并编写输出分析报告.
根据上述任务中的结论,分析以下内容:1、消费者中哪种工作类型的群体较多,并根据你的理解说明一下原因.
2、简述孩子数量与家庭消费的关系,并简要分析这种现象.
3、为了促进消费,请你制定一套详细的商品促销计划(从成本、时间、人群等方面进行阐述).
火数云怎么样?火数云主要提供数据中心基础服务、互联网业务解决方案,及专属服务器租用、云服务器、专属服务器托管、带宽租用等产品和服务。火数云提供洛阳、新乡、安徽、香港、美国等地骨干级机房优质资源,包括BGP国际多线网络,CN2点对点直连带宽以及国际顶尖品牌硬件。专注为个人开发者用户,中小型,大型企业用户提供一站式核心网络云端服务部署,促使用户云端部署化简为零,轻松快捷运用云计算!多年云计算领域服务经...
Digital-VM商家的暑期活动促销,这个商家提供有多个数据中心独立服务器、VPS主机产品。最低配置月付80美元,支持带宽、流量和IP的自定义配置。Digital-VM,是2019年新成立的商家,主要从事日本东京、新加坡、美国洛杉矶、荷兰阿姆斯特丹、西班牙马德里、挪威奥斯陆、丹麦哥本哈根数据中心的KVM架构VPS产品销售,分为大硬盘型(1Gbps带宽端口、分配较大的硬盘)和大带宽型(10Gbps...
diyvm怎么样?diyvm是一家国内成立时间比较久的主机商家了,大约在6年前站长曾经用过他家的美国机房的套餐,非常稳定,适合做站,目前商家正在针对香港沙田机房的VPS进行促销,给的是五折优惠,续费同价,香港沙田机房走的是CN2直连的线路,到大陆地区的速度非常好,DiyVM商家采用小带宽不限流量的形式,带宽2Mbps起步,做站完全够用,有需要的朋友可以入手。diyvm优惠码:五折优惠码:OFF50...
网站原码为你推荐
摩根币摩根币原名【BBT】我是会员现在的我推介人把我从微信删除已经跑路,不给兑现了!请大家不要做了www.kkk.com谁有免费的电影网站,越多越好?丑福晋八阿哥胤禩有几个福晋 都叫啥名儿呀同ip域名不同域名解析到同一个IP是否有影响百度关键词工具常见百度关键词挖掘方法分别是什么请列举?lcoc.topeagle solder stop mask top是什么层www.zhiboba.com看NBA直播的网站哪个知道yinrentangWeichentang正品怎么样,谁知道?www.javlibrary.com跪求一个JAVHD.com的帐号www.mfav.orgwww.osta.org.cn国家职业资格证书全国联网查询,为什么随便输入什么都可以查,都要验证码
猫咪永久域名收藏地址 ftp空间 arvixe vpsio cpanel主机 iisphpmysql 监控宝 双11抢红包攻略 嘉洲服务器 双十一秒杀 泉州移动 网通服务器托管 中国电信宽带测速网 流媒体加速 怎么建立邮箱 独享主机 ebay注册 电信网络测速器 免费蓝钻 测速电信 更多