数据仓库数据仓库设计文档模板

数据仓库  时间:2021-02-25  阅读:()

学号 128302106姓名 江晨婷

教师 张丹平二O一五年四月

数据仓库建设方案设计与实现

摘要 本文以博士学位调查为基础创建方案设计与实现数据仓库通过对当前各种主流数据仓库软件在性能、价格等方面的对比充分考虑统计业务、单位数量等实际情况本系统决定采用SQL Server 2005数据仓库软件来构建综合信息分析系统的数据仓库。关键词数据仓库联机分析数据挖掘博士学位

一、概述

数据仓库的设计一般从操作型数据开始通常需要经过以下几个处理过程数据仓库设计——数据抽取——数据管理。

1.数据仓库设计

根据决策主题设计数据仓库结构一般采用星型和雪花模型设计其数据模型在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。

2.数据抽取

根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工装载到数据仓库的目标库中。

3.数据管理

数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库以反映数据源的变化且对时间相关性进行处理。元数据是数据仓库的组成部分元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时需要修改元数据。

二、博士学位授予信息年度数据统计分析

1.按主管部门统计

从主管部门的角度分析在一个时间段年内各主管部门所授予的博士学位信息统计。可回答如“2008 由某部门主管的博士学位授予一共有多少其平均学习年限是多少脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示

1

三、系统体系结构设计

通过对当前各种主流数据仓库软件在性能、价格等方面的对比充分考虑统计业务、单位数量等实际情况本系统决定采用SQL Server 2005数据仓库软件来构建综合信息分析系统的数据仓库。

本系统服务器端要求运行平台为Windows 2003 Server企业版客户端要求Windows XP浏览器为IE6.0采用SQL Server 2005数据仓库构建方案构建数据仓库选用Visual Studio.NET2003/SQL Server2005、 Rose、 Power Designer等开发工具进行系统开发。

2

我们设计的综合信息分析系统构架在统计综合信息平台中其核心功能表现为通过数据转换技术将直报数据库及其他数据源的数据库生成利于进行分析的、不同于关系数据库的数据仓库根据不同的分析需求建立不同的专题分析数据库多维数据库 最后对多维数据库进行利用联机分析处理、数据挖掘其架构如图所示。

在这个体系结构中存放于系统数据库中的业务数据及外部数据源数据按照主题通过ETL工具被抽取到ETL数据库数据准备区 数据在ETL数据库中完成预处理工作清洗和转换 再通过ETL工具加载到数据仓库。数据进入数据仓库后按照维度和事实存放采用MS Analysis Serviees作为OLAP服务器Analysis Serviees可以方便的定义维度和构建OLAP立方体。用户使用前端的查询工具、报表工具、分析工具就可以访问决策支持系统并分析浏览数据了。

由于数据预处理本身的复杂性直接从外部数据源把数据整合到数据仓库必将导致该过程即占用许多外部操作型数据库的资源和时间也会影响数据仓库装载数据的效率。借鉴算法研究中“以空间换时间”的思想再结合目前硬件成本的下降本系统中我们在数据仓库的体系结构中添加一个专门进行数据预处理

3

的存储区域以提高数据仓库系统整体性能。

四、系统数据逻辑结构设计

1.基础层模型设计

基础层数据用于存放从学历教育博士学位、同等学力人员申请博士学位、博士专业学位、学历教育硕士学位、 同等学力人员申请硕士学位、硕士专业学位、普通高等教育本科毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业生学士学位、学士专业学位等数据源ETL过来的数据这些业务数据将进行整合、组织、重构和存放。根据学位银行授予统计系统需求基础层模型包含博士学位信息主题域、硕士学位信息主题域、学士学位信息主题域。

博士学位授予信息是指主题域存放所授予的博士学位信息分为学历教育博士学位、同等学力人员申请博士学位、博士专业学位。主要的信息有个人基本信息、学科信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。

4

硕士学位授予信息是指主题域存放所授予的硕士学位信息分为学历教育硕士学位、同等学力人员申请硕士学位、硕士专业学位。主要的信息有个人基本信息、学科信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。

学士学位授予信息是指主题域存放所授予的学士学位信息分为普通高等教育本科毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业生学士学位、学士专业学位。主要的信息有个人基本信息、学科信息、学位信息等。

2.汇总层模型设计

汇总层模型的设计需要考虑汇总的粒度问题汇总的粒度不同能够回答的业务问题也不一样 由于系统数据庞大繁杂学位授予时间相对比较固定本模型将汇总层模型设计为年。

该层的设计主要考虑数据向年度级别的汇总解答如某年某主管单位所授予的博士学位人数等业务问题。根据博士学位信息授予主题的需求分析即分析的角度也叫维度 、指标、查询的内容 以博士学位信息授予主题为例其汇总层的数据模型如图所示。

5

3.报表层模型设计

6

报表层数据是用于存放学位授予信息统计系统中固定报表统计数据同时也是灵活查询的数据源。这些数据是根据报表业务规则从基础层和汇总层统计而出本模型主要包括内容有授予博士学位信息统计表、授予硕士学位信息统计表、授予学士学位信息统计表。以博士学位信息统计主题为例其博士学位信息报表层的数据模型如图所示。

图4学历教育博士学位授予信息按主管部门统计报表层模型

五、数据仓库模型设计

为满足决策分析的需要系统需要将各种数据源来的数据围绕决策主题存储到数据仓库中以提高数据查询、聚集的效率。数据仓库建模采用自上而下的三级建模方式 即概念建模、逻辑建模、物理建模。概念建模可采用信息打包法逻辑建模以星型建模方法和雪花建模方法为主物理建模以3NF和星型建模方式为主。

7

在数据仓库的3级数据模型中概念模型表示现实世界的“业务信息”构成关系用业务数据库设计中的“实体关系”方法E-R方法来设计这一级的数据模型但需要用分析主题代替传统E-R方法中的实体。在传统业务数据库设计中的逻辑模型一般采用范式规范的表及其关系数据仓库设计中的逻辑模型也采用表来存储数据因此也数据仓库中使用的也是关系模型不过表与表之间不再通过3大范式的规范而是以星形结构、雪花形结构和星座型结构等方式组成。物理模型则属于这些表的物理存储结构比如表的索引设计等。数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂——元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚合模型也在数据仓库的创建中发挥着指导的作用指导着数据仓库的具体实现。 图4表达了微观数据仓库设计中各种概念之间的关系。

1.概念模型设计

概念建模主要表达决策的主题、分析主题的角度、各个角度需要分析的属性信息决策中层次的信息—粒度及决策主题的评估等。

1997年Hammergren提出的信息打包方法要求从一个决策者的角度去将焦点集中在几个主题上着重分析所涉及的数据多维性。信息打包方法首先需要确定分析的主题然后围绕这个主题填入指标、维度、粒度等信息。

1.定义关键性指标定义分析主题的评估指标

2.定义维度维度是用户访问评估信息的途径每一个维度只表示一个主要的访问途径。

3.定义粒度粒度是维度中信息的详细程度。

8

Atcloud:全场8折优惠,美国/加拿大/英国/法国/德国/新加坡vps,500g大硬盘/2T流量/480G高防vps,$4/月

atcloud怎么样?atcloud刚刚发布了最新的8折优惠码,该商家主要提供常规cloud(VPS)和storage(大硬盘存储)系列VPS,其数据中心分布在美国(俄勒冈、弗吉尼亚)、加拿大、英国、法国、德国、新加坡,所有VPS默认提供480Gbps的超高DDoS防御。Atcloud高防VPS。atcloud.net,2020年成立,主要提供基于KVM虚拟架构的VPS、只能DNS解析、域名、SS...

亚洲云-浙江高防BGP,至强铂金8270,提供自助防火墙管理,超大内存满足你各种需求

官方网站:点击访问亚洲云官网618活动方案:618特价活动(6.18-6.30)全站首月活动月底结束!地区:浙江高防BGPCPU:至强铂金8270主频7 默频3.61 睿频4.0核心:8核(最高支持64核)内存:8G(最高支持128G)DDR4 3200硬盘:40G系统盘+80G数据盘带宽:上行:20Mbps/下行:1000Mbps防御:100G(可加至300G)防火墙:提供自助 天机盾+金盾 管...

DiyVM:50元/月起-双核,2G内存,50G硬盘,香港/日本/洛杉矶机房

DiyVM是一家比较低调的国人主机商,成立于2009年,提供VPS主机和独立服务器租用等产品,其中VPS基于XEN(HVM)架构,数据中心包括香港沙田、美国洛杉矶和日本大阪等,CN2或者直连线路,支持异地备份与自定义镜像,可提供内网IP。本月商家最高提供5折优惠码,优惠后香港沙田CN2线路VPS最低2GB内存套餐每月仅50元起。香港(CN2)VPSCPU:2cores内存:2GB硬盘:50GB/R...

数据仓库为你推荐
刷网站权重提升百度权重的几个方法免费开通黄钻能免费开通黄钻吗??天天酷跑刷积分教程天天酷跑积分怎么刷最快?邮箱打不开怎么办我的邮箱打不开怎么办自助建站自助建站哪个平台最好?pw美团网电话是什么pwqq怎么发邮件怎样在QQ上发送邮件?srv记录如何验证是否为域控制器创建了 SRV DNS 记录网管工具网管软件好用吗?什么样的网管软件好呢?我想管理二十台电脑,让其中的四五台可以上网,其它的只能上局域网,谁能推荐一款软件吗?如果出钱买也可以!谢谢了!网站优化方案网站建设及优化的方案
虚拟主机是什么 网易域名邮箱 缓存服务器 微信收钱 申请个人网站 建立邮箱 空间购买 smtp虚拟服务器 网页提速 华为k3 阿里云个人邮箱 xshell5注册码 hosting24 windowsserver2008r2 winserver2008r2 月付空间 web是什么意思 alexa搜 服务器是什么 超低价 更多