01数据仓库的特征
以主题为导向,按照一定主题组织。主题是指用户在使用数据仓库进行决策时所关心的关键方面,后面会举例说明。数据仓库是集成的,数据仓库中的数据来自分散的运营数据。从原始数据中提取所需数据,进行处理和集成,然后输入数据仓库。数据仓库是不可更新的,主要是为决策分析提供数据,涉及的操作主要是数据查询;
02数据仓库有以下要求
效率足够高:数据仓库的分析数据一般分为日、周、月、季、年等。可以看出,日周期的数据要求效率最高。数据质量:因为数据仓库过程通常分为多个步骤,包括数据清理、转换、加载等。,脏数据会导致数据失真,从而可能导致错误的决策。可扩展性:主要体现在数据建模的合理性上。
数据仓库的基本架构主要包括数据流入和流出的过程,分为数据采集、数据仓库和数据应用三层
数据仓库的结构
从各种数据源获取数据,并在数据仓库中转换和流动数据,可以视为ETL(Extra Extra,Transform Transfer,Load)过程。ETL是数据仓库的流水线,也可以算是数据仓库的血液。它维护着数据仓库中数据的新陈代谢,数据仓库的大部分日常管理维护工作都是为了保持ETL的正常稳定。
03数据仓库
1.数据采集
对于网站数据仓库,点击流日志是主要的数据源,是web分析的基础数据。当然,网站的数据库数据也是必不可少的,记录着网站的运营数据和各种用户运营的结果,而其他的则是网站内外其他种类的数据,可能对公司的决策有用。
2.数据仓库
2.1数据模型:
数据模型是抽象描述现实世界的工具和方法,是通过抽象实体和实体之间的联系来表达现实世界中事务之间关系的映射。这里,数据模型表示实体之间的抽象关系。通过定义和描述实体之间的关系,表达实际业务中的具体业务关系。
数据仓库模型是针对数据模型中特定数据仓库应用系统的特定数据模型
数据模型的层次划分
通过上图,我们可以很容易地看到,在整个数据仓库建模过程中,我们需要经历四个一般过程:
业务建模:生成业务模型,主要解决业务层的分解和程序化。领域建模:生成领域模型,主要是抽象业务模型,生成领域概念模型。逻辑建模:生成一个逻辑模型,主要是将领域模型的概念实体和数据库级实体之间的关系逻辑化。物理建模:生成物理模型,主要解决一些具体的技术问题,比如不同关系数据库的逻辑模型的物理化和性能。嘉米谷大数据培训,6月大数据开发0基础班,高级班,成都小班面授,预测中间。
因此,在整个数据仓库模型的设计和架构中,既涉及到业务知识,也涉及到具体技术。我们需要了解丰富的行业经验,同时也需要一定的信息技术来帮助我们实现我们的数据模型。最重要的是,我们还需要一种非常适用的方法来指导自己在业务的不同阶段抽象、处理和生成模型。
2.2数据主题:
数据主题
数据模型的构建和维度的选择是为了满足数据主题的需求。数据主题通常是业务需求的细化。
2.3数据报告:
报表几乎是每一个数据仓库中不可缺少的数据应用,它显示聚合数据和多维分析数据进行报表,提供最简单直观的数据。
这里的数据汇总是指基于具体需求的简单汇总(基于多维数据的汇总在多维数据模型中)。简单的总结可以是汇总数据,如网站的总浏览量、访问量和唯一访问者,也可以是平均数据,如Avg。页面上的时间和Avg。现场时间,可直接显示在报告上。
2.4数据集市和开放应用编程接口
数据集市,也叫数据市场,可以理解为一个包含很多字段的宽表,比如销售表,它不仅包含订单、金额等必要字段,还包含可能的产品信息收集、用户信息收集甚至销售人员的信息,是数据仓库的核心组成部分。
提高数据的准确性:因为创建面向主题的数据表后,不需要根据不同的需求创建不同的结果表,自然错误的概率会大大降低效率;因为它是面向主题的,所以任何需要的数据都可以直接简单地从数据集市表中获得。
开放API是指开放的查询接口。
数据质量中心:
元数据管理
元数据(Metadata),其实应该叫解释性数据,或者数据字典,也就是数据的数据。它主要记录数据仓库中模型的定义,各个层次之间的映射关系,监控数据仓库的数据状态和ETL的任务运行状态。嘉米谷大数据培训,6月大数据开发0基础班,高级班,成都小班面授,预测中间。一般情况下,元数据是通过元数据存储库统一存储和管理的,其主要目的是使数据仓库的设计、部署、运行和管理实现协同性和一致性。
1.《数据仓库培训 什么是数据仓库、有何作用?成都大数据0基础培训》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《数据仓库培训 什么是数据仓库、有何作用?成都大数据0基础培训》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/tiyu/1194305.html