为什么数据分析中要建数据仓库?
最近在博客园上看到一篇文章,关于数据仓库建设相关的。以前做项目一直通过PowerQuery进行数据加工处理,再使用PowerBI Desktop进行数据分析展现,没有单独构建数据仓库的概念。通过这个文章找到中软易通官网,了解一些免费的ETL工具介绍和视频后发现原来通过ETL工具建立数据仓库确实可以比较简单。(注意:这里的简单是相对的,主要还是我们需要有数据仓库相关的知识尤其是数据仓库维度建模,后期我会专门针对维度建模写一个维度建模系列的文章。)
图中我们可以看到有数据仓库和没有数据仓库的区别。在进行数据分析的时候,我们总会遇到一些名词,比如数据仓库。数据仓库是数据分析中一个比较重要的东西,数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。下面就给大家解释一下数据分析中的数据仓库。
对数据分析的理解大家应该都是比较熟悉的,数据分析的流程有很多,首先需要进行对业务的理解,然后就是对数据的理解,挖掘数据,数据处理,数据分析,数据展现,这些步骤就能够给大家带来一个不错的数据分析结果。
但是数据分析中的工作最重要的就是数据处理工作,由于数据分析对数据质量、格式的要求比较高,对数据的理解也必须非常深刻,使得数据契合业务需求也要一定的过程,根据我做数据分析的经验,在整个数据分析流程中,用于数据处理的时间往往要占据70%以上。所以,如何高效、快速地进行数据理解和处理,往往决定了数据分析项目的进度和质量。而数据仓库具有集成、稳定、高质量等特点,基于数据仓库为数据分析提供数据,往往能够更加保证数据质量和数据完整性。
我们如果要做好数据分析的时候,要使用ETL工具构建数据仓库提升数据分析效果需要从三个方面。分别是数据理解、数据质量、数据跨系统关联。
一、数据理解
我们都知道,数据仓库是面向主题的,所以其自身与业务结合就相对紧密和完善,更方便数据分析师基于数据理解业务。而数据仓库是有很多的主题组成,包括了很多的数据。当我们需要对数据进行分析的时候,如果理解数据仓库的模型,数据理解也就水到渠成了。
第二、数据质量
我们在做数据分析的时候要求数据是干净、完整的,而数据仓库已经对源系统的数据进行了业务契合的转换,以及脏数据的清洗,这就为数据分析的数据质量做了较好的保障。
第三、数据跨系统关联
数据跨系统关联数据仓库的一个简单架构,各业务源系统的数据经过ETL过程后流入数据仓库,当不同系统数据整合到数据仓库之后,至少解决了数据分析中的两个问题:
第一,跨系统数据收集问题,在金融分析中同一个客户的储蓄交易和理财交易我们在同一张事实表就可以找到;
第二,跨系统关联问题,进行数据整合时,总是需要找到共同点来关联来自不同系统的信息,而数据仓库在ETL过程中就会整合相关客户信息,完美解决跨系统关联问题。
通过上面的内容我们不难发现数据仓库确实能够给大家带来很多的帮助,大家在学习数据分析之余需要对数据分析中的数据仓库进行了解,这样才能够更好地去进行数据分析工作。希望这篇文章能够给大家带来帮助,最后感谢大家的阅读。
欢迎大家一起加入高效数据处理ETL交流群,一起讨论数据分析前ETL过程的问题,一起学习一起成长。
扫码加群: