《分析服务从入门到精通读书笔记》第一章、数据分析基础(1)
目的
学习一些商业智能的基本概念,如属性、层次结构和维度
数据分析中的属性
假设如果你是AWC公司的总经理,希望了解公司的业绩,于是从业务人员那里得到一份报表
表1.1 AWC公司业绩
42 |
看到这个表格你根本不能得到任何信息,也就是说这个表是没有任何意义的,没有上下文的数字可能是数据,但不是信息,在商业智能中,用来监控公司运行的可概况的数值被称作度量值(measure)。在寻找数字信息的过程中,首先要做的就是确定所需要的度量值,度量值可以是“销售额(Sales Dollars)”、“发货量(Shipment Units)”、等,我们来看一下AWC公司的销售报告,如图1.2所示
表1.2 AWC公司销售报表
销售量 |
42 |
通过增加标签,数字从数据变成了信息。我们从中就可以知道,42代表销售量,这个标签就是元数据(metadata),即关于数据的的数据。商业智能应用程序将数据转换成信息的方式之一就是通过增加元数据。只看单个数据,我们并不能得到许多信息,因此我们希望将数据打散使其包含更多的信息。例如,要知道在一段时间内的业绩如何,我们就需要如表1.3所示的分析报表
表1.3 AWC公司月度分析报表
2011年1月 | 2011年2月 | 2011年3月 | 2012年4月 |
4 | 14 | 27 | 25 |
由于我们添加了更多的元数据,就能获得更多的信息,每个月销售量的一个属性是该销售发生的月份。公司已经运作了4个月,因此在表的最上方一行的月份的属性标签。值得注意的是,月份标签是按时间顺序排列的,而不是按字母顺序或随机排列的。报表中属性标签出现的顺序也是元数据,这对于帮助了解在一段时间内的业绩至关重要。
你可能对前面的月度表不满意,因为公司不止销售一种产品,每种产品在各个时间段表现如何?此时我们就需要一份新的报表。
表1.4 AWC 公司按产品和月份列出的销售报表
产品 | 2011年1月 | 2011年2月 | 2011年3月 | 2011年4月 |
mountain-500 black,40 | 1 | 3 | 1 | 2 |
mountain-500 black,44 | 2 | 1 | ||
mountain-500 black,48 | 1 | 2 | 1 | |
mountain-500 silver,40 | 1 | 2 | 1 | |
mountain-500 silver,44 | 1 | 1 | 1 | |
mountain-500 silver,48 | 2 | |||
Road-750 Black,44 | 10 | 7 | ||
Road-750 Black,48 | 5 | 9 | ||
Hitch Rack | 1 | 6 | 6 | 3 |
由于有更多的元数据,我们现在获得了更多的信息。每个销售量的值都有两个属性:特定的月份和特定的产品。公司总生产三种产品模型,由于尺寸和颜色的不同,共有9中不同的产品,因此,报表左列共有9个属性标签,分别对应每一种产品。
但这是在数据量少的情况下,你可以直观的分析,当数据量的增多,此种情况就不适应了,我们需要寻找共有的属性,可以创建产品分组。可以按照产品名称模型名、颜色和尺寸属性进行划分。
表1.5 产品属性
产品 | 模型 | 颜色 | 尺寸 |
mountain-500 black,40 | mountain-500 | 黑色 | 40 |
mountain-500 black,44 | mountain-500 | 黑色 | 44 |
mountain-500 black,48 | mountain-500 | 黑色 | 48 |
mountain-500 silver,40 | mountain-500 | 银色 | 40 |
mountain-500 silver,44 | mountain-500 | 银色 | 44 |
mountain-500 silver,48 | mountain-500 | 银色 | 48 |
Road-750 Black,44 | Road-750 | 黑色 | 44 |
Road-750 Black,48 | Road-750 | 黑色 | 48 |
Hitch Rack | Hitch Rack |
我们得到了说那个的产品属性标签列表,可以据此在报表中创建分组。由于“属性标签列表”这个表达过于繁琐,商业智能从业者就将每一个属性标签称为属性。由于每一属性标签列的标签都互相关联并属于一个相同的属性,这些标签被称为成员。例如,“模型”属性有三个成员:Hitch Rack、Mountain-500和Road-750;而“颜色”属性具有两个成员:Black和Silver。
“产品”属性被称为关键属性。关键属性唯一地确定了成员的所有其他属性。通过查看产品属性,我们可以知道关于该产品的所有其他属性。例如,对于“Mounttain-500 Silver,42”这个产品,我们可以知道,这是一件银色的,尺寸为42的Mountain-500型的自行车。另一种识别关键属性的方法,是在创建如表1.5所示的相关属性列时,关键属性的成员是唯一的,“模型”不是一个关键属性,因为在查看模块属性中Mountain-500这个成员时,无法获知其中颜色是黑色还是银色,也无法获知尺寸属性。其实,“模型”属性成员在表1.5中是重复的。
现在我们再进行重构这张表。
表1.6 AWC公司按模型、产品和月份列出的销售报表
模型和产品 | 2011年1月 | 2011年2月 | 2011年3月 | 201年4月 |
Mountain-500 | 3 | 8 | 6 | 6 |
Mountain-500 Black,40 | 1 | 3 | 1 | 2 |
Mountain-500 Black,44 | 2 | 1 | ||
Mountain-500 Black,48 | 1 | 2 | 1 | |
Mountain-500 Silver,40 | 1 | 2 | 1 | |
Mountain-500 Silver,44 | 1 | 1 | 1 | |
Mountain-500 Silver,48 | 2 | |||
Road-750 | 15 | 16 | ||
Road-750 Black,44 | 10 | 7 | ||
Road-750 Black,48 | 5 | 9 | ||
Hitch Rack | 1 | 6 | 6 | 3 |
Hitch Rack | 1 | 6 | 6 | 3 |
这份表已经出现了汇总信息。每个模型的汇总信息就是该模型的相关产品销售额的综合或叫聚合(aggregation)。“模型”属性和“产品”属性以层次结构(hierarchy)进行组织,由“模型”属性的成员作为层次结构的做高层,“产品”属性的成员作为最底层。通过将产品和模型组织成层次结构,并将产品值聚合成某一种模型值,提供了额外的元数据,从而提高了数据传递信息的能力。
表1.6所示的报表已经接近AWC公司生产更多产品所采用的报表。有了层次结构,就不用将全部的层级(level)展示出来,例如,我们只想查看“模型”层级,就可以让分析员将“产品”级排除在外。
我们再继续重构一张表,通过表1.7所示的汇总报表可以对公司业绩有一个更为全面的了解。
表1.7 AWC公司按模型和月份列出销售报表
模型 | 2011年1月 | 2011年2月 | 2011年3月 | 2011年4月 |
Mountain-500 | 3 | 8 | 6 | 6 |
Road-750 | 15 | 16 | ||
Hick Rack | 1 | 6 | 6 | 3 |
到目前为止,我们已经看到如何详细的产品属性划分为相关属性的集合。在进行多维分析时,会遇到许多其他的属性。例如,我们可能会经常创建包含日期、雇员、地理信息、客户和其他许属性的报表。