电子商务中的数据仓库技术
Data Warehousing for E-Business
W.H. Inmon

1 电子商务的基于和挑战
ERP CRM EAI,数据仓库工程

挑战:数据量、数据周转速度和多样性

电子商务通道:B2B B2C B2E(企业-员工)
第一代CRM侧重收集客户活动信息,下一代重点在于采用事务性方法来分析客户生存周期

从Web到仓库

2 CIF和电子商务
2.1CIF组成部分
CIF包括 因特网 企业网站 防火墙 企业操作型系统 粒度管理器 企业数据仓库 企业数据集市环境 探索环境(可发现新趋势) 可选存储环境 企业操作型数据存储环境

2.1.1 Web环境
  Internet 防火墙 网站
  ·企业操作型系统 抽取、转化和装载(ETL)程序
  ·粒度管理器
  ·企业数据仓库(粒状数据,历史数据,集成数据,企业数据)
  ·企业数据集市环境 销售 营销 财务 会计 人力资源 工程 保险精算
  ·探索性数据库 随心所欲大量探索处理
  ·可选存储
  ·操作型数据存储(ODS) 高性能处理,在线分析处理OLAP
    Web ODS : 存在于Web环境内部,核心有一台普通规模计算机
    企业ODS:存在于CIF内部,核心有一台大型计算机

2.2 定义电子商务体系机构需求
·建立电子商务基础设施
  集中式网站
  分布式网站

2.3 理解点击流数据
  点击流数据:Web包含的数据,用户和网站交互产生
  0级粒度:及时分析,保存在网站ODS
  1级粒度、2级:企业ODS聚集和汇总。

  客户IP地址
  客户或用户标识符
  认证用户要素
  日期和时间戳

2.3.1 使用先前站点信息
2.3.2 与ODS结合起来
·实现数据仓库

2.4 利用原数据转化语言来解释信息
2.4.1 企业应用集成
·应用交换技术
·数据转化技术
·XML HTML XHTML技术

2.5 理解CIF和电子商务接口
Web环境要求:快速装载、分析和查询;识别网络用户的元数据;建立可重复过程的获取和数据传送;拥有处理海量数据的能力
Web环境和CIF相遇情况:Web环境发送需要再操作型环境中执行的事物;Web环境通过粒度管理器传送数据到企业数据仓库中;Web环境通过ODS接收数据到网络服务器中。

2.5.1 发送事物到操作型环境中
  操作型接口是为了是操作型环境不受Web环境的创建所干扰

2.5.2 数据经过粒度管理器
  粒度管理器是Web将数据放置到CIF内部所在之处,将数据才能够Web环境中卸载出来,在数据离开Web环境时压缩,ETL工具

2.5.3 数据经过ODS
 

3 迭代地构建电子商务基础设施
3.1 采用迭代的方法来开发
3.1.1 元数据的重要性
  元数据-关于数据的数据
  元数据特性:衍生:从一个父程序开始,一个程序的完成所需要的执行步骤序列
3.1.2 创建一个循环迭代的周期
  新的循环过程前考虑:已有数据结构和模块,操起版本中建立的程序和过程,早期过程和步骤的可重用性,新需求的变化
3.2 实施中的方法论
受电子商务建设方法论影响的四个主要电子商务领域
  活动计划管理,项目管理,管理和操作,数据管理

3.2.1 项目规划
·组建团队
·收集业务需求
·技术队伍的作用
·建立物理环境:平台,存储设备,软件(个性化引擎,通信软件,前端产品,ETL工具,可控查询工具,点击流数据分析)
·建立数据模型

3.2.2过程设计
·在Web ODS中建立处理过程
  Web日志收集
  实时分析而进行的客户行为数据的收集
·企业ODS中建立处理过程
  传递细节的Web日志信息到企业的ODS数据模型中
  在更高聚合上处理Web日志
  从数据仓库或数据集市中接收数据
  传播数据到数据仓库中

3.2.3部署
  部署中创建查询原型
  在部署中集成数据
  部署开发周期:回顾所有管理需求上的变化,计划网页更新,同步人力资源、硬件组件和要实现的软件产品、估计变革时期

3.2.4管理和操作
·准备范围文档
·开发项目计划
·监控应用程序的有效性:加载响应时间,用户响应时间,用户跟踪,资源调整
·对运行中的系统进行调整:跟踪数据的使用,监控性能的级别,建立机制处理用户请求变化或扩展,归档数据
·为后续步骤而使用可循环方法
4 识别电子商务用户
4.1 识别内部用户群体
  识别不同类型的用户。消费者甘心去是评价、选择、获取、使用产品的信息。企业用户对于保持并推进业务关系的信息感兴趣
4.1.1 分析型用户
  农夫:管理人员或业务计划小组中。跟踪数据并为关键性能评测建立报表;监控预算和报表
  旅行者:管理和行政。跟踪关键性能指标;关键字搜索来证实关键指标的直觉;确定可用数据量
  探索者:分析员,保险精算师。在数据中识别模式;在数据中识别关系;生成并检测假设;确定某些值得注意的时间周围条件;确定条件的可预测性
  挖掘者:深入研究数据。将信息分类;估计变量的价值;预测未来行为,将记录分类;在亲密群体中设置记录;聚类异构群体中的数据;描述复杂数据库以增加对潜在数据的理解
  操作员:普通用户。跟踪并报告关键度量指标的每天、每周或每月的性能

4.1.2终端用户群
  1 工作组:之间紧密合作。很少参与其他团队、团体的知识建立和知识共享活动
  2 实践团队: 分组学习活动、共享与工作有关的焦点问题

4.2 识别外部用户
4.2.1 业务合作伙伴
4.2.2 消费者
  研究员:和分析型内部用户类似
  购物者:广泛的分类信息
  采购员:注意力更为集中的,目的明确,复杂窄范围的搜索方式
4.2.3 社区
  社区起到兴趣和需求之间的聚合体或中间媒介的作用,直接将社区中的成员引到商业赞助商的站点
  聚集个人兴趣和活动,社区作为CRM的目标,社区作为协作的基础

4.3 获得过程
  注意力集中在获得过程的业务用户
    购买优先级,定制功能,选项的范围

  供应链上的伙伴关系:允许前瞻性的发现合作伙伴,构建关系结构和衡量标准

4.4 支持所有用户
知识管理和CIF
  知识管理是以结构化方式归档企业中所有的智能资产的过程,提供了一种支持电子商务访问企业信息的方式
  ·知识映射
    建立在关系型存储、非正式存储和多媒体存储之间的联系以进行扩展式的访问
  ·培训和教育:智能课程,丰富的媒体集,

5 电子商务与企业数据的整合
5.1 粒度级别
5.2 数据模型的作用
  帮助用户审视各种数据如何组装在一起
5.2.1 主题域模型
  包含整个企业的信息需求,较高层次的概念模型。
  客户 产品 交易 财务 功能供应商 订单 促销情况
5.2.2 企业逻辑数据模型
  企业逻辑数据模型可以用来设计数据仓库和ODS数据模型
5.2.3 数据仓库和数据集市模型
  ·特征模式
    包含了客户的个人信息,
5.2.4 Web站点的ODS模型
  基于客户特征信息与个性化引擎进行交互
5.2.5 企业ODS模型
  时效性的
  第一级 企业ODS 从源系统与数据仓库中获得更新,是ODS类型的组合
  第二级 日常聚集
5.3 模型之间的关系

6 电子商务环境中的性能
6.1 从第一天就关注性能
  ·影响性能的因素
     电子速度
     机械速度
     手工速度
     等待速度
   例如旅行,减少时间的方法:提高最慢部分的速度,剔除不必要旅行段
6.2 交易处理和性能
  一个交易有5个阶段
    从用户经Internet到Web网站
    从Web网站经过Internet返回用户
    通过防火墙进入HTML管理器
    从Web网站管理器到Web网站中包含的数据
    从Web网站到外部数据
6.2.1 简单交易
  从用户到Internet 到Web到Internet到用户
6.2.2 更复杂的交易
6.2.3 交易小结
  a->b 穿越Internet 速度很慢
  a->b->c 能快速访问HTML页
  a->b->c->d 访问数据是在内存中还是硬盘中
  a->b->c->e 采取对ODS的磁盘访问
6.3 管理Web网站的性能
6.3.1 ODS和性能
  ODS是通过读取和分析数据仓库的内容而创建的,通过对数据仓库预处理,可以讲数据聚合到ODS中
6.3.2 监视Web环境
  在防火墙 Web环境 数据仓库 ODS
  ·被动监视
    工作负荷特性,最活跃用户,最长交易,最受欢迎交易,最活跃时间,平均响应时间,IO操作次数
  ·活动在线监视
    正在运行的事物,所需资源,当前瓶颈,当前响应时间
6.4 高性能数据库设计技术
6.4.1 创建数据索引
  系数索引,一部分数据记录
6.4.2 使用数组
  数据物理地组织在一起
6.4.3 表合并
6.4.4 建立冗余数据
6.4.5 聚集数据
6.4.6 拆分事物使IO操作最少
6.4.7 管理Web网站的工作日
6.4.8 容量计划及管理
  容量计划包括CPU的处理能力计划,连接性计划,带宽计划,存储计划
  主要优势是让Web管理员在管理系统资源时处于主动地位
  采用并行体系结构
6.4.9 管理大容量数据
  索引庞大低效
  数据被迫存入应急
  散列数据冲突
  长时间顺序搜索
  长数据链的创建

6.5 数据集市与性能
  探索型数据库:用于数据挖掘和数据探索的工具。会让数据仓库相应速度下降
6.6 网络性能
  瓶颈、负荷、高峰时段处理、容量、协议
6.7 DBMS技术与性能
6.8 ETL效率与性能
  ·用粒度管理器和快照提高性能
    创建快照而不是更新已有数据,但是快照产生的记录数量要由粒度管理器解决。
6.9其他增强性能的技术
6.9.1 移动少量数据
  少量数据的频繁移动
6.9.2 使用日志文件
  日志文件任何情况可以生成,包含大量细节数据,可以离线处理,可以转移到其他服务器处理
6.9.3 生成在线报表
6.9.4 创建滚动式汇总数据结构
  每天数据 每周数据 每月数据,节省巨大系统计算资源,浓缩数据
6.9.5 物理上并列存放的数据
6.9.6 闲时数据处理
  低谷时间段处理长序列事物
6.9.7 重复查询
6.9.8 预先序列化事务
6.10 培训终端用户以提高性能
  正确使用用于访问和分析Web数据的工具,明确用户应该访问哪些数据,不应该访问哪些数据,怎样组织对数据库的访问请求,一天重视和进行不同操作的时间,发出一个访问请求后希望得到什么,在不同数据库中有哪些数据。

7 电子商务的数据存储技术
7.1 数据存储的本质
  现实是连续的,存储是离散的
  长期持久不变,潜在容易腐烂
  只有被访问到,数据才有价值
7.1.1 离散与连续信息
7.1.2 持久性
  怎样使用数据决定数据的持久性 电子类27个月,药物30年
7.1.3 延迟
  路径长度
7.1.4 访问
7.2 存储容量与性能
  信息与数据:聚合程度越高 信息持久时间段越长
7.2.1 缓存
  内存,速度快,昂贵,信息脆弱
  ·继承缓存磁盘阵列ICDA
  ·基于控制器的框架和堆栈阵列
7.2.2 常规磁盘
7.2.3 高密度磁盘
  相对大规模存储应用,深度记录检索应用;序列方式存储可预测数据流应用
7.2.4 光存储
  在线或近线存储
7.2.5 近线存储
  合理成本对大容量数据长期存储,加载延迟较长
7.4 存储的层次结构
  近线->光存储->高密度磁盘->标准磁盘->框架和堆栈->ICDA->智能信息处理器
7.5 建立存储基础设施
  数据的价值是否能在合理的捕捉时间内被充分了解
7.6 无线矩阵
  延迟最小,优化存储容量的存储方案。GPS的经纬定位是无意义的,但是对其可视化处理。

8 电子商务中的应用
8.1 定义分析型应用
8.1.1 经典财务和操作型报表
  传统商业环境中每月每季度分析在电子商务环境中为每天、每小时分析
8.1.2 以客户为中心的报表
  新的度量方法 客户挽留 客户流失 网站逗留时间
  ·流失分析
  ·客户亲密关系分析 CRM
8.1.3 以产品为中心的报表
8.1.4 事务分析
8.1.5 纯信息网站分析
  ·衡量网站的影响力
8.1.6 网站内部导航分析
8.2 网站直流时间:确立网站有效性基准
8.3 网站内基于内容的分析
  网站内容分析-结果对基础设施环境有操作影响;内容驱动,停留内容有价值
  ·访问量与购买分析

9 电子商务的探索
9.1 时间
  探索必须将重点放在更短的时间单元内
9.2 操作型探索
  根据需求分配资源,作业调度中,时间和动作相结合产生期望或者已知结果
9.3 经典商业价值和探索
  ·方法重要性
    指向网站的链接、网站点击率、交易人的特征信息。
    接触并前进的向量模型
    如何发现用户特征
9.4 建立模型
9.4.1 定义探索的目标
  如果探索的目标是收入增长和识别,考虑所有收入源,直接销售收入、渠道销售收入、竞争收入
9.4.2 定义接近的模式
  向量球 收入(物理位置、呼叫中心、Web、参考合作伙伴)

  ·一个假象的案例
   M公司价格高,但是V公司提供到H先生的物理链路,选择了V公司的DSL服务。
   使用M公司的手机和服务,服务很差。最后使用了V公司的服务
9.4.3 最初的接触和联系
  V和M都有过接触。M应当有优势。结晶向量从Web到呼叫中心到Web到物理位置到收入
9.4.4 推断性关联
  M为H的地址和手机建立双值记录,地址的软连接可以提供第二部手机和相关预计值
  接近向量的缩短,从呼叫中心识别出其价值。
9.5 在探索中确定客户价值
9.5.1 电子商务中的同属家庭处理
  为家庭成员之间提供硬联系,考虑的应该是夜间地址(接近住宅)
9.5.2 探索中不同的地址联系
  按时间顺序查看时间,看是否存在因果链

10 适应电子商务中的变化
10.1 品牌淡化和缺失
  尊重和维护品牌的一直经营
10.2 对电子商务灵活性的需求
10.2.1 移动化
  对客户偏好和使用模式的了解
  跨越不同渠道来集中客户注意力的策略
10.2.2 敏感度
  状态和控制敏感度:跟踪正在进行的起步阶段状态并控制器进展过程
  此外还可以跟踪起步阶段的总功效来判断起步阶段与预期目的吻合程度
10.3 电子商务灵活性面临挑战
  对信息资产进行分类,评估性能特征
  确定当前和将来的信息流价值
  配置CIF以适应当前需要,并保持足够的灵活性来适应将来需求
10.4 电子商务起步阶段的特点
  马上让企业的投资者满意,回答安全和保密问题,支持通常难以估计的增长率,使用相对新的有时是外来的技术,应付内部技术资源不足的问题,应付资金分配机制的不确定性
  ·位置上的传送
  ·合作系数
    衡量企业的速度限制的标准
    填补生产线和服务线的差距:研究与开发,合并与收购,合作与合股
10.5 企业性能,盈利能力的水平
  电子商务从可盈利的关系中的受益比实际业务还要多
10.5.1 关系型盈利能力
10.5.2 企业盈利能力
10.6 为企业性能而管理信息资产
  CIF记分卡:将信息资产与他对盈利能力及资产负债的增长的贡献对应起来
  最终目标是尽可能合理使用各种信息源;中期目标是产品和服务与客户方案相匹配
  挑战:发现并评估目前在财务报告中没有反映出来的复杂的企业信息资产

版权声明:本文为shihao原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/shihao/archive/2012/01/18/2325547.html