项目介绍和需求管理

1.  学习目标

了解知行教育大数据的项目背景

了解知行教育大数据的看板划分

了解项目技术架构

了解ClouderaManager的应用场景

掌握ClouderaManager架构

能够使用Vmware虚拟机环境

2.  项目简介

知行教育大数据分析平台,突出的是“真”,此项目是传智播客联合三方K12教育机构共同研发,并在上线发布后转换为课程,过程真实细致,采用主流的大数据技术和工具,内容特点:

  1. 包含了需求分析、设计转换、研发、测试到上线部署维护的完整项目流程。
  2. 真实的教育大数据业务逻辑,包括:访问、咨询、意向、线索、报名、考勤等各个阶段,大幅提升学员在教育行业中的竞争力。
  3. 深入讲解数据仓库的分层与建模过程。
  4. 海量数据场景下的性能优化。
  5. 拉链表的具体应用、对变化的更新数据进行存储和分析。
  6. 每个公司都会要求使用的版本控制工具。
  7. 大公司、核心项目必备的Code Review技能。
  8. 可视化部署与运维大数据环境。

3.  项目背景

3.1  在线教育行业机遇

近年来,在线教育产业发展十分迅速。尤其是2018年以来,在线教育平台动作不断,除了洋葱数学、考虫、作业盒子、火花思维、VIPKID、阿卡索等平台纷纷融资外,诸多在线教育平台纷纷上市。新东方在线也在2019年3月成功上市。

在市场规模方面,在线教育很大程度上是随着移动互联网的浪潮发展起来的,在传统的PC时代,虽然出现了网络教育形式,但是真正的所谓在线教育仍然是在2011年左右开始爆发的,这也正是移动互联网发展和普及的时间点

统计数据显示,2011-2017年中国在线教育市场规模呈逐年增长趋势。2011年中国在线教育市场规模已达574.9亿元,2014年中国在线教育市场规模突破了千亿元,截止至2017年中国在线教育市场规模增长至突破2000亿元,达到了2089.1亿元,同比增长28.1%。2018年我国在线教育市场规模达到2670.6亿元左右。中国在线教育市场规模同比增长稳健。

 

 

近期新冠肺炎引发的疫情期间,全国数千万学生在线上教育平台迎来新学期。在开学的第一周,全国300多个城市的数十万教师变身主播,通过阿里、腾讯和网易等互联网公司旗下线上教育平台让学生们实现“在家上课”。在线下培训机构全面停课之际,线上教育又快速承接线下需求、聚集流量,在这个特殊时期迎来一次爆发式增长。

 

 

用户需求猛增

A股自春节开盘后,在线教育板块迎来一波大涨行情。2月12日,在线教育概念股全线飘红,板块涨幅2.91%。在美股,在线教育中概股也表现火热,去年在纽交所上市的网易有道11日上涨39.48%。当日,其他在纳斯达克或纽交所挂牌上市的中概股教育股几乎清一色大涨,“跟谁学”上涨4.56%,好未来上涨3.37%, 51Talk上涨21.06%,流利说上涨15.13%。资本市场对中国在线教育产业持续看好。

这次疫情提供了一次难得的强迫型教育市场机会在线教育的优势在本次疫情发生期间再次凸显,解决了教育资源不能异地、分散化使用的问题,证明教育信息化实施的必要性在线教育迎来快速发展,主要增量将来自于三、四线城市。

2019年中国在线教育用户规模接近4亿,同比增长超过两成。在过去一年里,在线教育以其能够突破地域空间的特性,成为家长和学子的优选项,成为多方角逐的竞技场。

国内多个科技、媒体巨头纷纷开始在线教育领域布局。去年年底,知乎与快手共同发布“快知计划”,拿出百亿流量扶持知识创作者课程研发和讲师。字节跳动投资K12大数据精准教学运营商极课大数据,以及投资早教内容提供商HnR新升力。在此之前,腾讯向在线少儿英语教育平台VIPKID投资1.5亿美元,并宣布正式成立“腾讯教育”,向个人、学校、教育机构、教育管理部门,提供智能连接、智能教学、智能科研和智能管理等服务。抖音也公开提到平台对教育领域的支持。

3.2  行业发展的痛点

受互联网+念的催化育市场发展火越来越多的机构和平台不断包括有线学习和线培训,K12教育和职业教等,那些注重用户量的平台终胜目前的企业痛点

  1. 据量大MySQL业务数直接取模式不能业务统计性能效率需要
  2. 系统据分散缺少从营销咨询教学等等完整业务环节
  3. 统计分析难度高、工作量大。缺少元数据集合的范存业务据分析角度需求需要程序员DBA突击查数做报尤其年底各个DBA助出

如何提高用户水平提高教量是每都面问题信息的共享和利用不充分就导致尽管学校多年的信息化应用积累了大量的数据,但信息孤岛的壁垒一直没有打破,对这些数据无法进一步的挖掘、分析、加工、整理,不能给学校教育、教学、研发、总务等各方面管理决策提供科学、有效的数据支撑。

3.3  大数据技术的应用

大数据技用可以海量的用为数据中掘分析根据分析结化平台的服务质最终满足用的需求。教育大据分析平台项目就是据技术应用于培训领业经营提供据支撑

  1. 建立集团数仓库一集团数据中心把分散的业务数理和存
  2. 根据业务分析需要海量的用为数据中掘分析定制多维据集合形成数据集市供各个场景主题使用
  3. 前端业务数据展示选择和控制取合适的前端统计分析结展示工具

 

4.  在线教育业务需求

需求文档详见【Home\讲义\第1章 需求和环境\资料\需求调研文档_v1.0.docx】。

 

 

4.1  访问和咨询用户数据看板

客户访问和咨询主题,顾名思义,分析的数据主要是客户的访问数据和咨询数据。但是经过需求调研,这里的访问数据,实际指的是访问的客户量,而不是客户访问量。原始数据来源于咨询系统的mysql业务数据库。

用户关注的核心指标有:1、总访问客户量、2、地区独立访客热力图、3、访客咨询率趋势、4、客户访问量和访客咨询率双轴趋势、5、时间段访问客户量趋势、6、来源渠道访问量占比、7、搜索来源访问量占比、7、活跃页面排行榜。

4.1.1  总访问客户量

说明:统计指定时间段内,访问客户的总数量。能够下钻到小时数据。

展现:线状图

指标:访问客户量

维度:年、季度、月

粒度:天

条件:年、季度、月

数据来源:咨询系统的web_chat_ems_2019_12等月表

 

按年:显示指定年范围内每天的客户访问量

按季度:显示指定季度范围内每天的客户访问量

按月:显示指定月份范围内每天的客户访问量

4.1.2  地区独立访客热力图

说明:统计指定时间段内,访问客户中各区域人数热力图。能够下钻到小时数据。

展现:地图热力图

指标:按照地区聚合访问的客户数量

维度:年、季度、月

粒度:天

条件:年、季度、月

数据来源:咨询系统的web_chat_ems_2019_12等月表

按年:显示指定年范围内每天的客户访问量

按季度:显示指定季度范围内每天的客户访问量

按月:显示指定月份范围内每天的客户访问量

4.1.3  访客咨询率趋势

说明:统计指定时间段内,不同地区(省、市)访问的客户中发起咨询的人数占比;

咨询率=发起咨询的人数/访问客户量;客户与网咨有说一句话的称为有效咨询。

展现:线状图

指标:访客咨询率

维度:年、月、城市

粒度:天

条件:年、季度、月、省、市

数据来源:咨询系统的web_chat_ems_2019_12等月表

 

按年:显示指定年范围内每天的客户访问量

按季度:显示指定季度范围内每天的客户访问量

按月:显示指定月份范围内每天的客户访问量

 

4.1.4  客户访问量和访客咨询率双轴趋势

说明:统计指定时间段内,每日客户访问量/咨询率双轴趋势图。能够下钻到小时数据。

每日客户访问量可以复用指标1数据;

咨询率可以复用指标3的数据。

 

按年:显示指定年范围内每天的客户访问量

按季度:显示指定季度范围内每天的客户访问量

按月:显示指定月份范围内每天的客户访问量

 

4.1.5  时间段访问客户量趋势

说明:统计指定时间段内,1-24h之间,每个时间段的访问客户量。

横轴:1-24h,间隔为一小时,纵轴:指定时间段内同一小时内的总访问客户量。

展现:线状图、柱状图、饼状图

指标:某小时的总访问客户量

维度:天

粒度:小时

条件:天

数据来源:咨询系统的web_chat_ems_2019_12等月表

 

4.1.6  来源渠道访问量占比

说明:统计指定时间段内,不同来源渠道的访问客户量占比。能够下钻到小时数据。

展现:饼状图

指标:比值

维度:年、季度、月

粒度:天

条件:年、季度、月

数据来源:咨询系统的web_chat_ems_2019_12等月表

 

按年:显示指定年范围内每天的客户访问量

按季度:显示指定季度范围内每天的客户访问量

按月:显示指定月份范围内每天的客户访问量

 

4.1.7  搜索来源访问量占比

说明:统计指定时间段内,不同搜索来源的访问客户量占比。能够下钻到小时数据。

展现:饼状图

指标:比值

维度:年、季度、月

粒度:天

条件:年、季度、月

数据来源:咨询系统的web_chat_ems_2019_12等月表

 

按年:显示指定年范围内每天的客户访问量

按季度:显示指定季度范围内每天的客户访问量

按月:显示指定月份范围内每天的客户访问量

4.1.8  活跃页面排行榜

说明:统计指定时间段内,产生访问客户量最多的页面排行榜TOPN。能够下钻到小时数据。

展现:柱状图

指标:访问客户量

维度:页面、年、季度、月

粒度:天

条件:年、季度、月、Top数量

数据来源:咨询系统的 web_chat_text_ems_2019_11等月表

 

按年:显示指定年范围内每天的客户访问量

按季度:显示指定季度范围内每天的客户访问量

按月:显示指定月份范围内每天的客户访问量

 

4.2  意向用户看板

4.2.1  意向学员位置热力图

说明:统计指定时间段内,新增的意向客户,所在城市区域人数热力图。展现:地图热力图

维度:年、月、线上线下

指标:按照地区聚合意向客户id数量

粒度:天,可以下钻到小时数据。

条件:年、月、线上线下

数据来源:客户管理系统的customer(客户静态信息表) 、customer_relationship(客户意向表)

 

4.2.2  总意向量

说明:计期内,新增意向客户(包含自己录入的意向客户)总数。

展现:线状图

条件:年、月、线上线下

维度:年、月、线上线下

指标:总意向客户量

粒度:天,可以下钻到小时数据。

数据来源:客户管理系统的customer_relationship意向表

4.2.3  意向学科排名

说明:统计指定时间段内,新增的意向客户中,意向学科人数排行榜。学科名称要关联查询出来。

展现:柱状图

条件:年、月、线上线下

维度:年、月、线上线下、学科

指标:学科意向客户量

粒度:天,可以下钻到小时数据。

数据来源:客户管理系统的customer_clue(客户线索表)、customer_relationship(客户意向表)、itcast_subject(学科表)

 

4.2.4  意向校区排名

说明:统计指定时间段内,新增的意向客户中,意向校区人数排行榜。

展现:柱状图

条件:年、月、线上线下

维度:年、月、线上线下、校区

指标:校区意向客户量

粒度:天,可以下钻到小时数据。

数据来源:客户管理系统的

注意:学校id,同步时,0和null转换为统一数据,都转换为-1

4.2.5  来源渠道占比

说明:统计指定时间段内,新增的意向客户中,不同来源渠道的意向客户占比。

展现:饼状图

条件:年、月、线上线下

维度:年、月、线上线下、来源渠道

粒度:天,可以下钻到小时数据。

指标:来源渠道意向客户量

数据来源:客户管理系统的customer_clue(客户线索表)、customer_relationship(客户意向表)

 

 

4.2.6  意向贡献中心占比

说明:统计指定时间段内,新增的意向客户中,各咨询中心产生的意向客户数占比情况。

展现:饼状图

条件:年、月、线上线下

维度:年、月、线上线下、咨询中心

指标:咨询中心意向客户数

粒度:天,可以下钻到小时数据。

数据来源:客户管理系统的customer_relationship(客户意向表)、employee(员工表)、scrm_department(部门表)

4.3  有效线索看板

4.3.1  有效线索转化率

说明:统计期内,访客咨询产生的有效线索的占比。有效线索量/咨询量,有效线索指的是拿到电话且电话有效。

展现:线状图。双轴:有效线索量、有效线索转化率。

条件:年、月、线上线下

维度:年、月、线上线下

指标:访客咨询率=有效线索量/咨询量

粒度:天

数据来源:客户管理系统的customer_clue线索表、customer_relationship意向表、customer_appeal申诉表;咨询系统的web_chat_ems访问咨询表

 

4.3.2  有效线索转化率时间段趋势

说明:统计期内,1-24h之间,每个时间段的有效线索转化率。横轴:1-24h,间隔为1h,纵轴:每个时间段的有效线索转化率。

展现:线状图

条件:年、月、线上线下

维度:年、月、线上线下

指标:某小时的总有效线索转化率

粒度:区间内小时段(区间内同一个时间点的总有效线索转化率)

数据来源:客户管理系统的customer_clue线索表、customer_relationship意向表、customer_appeal申诉表;咨询系统的web_chat_ems访问咨询表

 

4.3.3  有效线索量

说明:统计期内,新增的咨询客户中,有效线索的数量。

展现:线状图。

条件:年、月、线上线下

维度:年、月、线上线下

指标:有效线索的数量

粒度:天

数据来源:客户管理系统的customer_clue线索表、customer_relationship意向表、customer_appeal申诉表

 

4.4  报名用户看板

此主题下指标需要能够下钻到小时数据。

4.4.1  校区报名柱状图

说明:统计期内,全部报名客户中,各校区报名人数分布。

展现:柱状图

条件:年、月,校区

维度:天区间,按查询条件来定

指标:报名人数

粒度:天/线上线下/校区

数据来源:客户管理系统的customer_relationshipitcast_clazz报名课程表

4.4.2  学科报名柱状图

说明:统计期内,全部报名客户中,各学科报名人数分布。

展现:柱状图

条件:年、月,学科

维度:天区间,按查询条件来定

指标:报名人数

粒度:天/线上线下/学科

数据来源:客户管理系统的customer_relationship、itcast_clazz报名课程表

 

4.4.3  总报名量

说明:统计期内,已经缴费的报名客户总量。

展现:数值。

条件:年、月

维度:年、月

指标:报名客户总量

粒度:天

数据来源:客户管理系统的customer_relationship表 

 

4.4.4  线上报名量

说明:总报名量中来源渠道为线上访客渠道的报名总量

展现:线状图。

条件:年、月

维度:天区间,按查询条件来定

指标:报名客户总量

粒度:天

数据来源:客户管理系统的customer_relationship表

4.4.5   意向用户报名转化率

说明:统计期内,新增的意向客户中报名的客户占比。全部报名人数/全部新增的意向人数

展现:线状图。双轴:全部报名人数、报名转化率。

条件:年、月

维度:天/线上线下

指标:报名转化率=全部报名人数/全部新增的意向人数

粒度:天

数据来源:客户管理系统的customer_relationship表 

 

4.4.6  有效线索报名转化率

说明:线上报名量/线上有效线索量,此处的线索量需要排除已申诉数据。

展现:线状图。双轴:线上报名人数、线上报名转化率。

条件:年、月

维度:天/线上线下

指标:线上报名转化率=线上报名人数/线上有效线索量

粒度:天

数据来源:客户管理系统的customer_relationship表、customer_clue表、customer_appeal表

 

4.4.7  日报名趋势图

说明:统计期内,每天报名人数的趋势图。

展现:线状图。

条件:年、月

维度:天/线上线下

指标:报名人数

粒度:天

数据来源:客户管理系统的customer_relationship表 

 

4.4.8  校区学科的报名学员TOP

说明:统计期内,全部报名学员中,校区学科排行榜,topN。A校区b学科第一,B校区a学科第二等等。

展现:柱状图

条件:年、月,校区,学科,数据量N

维度:天/线上线下 

指标:报名学员人数

粒度:各校区各学科的报名人数和

数据来源:客户管理系统的customer_relationship表、itcast_clazz表

 

4.4.9  来源渠道占比

说明:统计期内,全部报名学员中,不同来源渠道的报名学员占比情况。

展现:饼状图

条件:年、月

维度:天/线上线下/来源渠道

指标:比值

数据来源:客户管理系统的customer_relationship表 

4.4.10  咨询中心报名贡献

说明:统计期内,全部报名学员中,各咨询中心的报名学员人数占比情况。

展现:饼状图

条件:年、月,咨询中心

维度:天/线上线下/咨询中心

指标:报名学员人数

粒度:天/报名学员人数

数据来源:客户管理系统的customer_relationship表、employee表、scrm_department表

 

4.5  学生出勤看板

4.5.1  班级出勤人数

说明:统计指定时间段内,不同班级的出勤人数。打卡时间在上课前40分钟(否则认为无效)~上课时间点之内,且未早退,则为正常上课打卡。可以下钻到具体学生的出勤数据。跨天数据直接累加。

指标:出勤人数

维度:年、月、天

粒度:上午、下午、晚自习

条件:年、月

数据来源:教学实施与保障系统teach的course_table_upload_detail班级课表、tbh_student_signin_record学生打卡记录表、tbh_class_time_table班级作息时间表。

4.5.2  班级出勤率

说明:统计指定时间段内,不同班级的学生出勤率。可以下钻到具体学生的出勤数据。出勤率=出勤人数/当日在读学员人数。

指标:出勤率

维度:年、月、天

粒度:上午、下午、晚自习

条件:年、月

数据来源:教学实施与保障系统的course_table_upload_detail班级课表、tbh_student_signin_record学生打卡记录表、tbh_class_time_table班级作息时间表、class_studying_student_count班级在读学生人数。

4.5.3  班级迟到人数

说明:统计指定时间段内,不同班级的迟到人数。上课10分钟后视为迟到。可以下钻到具体学生的迟到数据。跨天数据直接累加。

指标:迟到人数

维度:年、月、天

粒度:上午、下午、晚自习

条件:年、月

数据来源:教学实施与保障系统的course_table_upload_detail班级课表、tbh_student_signin_record学生打卡记录表、tbh_class_time_table班级作息时间表。

4.5.4  班级迟到率

说明:统计指定时间段内,不同班级的学生迟到率。上课10分钟后视为迟到。可以下钻到具体学生的迟到数据。迟到率=迟到人数/当日在读学员人数。

指标:迟到率

维度:年、月、天

粒度:上午、下午、晚自习

条件:年、月

数据来源:教学实施与保障系统的course_table_upload_detail班级课表、tbh_student_signin_record学生打卡记录表、tbh_class_time_table班级作息时间表、class_studying_student_count班级在读学生人数。

4.5.5  班级请假人数

说明:统计指定时间段内,不同班级的请假人数。跨天数据直接累加。

指标:请假人数

维度:年、月、天

粒度:上午、下午、晚自习

条件:年、月

数据来源:教学实施与保障系统的student_leave_apply学生请假申请表、tbh_class_time_table班级作息时间表、course_table_upload_detail班级课表。

4.5.6  班级请假率

说明:统计指定时间段内,不同班级的学生请假率。可以下钻到具体学生的请假数据。请假率=请假人数/当日在读学员人数。

指标:请假率

维度:年、月、天

粒度:上午、下午、晚自习

条件:年、月

数据来源:教学实施与保障系统的student_leave_apply学生请假申请表、class_studying_student_count班级在读学生人数。

4.5.7  班级旷课人数

说明:统计指定时间段内,不同班级的旷课人数。跨天数据直接累加。旷课人数=当日在读学员人数-出勤人数-请假人数。

指标:旷课人数

维度:年、月、天

粒度:上午、下午、晚自习

条件:年、月

数据来源:教学实施与保障系统的course_table_upload_detail班级课表、tbh_student_signin_record学生打卡记录表、tbh_class_time_table班级作息时间表、student_leave_apply学生请假申请表。

4.5.8  班级旷课率

说明:统计指定时间段内,不同班级的学生旷课率。旷课率=旷课人数/当日在读学员人数。

指标:旷课率

维度:年、月、天

粒度:上午、下午、晚自习

条件:年、月

数据来源:教学实施与保障系统的course_table_upload_detail班级课表、tbh_student_signin_record学生打卡记录表、tbh_class_time_table班级作息时间表、student_leave_apply学生请假申请表、class_studying_student_count班级在读学生人数。

5.  项目技术架构

 

数据源:电咨、线下面授、在线教育等OLTP系统的数据,大多存储于mysql。

数据抽取:使用sqoop实现关系型数据库和大数据集群的双向同步。

数据存储:HDFS

数据清洗:数据的清洗、转换、统计分析等都是使用基于CM管理的Hive来进行的。

数据分析:数据的清洗、转换、统计分析等都是使用基于CM管理的Hive来进行的。

数据同步:使用sqoop实现关系型数据库和大数据集群的双向同步。

OLAP数据服务:采用常用的Mysql数据库。

6.  理解Cloudera Manager

6.1  产生的背景

6.1.1  Apache版本的大数据组件

Hadoop的原始版本为Apache的开源版本,在国内的使用非常多。

6.1.1.1  优点

l 完全开源,更新速度很快

l 大数据组件在部署过程中可以深刻了解其底层原理

l 可以了解各个组件的依赖关系

6.1.1.2  缺点

部署过程极其复杂,超过20个节点的时候,手动部署已经超级累

各个组件部署完成后,各个为政,没有统一化管理界面

组件和组件之间的依赖关系很复杂,一环扣一环,部署过程心累

各个组件之间没有统一的metric可视化界面,比如说hdfs总共占用的磁盘空间、IO、运行状况等

l 优化等需要用户自己根据业务场景进行调整(需要手工的对每个节点添加更改配置,效率极低,我们希望的是一个配置能够自动的分发到所有的节点上)

 

6.1.2  CDH版本大数据组件

正是为了解决Apache原生版本的各种缺陷,诞生了可以使用Cloudera Manager进行管理的CDH版本。CDH是Apache Hadoop和相关项目中最完整、最稳定的、经过测试和最流行的发行版。Cloudera Manager是用于管理CDH群集的B/S应用程序。

6.1.2.1  优点

统一化的可视化界面 自动部署和配置,大数据各类组件(hadoop、hive、hue、kudu、impala、zookeeper等)安装、调优极其便捷 零停机维护(免费版本不具有弹性升级)

多用户管理(权限控制)

l 稳定性极好(部分优化措施都已经调整好)

 

6.1.2.2  缺点

l server和agent需要占用额外的内存和cpu(server占用内存为2G,agent占用内存1G,总共cpu为0.5核)

linux常用命令需要了解颇深

hadoop的apache版本有一定的安装经验和调优经验

6.2  ClouderaManager介绍  

Cloudera Manager是用于管理CDH群集的B/S应用程序Cloudera Manager通过对CDH集群的每个部分提供细粒度的可视性和控制来设置企业部署的标准,使运营商能够提高性能,提高服务质量,提高合规性并降低管理成本。

使用Cloudera Manager,可以轻松部署和集中操作完整的CDH堆栈和其他托管服务(Hadoop、Hive、Spark、Kudu)。其特点:应用程序的安装过程自动化,将部署时间从几周缩短到几分钟; 并提供运行主机和服务的集群范围的实时监控视图; 提供单个中央控制台,以在整个群集中实施配置更改; 并集成了全套的报告和诊断工具,可帮助优化性能和利用率

6.3  ClouderaManager应用场景

l 适用于节点在5个以上的集群,小公司用到的服务较少时,为了节省服务器等资源,不需要部署cm。

l 适用于所有的专业大数据公司,这类企业的硬件资源一般都比较充足。

l 适用于运维工作较频繁的场景,使用apache版本的运维人员,对某一个组件进行调优配置,需要消耗半天的时间进行调整,效率极低;该平台安装好以后,维护工作相对来将就轻松许多。

 

补充: 

l cm在国内用户量很大,戴尔、一号店等知名公司都在使用

l cm在主流的大数据平台框架中,用户量比例很高

l cm的免费版本不支持弹性升级。

6.4  ClouderaManager架构

 

  1. Server:Cloudera Manager的核心是Cloudera Manager Server。提供了统一的UI和API方便用户和集群上的CDH以及其它服务进行交互,能够安装配置CDH和其相关的服务软件,启动停止服务,维护集群中各个节点服务器以及上面运行的进程。
  2. Agent:安装在每台主机上的代理服务。它负责启动和停止进程,解压缩配置,触发安装和监控主机
  3. Management Service:执行各种监控、报警和报告功能的一组角色的服务
  4. Database:CM自身使用的数据库,存储配置和监控信息
  5. Cloudera Repository:云端存储库,提供可供Cloudera Manager分配的软件
  6. Client:用于与服务器进行交互的接口,包含Admin ConsoleAPI

(1) Admin Console:管理员可视化控制台

(2) API:开发人员使用API可以创建自定义的Cloudera Manager应用程序

 

6.5  ClouderaManager功能

6.5.1  信号检测

默认情况下,Agent 每隔 15 秒 Cloudera Manager Server 发送一次检测信号。但是,为了减少用户延迟,在状态变化时会提高频率。

 

6.5.2  状态管理

模型状态捕获什么进程应在何处运行以及具有什么配置。

运行时状态是哪些进程正在何处运行以及正在执行哪些命令(例如:重新平衡HDFS或执行备份/灾难恢复计划或集群升级、停止)。

当更新配置(例如Hue Server Web 端口)时,相当于更新了模型状态。但是,如果 Hue 在更新时正在运行,则它仍将使用旧端口。当出现这种不匹配情况时,角色服务会标记为“过时的配置”。要重新同步,需重启角色服务(这会触发重新生成配置和重启进程)。

 

 

 

6.5.3  主机管理

Cloudera Manager 作为群集中的托管主机身份,可对JDK、Cloudera Manager Agent、CDH、Impala、Solr等所有软件角色的主机进行管理。

Cloudera Manager 提供添加和删除主机的操作。

Cloudera Management Service Host Monitor 角色执行状况检查并收集主机度量,可以监控主机的运行状况和性能。

 

 

6.5.4  进程启停

Cloudera Manager管理的群集中,只能通过 Cloudera Manager 启动或停止服务Cloudera Manager 支持自动重启崩溃进程。如果一个角色实例在启动后反复失败,Cloudera Manager 还会用不良状态标记该实例。

 

特别需要注意的是,停止 Cloudera Manager 和 Cloudera Manager Agent 不会停止群集;所有正在运行的实例都将保持运行。

6.5.5  监控管理

 

Activity Monitor:收集关于MapReduce服务运行的活动的信息。默认情况下不添加此角色。

Host Monitor:收集有关主机的运行状况和指标信息。

Service Monitor:从YARN服务中收集关于服务和活动信息的健康和度量信息。

Event Server:聚合组件的事件并将其用于警报和搜索。

Alert Publisher :为特定类型的事件生成和提供警报。

Reports Manager:生成图表报告。

 

7.  使用Cloudera Manager虚拟机

节点

内存

CPU

硬盘

hadoop01

12G

4

50

hadoop02

3G

2

50

hadoop03

1G

1

50

 

压缩包在【Home\资料\三台环境】目录下,使用步骤:

7.1  先设置win10网络配置

7.1.1  设置网络共享

 

7.1.2  设置VM8网络连接的IP

 

 

 

7.2  设置VMware虚拟机网络

 

 

 

 

 

 

 

7.3  设置时钟同步

详见【Home\讲义\1章 项目介绍\时钟同步】

 

7.4  打开虚拟机

解压后,直接使用VMware打开三台虚拟机即可。

 

 

注意如果出现【我已移动】或【我已复制】,不能默认,必须选择【我已移动】,否则需要重新解压并启动。

 

7.5  关机

使用完毕后,通过[shutdown -h now]命令来关闭服务器,不要挂起或强行断电。

 

版权声明:本文为shan13936原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/shan13936/p/14034129.html