织云 Metis:看腾讯怎么做智能运维
作为企业智能运维门户,业界早已关注织云的智能运维体系。我们很荣幸地宣布织云 Metis 智能运维体系正式发布。自此,织云家族已发布:织云企业版,织云社区版(Lite),织云 Metis 智能运维。企业版和社区版区别请戳。
Metis 是腾讯内部落地实践的智能运维场景的集合,具备多种核心能力,如智能监控、智能分析、智能决策等。这些核心能力已在多元化、多样化的运维场景中得到落地实践。Metis 是从腾讯QQ、Qzone 等海量业务的一体化运维体系中孵化产生的,是织云 AIOps 的最佳实践。
织云 Metis 应用场景
业务高质量保障
利用机器学习技术,进行异常检测、故障定位、瓶颈分析等,可在无人工干预下,智能地保障业务高质量运行。例如时间序列异常检测、DLP 生死指标监控、多维下钻、关联分析、ROOT 根源分析等场景都是Metis在质量保障方面的典型应用。
运维效率提升
利用自然语言处理、机器学习技术,深挖智能问答、智能变更、智能决策,显著地提升运维人员的效率。例如智能客服机器人、舆情监控、智能负载均衡、数据库调参、极限调度等场景都是 Metis 在提升运维效率上的典型应用。
成本优化管理
利用大数据智能分析技术,进行资源(设备、带宽、存储)管理,可迅速分析资源使用的明细,并通过横向大数据对比挖掘可优化点。织云团队在 GOPS2018 全球运维大会–腾讯运维体系专场分享的《十亿元背后的价值》中概括了Metis成本管理挖掘的众多优化项。
织云 Metis 智能化优势
智能分析决策, 取代繁琐重复的人工诊断
在日常运维过程中,运维人员积累了大量的人工经验,同时大部分故障都是重复的、需人工定位的。重复性的分析会损耗人力,而且人工确认存在滞后性。织云Metis可以把丰富的运维经验固化下来,对常见问题实现分钟级内自动诊断,可直接给出故障定位的结果信息。
- 对于已知的故障:织云 Metis 能够综合故障数据和人工经验自动提取故障特征,以故障特征库的形式,自动匹配定位故障;
- 对于未知场景:织云 Metis 可根据故障特征推算出可能的原因,并在人工确认后加入故障特征库。
智能精准预测,取代人工粗略预估
为了保障产品的正常运营,容量预留过多或过少都会存在一些问题。而传统的基于运维经验容量预测手段不是十分有效,织云 Metis 根据业务目标的需求,结合服务数据,整合业务运维人员的业务经验,建立精准容量规划模型,从而精确预测各个业务的容量,让资源使用率达到最优。
开放预约体验–时间序列异常检测
时间序列异常检测是 Metis 组成部分之一,承载了海量业务的监控告警功能。其优越性体现在三点:
无阈值智能判决
运维人员无需设置告警阈值,检测模型可对数据异常智能判决,直观告诉大家检测结果是正常还是异常;
通用检测模型
智能检测的模型由海量的业务样本数据训练而成,适合复用在时间序列类数据的检测中;
可成长业务反馈
实践过程中也会遇到较个性的业务场景,这里支持用户标注反馈检测结果,异常检测系统可以自动化地根据用户反馈信息进行进阶学习、优化模型,加强对业务的理解,变得越来越懂业务。
立即预约
织云 Metis–时间序列异常检测诚邀您体验智能运维场景。
问答相关阅读
此文已由作者授权腾讯云+社区发布,原文链接:https://cloud.tencent.com/developer/article/1114222?fromSource=waitui