CMDB与自动化运维,一切尽在掌握中?

2019-05-25 20:10 by 繁花血月过后, 阅读, 评论, 收藏, 编辑

生产力跟不上生产的速度时,就会出现很多问题,如何针对问题进行处理,制定什么样的计划,如何解决就是需要思考的难点?

一、IT运维有哪些呢?

         IT运维涉及的领域比较多,有参与到机房idc服务器管理和维护的系统运维,有对网络进行管理和维护的,也有对系统上运行的业务进行管理和维护的,总的来说就是工作内容较多,而且繁杂,没有较为准确的范围.大致分为软件运维,硬件运维也叫系统运维,网络运维,也不是在这么的准确大家都是这么称呼.硬件运维呢主要包括对基础设施的运维,比如机房的设备,主机的硬盘,内存这些物理设备的维护;软件运维主要包括系统运维和应用运维,系统运维主要包括对OS,数据库,中间件的监控和维护,这些系统介于设备和应用之间;应用运维主要是对线上业务系统的运维.

这里讨论的主要是软件运维的自动化,包括系统运维和应用运维的自动化.

二、传统运维的痛点

日常工作繁琐

日常运维工作是比较繁琐的,研发同学会经常需要到服务器上查日志,重启应用,或者是说今天上线某个产品,需要部署下环境。这些琐事是传统运维的大部分工作.

应用运行环境不统一

在部署某应用后,应用不能访问,就会听到开发人员说,在我的环境运行很好的,怎么部署到测试环境后,就不能用了,因为各类环境的类库不统一,还有一种极端情况,运维人员习惯不同,可能凭自己的习惯来安装部署软件,每种服务器上运行软件的目录不统一

运维及部署效率低下

想想运维人员需要登陆到服务器上执行命令,部署程序,不仅效率很低,并且非常容易出现人为的错误,一旦手工出错,追溯问题将会非常不容易

无用报警信息过多

经常会收到很多报警信息,多数是无用的报警信息,造成运维人员经常屏蔽报警信,另外如果应用的访问速度出了问题,总是需要从系统、网络、应用、数据库等一步步的查找原因.

资产管理和应用管理混乱

资产管理,服务管理经常记录在excel、文本文件或者wiki中,不便于管理,老员工因为比较熟,不注重这些文档的维护,只有靠每次有新员工入职时,资产才能够更正一次

三、自动化运维平台的特性

针对传统运维的痛点,我们可以知道自动化运维需要支持哪些功能?运维自动化最重要的就是标准化:

1.一切OS的选择统一化,同一个项目使用同样的OS系统部署其所需要的各类软件

2.软件安装标准化,例如JAVA虚拟机,php,nginx,mysql等各类应用需要的软件版本,安装目录,数据存放目录,日志存放目录等

3.应用包目录统一标准化,及应用命名标准化

4.启动脚本统一目录和名字,需要变化的部分通过参数传递

5.配置文件标准化,需要变化的部分通过参数传递

6.日志输出,日志目录,日志名字标准化

7.应用生成的数据要实现统一的目录存放

8.主机/虚拟机命名标准化,虚拟机管理使用标准化模板

使用docker比较容易实现软件运行环境的标准化

四、我们需要的自动化管理的工具叫什么?——资产管理系统(CMDB)

CMDB是所有运维工具的数据基础

五、CMDB包含的功能

用户管理,记录测试,开发,运维人员的用户表

业务线管理,需要记录业务的详情

项目管理,指定此项目用属于哪条业务线,以及项目详情

应用管理,指定此应用的开发人员,属于哪个项目,和代码地址,部署目录,部署集群,依赖的应用,软件等信息

主机管理,包括云主机,物理机,主机属于哪个集群,运行着哪些软件,主机管理员,连接哪些网络设备,云主机的资源池,存储等相关信息

主机变更管理,主机的一些信息变更,例如管理员,所属集群等信息更改,连接的网络变更等

网络设备管理,主要记录网络设备的详细信息,及网络设备连接的上级设备

IP管理,IP属于哪个主机,哪个网段, 是否被占用等

六、CMDB实现的四种方式

(1)Agent脚本实现方式

Agent方式,指的是agent的脚本里写入了需要执行收集信息的命令,并把agent脚本部署到需要收集信息的服务器上时,将服务器上面的Agent程序作定时任务,定时将资产信息提交到指定API,然后录入数据库.其本质上就是在各个服务器上执行subprocess.getoutput()命令,然后将每台机器上执行的结果,返回给主机API,然后主机API收到采集的数据后,放入到数据库中,最终通过web界面展现给用户.

 

服务器部署agent脚本进行数据采集

优点:速度快

缺点:需要为每台服务器部署一个Agent程序

应用场景:大公司、服务器数量多

(2)ssh实现方式(基于Paramiko模块)

部署一台中控机,然后通过python的Paramiko(py模块),此模块时基于ssh模式实现的远程登陆,当登录到各个服务器上后,就可以执行使用命令的方式去获取各个服务器上的需要采集的信息.

 
paramiko模块进行ssh登陆执行cmd采集信息

优点:不需要使用Agent脚本

缺点:速度慢

应用场景:适合服务器较少的环境

import paramiko

# 创建SSH对象

ssh = paramiko.SSHClient()

# 允许连接不在know_hosts文件中的主机

ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())

# 连接服务器

ssh.connect(hostname=’c1.salt.com’, port=22, username=’root’, password=’123′)

# 执行命令

stdin, stdout, stderr = ssh.exec_command(‘df’)

# 获取命令结果

result = stdout.read()

# 关闭连接

ssh.close()

(3)salt-stack 方式

此方案本质上和第二种方案大致是差不多的流程,部署好salt-master中控机后,由salt-master服务器向其他的salt-minion服务器(即salt的slave)发送命令进行数据采集,salt-minion服务器将返回的采集数据的结果放入 Q消息队列中,再将结果返回给salt-master中控机上,中控机再将获取的服务信息发送到API,然后放入到数据库。

 

slat-stack(master&slave)方式进行自动化控制采集数据

优点:快,开发成本低

缺点:依赖于第三方工具

应用场景:适合于公司一开始就使用这种方式,比较推荐

安装以及配置

# master 端

# 1.安装

salt-masteryum install salt-master

# 2.修改配置文件

vim /etc/salt/masterinterface: 172.19.102.103# 表示master的ip

# 3.启动

systemctl start salt-master

—————————————————————————————————————————-

# slave 端

# 1.安装

salt-minionyum install salt-minion

# 2.修改配置文件

vim /etc/salt/minionmaster:  172.19.102.103 # 表示master的ip

# 3.启动

systemctl start salt-minion

# 查看是否启动ps aux |grep salt-masterps aux |grep salt-minion

授权

salt-key -L                # 查看已授权和未授权的

slavesalt-key -a  salve_id      # 接受指定id的

salvesalt-key -r  salve_id      # 拒绝指定id的

salvesalt-key -d  salve_id      # 删除指定id的salve

执行命令

# 授权成功后,主机(master)可以对 “奴隶机”(slave)进行远程操作

# * 表示所有奴隶机salt ‘*’ cmd.run ‘ifconfig’

基于API的方式

import salt.client

local = salt.client.LocalClient()

result = local.cmd(‘c2.salt.com’, ‘cmd.run’, [‘ifconfig’])

以上时自动化的整体的需求分析和思路梳理,最终的落地和执行,需要整个开发team共同努力,相关的code,就需要自行动手搞起来了,加油小伙伴们.

注:文章如有疑问或错误之处,请留言评论指出,必将学习之.

版权声明:本文为jokej原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/jokej/p/10923718.html