云计算之路-阿里云上：docker swarm 集群再次出现故障

cmt 2018-03-15 原文

非常非常抱歉！16:30 ~ 17:00 左右我们用于跑 ASP.NET Core 站点的 docker swarm 集群再次出现宕机，由此给您带来了很大很大的麻烦，恳请您的谅解！

受此次故障影响的站点有：博问，闪存，班级，园子，短信息，招聘，小组，网摘，新闻，openapi

故障的经过是这样的。

一开始只是访问时偶尔出现 503 ，然后 503 逐渐增多。登录到集群的各个节点，发现有节点 ssh 登录响应慢，登录进去后执行 docker 命令也慢，于是将这个节点下线并重启，但是这样操作后又有新的节点出现这个问题。。。然后越来越多的节点出现这个问题，造成全面 503 。

发现重启节点服务器不凑效，我们立即选择了重建集群，这本来每次都管用的一招，这次竟然失灵。

swarm1-node1 这个节点通过 docker swarm leave –force 命令强制退出已有集群，重新创建新的集群，并只部署了 docker-proxy-flow 路由容器。

docker swarm init --advertise-addr $(ip address | grep -oP "10\.[^/]+(?=/)")
docker network create --driver overlay cnblogs --subnet 10.128.0.0/16
docker network create --driver overlay proxy  --subnet 10.129.0.0/16
cd docker-flow-proxy
./deploy-prod.sh

watch 'docker stack ps proxy'

这时没有部署其他应用容器，以免一部署把这个节点压垮，而是将其他节点一一加入集群，但是加集群时傻眼了，出现下面的错误，无法加入。

# docker swarm join --token SWMTKN-1-2tzw5t53lzek5anyv163pc932zfrv1knkbzkxz9vg76uvsx5mz-3rw8fxa7sjbsf9hp55ycvmqxb 10.0.1.7:2377
Error response from daemon: rpc error: code = Unavailable desc = grpc: the connection is unavailable

更恐怖的是所有其他节点都因为同样的问题无法加入集群，不管是 manager 节点，还是 worker 节点。

在当时情急、愧疚、慌乱、无助。。。各种情绪的混杂之下，想到了最后一招，换另外一台服务器重建集群，结果一切正常，很快完成了整个集群的重建，恢复了正常。

用了 5 个 manager 节点，docker swarm 集群竟然还是如此不稳定，这是我们未曾料到的。目前我们需要先仔细分析，然后再评估接下来的应对措施。

再次请您谅解由此给您带来的麻烦！

版权声明：本文为cmt原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/cmt/p/8574851.html

云计算之路-阿里云上：docker swarm 集群再次出现故障的更多相关文章

Docker版本
Docker版本第一次接触到安装docker的时候，网上的安装有 lxc-docker, docker- […]...
K8S节点异常怎么办？TKE”节点健康检查和自愈”来帮忙
节点健康检测意义在K8S集群运行的过程中，节点常常会因为运行时组件的问题、内核死锁、资源不足等各种各样的原 […]...
微服务架构 – 巧妙获取被墙的Docker镜像
在国内由于种种原因，有些Docker镜像直接是获取不到的，特别是k8s中的一些镜像。本人在部署k8s中的hel […]...
在 Minecraft 中管理 Kubernetes 集群
原文链接：在 Minecraft 中管理 Kubernetes 集群微软 2015 年收购 Minecraf […]...
《Selenium自动化测试实战:基于Python》之 Python与Selenium环境的搭建
《Selenium自动化测试实战:基于Python》之 Python与Selenium环境的搭建第2章 P […]...
Helm 架构 – 每天5分钟玩转 Docker 容器技术（161）
在实践之前，我们先来看看 Helm 的架构。 Helm 有两个重要的概念：chart 和 release。 c […]...
docker 构建php-fpm IMages(dockerfile)
docker 构建php-fpm IMages(dockerfile) 好久没写blog 做什么？ […]...
Docker 镜像、容器、仓库
Docker的一些概念 docker image docker镜像即容器模板，操作系统+软件运⾏环境 […]...

随机推荐

Jquery(一) 初识Jquery，简单使用Jquery。
一、什么是Jquery? 　　　　　　其实超级简单，不要把它想的太难了，Jquery就是一个js(javasc […]...
MateBook14一个多月的使用体验(开发向)
MateBook14一个多月的使用体验(开发向) 我的MateBook是2020年9月17号到我手里的。我买 […]...
matlab 【离散时间信号与系统的频域分析】
%abs X = -9; Y = abs(X) %angle %功能:该函数用来计算复数的相角 X= 1+2j […]...
51单片机的中断和定时器、计数器
中断使得高低速设备可以协调工作（低速设备完成工作后通过中断的方式通知高速设备一次处理一批数据），中断还可以根据 […]...
阿里云centos部署vue+node(express)+mysql，超详细
本人最近刚搞了个小小小网站，发布到了阿里云，在百度查找了多方资料，然而很可惜，没有一个可以让我一路安装的，总是 […]...
指针理解——指针数组、数组指针、指针函数、函数指针
一个存在已久的谣言源码 #include <stdio.h> int main() { int […]...
如何使用域名访问自己的Windows服务器（Java web 项目）
如何使用域名访问自己的Windows服务器（Java web 项目）写在前面前段时间在阿里云弄了个学生服务 […]...
Mac 下两款 Markdown 编辑器 Mou/MacDown 大 PK
　　Mou 和 MacDown 是我在 Mac 下用过的两款优秀的 Markdown 编辑器。之前一直使用的是 […]...

展开目录

目录导航