1月 | 2016 | Oceanbase列传

利用Bash脚本管理distcc集群

distcc介绍

对于大型C/C++项目，编译时间往往长到无法忍受，而冒然的增加make并发度则有可能由于gcc吃光内存而把机器搞死，因此我们期望能够使用多台机器并行编译项目。distcc是一个分布式编译程序，它包含客户端distcc，和服务器端distccd两个程序，distccd是一个守护进程，绑定在由命令行参数指定的端口上，接收distcc的编译请求，执行编译任务。

一个简单的使用方式是，在多台编译机上启动distccd，在客户端通过环境变量指定多个编译机的ip地址和端口号，然后使用distcc替换gcc编译项目。由于distcc自身实现的问题，编译失败或者make过程中途终止，可能会使得编译机上的distccd的工作进程僵死，因此运行一段时间后，可能出现大部分编译机上的distccd进程都变得不可用。并且编译机出现异常后也不能被distcc发现，而往往是网络连接超时后，才能去重试其他编译机。

为了解决上述问题，我开发了一套简单的bash脚本（distccMgr），通过单点监控所有编译机的健康状态，来实时生成可用的编译机列表，并可以通过下发命令来定时或立即重启编译机上的distccd进程。distccMgr本身不需要启动任何守护进程，而是通过crontab来定时保持心跳，通过ssh远程执行命令来实现心跳通信。

使用distccMgr集中化管理distcc编译机

下载代码（https://github.com/kayaklee/distccMgr）

git clone git@github.com:kayaklee/distccMgr.git

管理节点部署

修改配置文件
SUDO="sudo" #执行sudo的命令前缀，比如美团的就是"sudo -iusankuai sudo"
MASTER_ADDR=`hostname -i` #管理节点的ip地址

MASTER_USER=$USER #管理节点的运行账户，需要保证与编译节点的运行账号相互打通
MASTER_PORT=8899 #管理节点开启http服务的端口号
DISTCCD_PORT=8898 #编译节点启动distccd服务的端口号

DISTCC_DIR=$HOME/share/distcc #管理节点监控脚本的部署目录
MASTER_DIR=$HOME/share/distcc/resource #管理节点资源目录，用于给编译节点提供http下载服务
SLAVE_DIR=$HOME/distccd #编译节点部署distccd的目录

运行部署命令
./deploy.sh 
部署成功后
1. 会在crontab中建立两个定时任务
2. 会在本地生成cmd目录，生成slave_deploy.sh和distcc_install.sh，其中slave_deploy.sh中是编译机的部署命令，distcc_install.sh是安装distcc的命令

编译节点部署

1. 在每台编译机上执行slave_deploy.sh
2. 在管理节点的$DISTCC_DIR目录中的iplist中增加编译节点的ip地址

客户端部署

1. 运行distcc_install.sh安装distcc，成功后会增加定时任务更新最新的编译机列表到/tmp/udistcc
2. 每次make前source /tmp/udistcc

命令所有编译机重启distccd进程

在管理节点上touch /tmp/restart_distcc

Oceanbase列传

分布式与存储技术

月度归档：2016年01月

架构师需要了解的Paxos原理、历程及实战

利用Bash脚本管理distcc集群

利用Bash脚本管理distcc集群

distcc介绍

使用distccMgr集中化管理distcc编译机