Archive for the ‘SystemMaintenance’ category

nagvis安装过程

July 29th, 2010

整个过程相当郁闷,主要是卡在不明白ndomod是干嘛用的了。从3点折腾到现在。。。

整个工作原理是,在nagios中加载ndomod模块,然后ndomod读取nagios的状态信息,写入到一个socket,ndo2db再读取这个socket,把数据写入到mysql里面。然后nagvis来读取数据库中的内容,生成相应的图片标志,等等等。。。

记录一下几个需要注意的点:
1,nagvis安装很简单,用install.sh就ok了,不需要自己 一步一步装,安装时候,由于我的nagios和ndoutils都是通过rpm包装的,因此需要指定一下路径,否则找不到这两个命令,用如下命令就ok了。
#./install.sh -m /usr/sbin/ndo2db -B /usr/sbin/nagios

2,这点比较二,我也用yum安装的ndoutils不行,缺少ndomod-3x.o文件,带的那个ndomod.o加载不到nagios中去,这点只好去编译源代码了。下载ndoutils
#wget http://prdownloads.sourceforge.net/sourceforge/nagios/ndoutils-1.4b9.tar.gz
编译的时候加上–enable-mysql,然后拷贝ndomod-3x.o到一个目录。

3,一定不要忘记在nagios配置文件中加入下面这一行
broker_module=/usr/local/nagvis/lib/ndomod-3x.o config_file=/etc/nagios/ndomod.cfg
重启nagios,就ok了。

Nagios&NagiosQL迁移

July 21st, 2010

本来以为挺简单,30分钟内必然搞定,结果折腾了近1个多小时。。。呵呵。。。

主要是忘记装plugins包的原因,颇是郁闷,不过在Google的过程中,找到一些其他好东西,咔咔。。。继续折腾。

puppet相关文档搜集

July 14th, 2010

puppet

July 2nd, 2010

puppet的确不错的说。计划折腾一下,用到我这儿的环境中。

简单、易用,貌似是比Cfengine好用些,呵呵。

VMware 2.x

June 23rd, 2010

日日日。。。我恨死VMware 2.x这个版本了。。。。

我要马上回到1.x时代!

用了nagiosql来管理nagios

June 23rd, 2010

安装过程还是比较简单的,参考官方文档即可。唯一要注意的就是权限设置必须正确,权限设置这儿参考这个链接:
http://www.nagiosql.org/faq/31-general-documentation/71-nagiosql3-documentation.html#Download

另外就是要注意,当你使用了nagiosql来管理nagios的时候,如果你再在命令行下重启nagios,那么产生的nagios.cmd文件,还恢复到了原有的权限,需要再改一下,才能再次在web界面发送重启命令。这点比较郁闷,还不知道哪儿可以解决。

MySQL NDB Cluster

December 14th, 2009

废话不多说,贴个命令以及回显。这种架构很不错!!应该找个机会在生产环境中跑跑。。。

fb00# ndb_mgm -e SHOW
Connected to Management Server at: 172.20.6.200:1186
Cluster Configuration
———————
[ndbd(NDB)]    2 node(s)
id=2    @172.20.6.201  (Version: 5.4.3, Nodegroup: 0, Master)
id=3    @172.20.6.202  (Version: 5.4.3, Nodegroup: 0)

[ndb_mgmd(MGM)]    1 node(s)
id=1    @172.20.6.200  (Version: 5.4.3)

[mysqld(API)]    2 node(s)
id=4    @172.20.6.203  (Version: 5.4.3)
id=5    @172.20.6.204  (Version: 5.4.3)

ZFS实际压缩情况

December 2nd, 2009

原始数据共210GB,数据类型各种都有。

root@# df -hl /data/e /backup/
Filesystem                 Size  Used Avail Use% Mounted on
data/e                         1.8T  132G  1.7T   8% /data/e
rpool/backup          1.8T   86G  1.7T   5% /backup

数据大小都是一样的,data/e用lzjb压缩,rpool/backup用了gzip-9压缩。
由此可以看出,如果对一些一次写入,然后访问不频繁的数据,采用gzip-9更能节约硬盘空间。
非常适合备份数据,在目前一块SATA硬盘2TB的背景下,ZFS+Amanda或Bacula,磁带机是不是可以退休了?

今天碰到的2个问题

November 20th, 2009

1,GRUB引导的分区最大不能超过2TB。
是设计本身的限制,暂时还没办法。比较郁闷,恰好我的根分区超过了2TB。

2,queue minfree limit is now 1.5 * message size limit.
在设置message_size_limit的时候,不要盲目的设置过大,否则在磁盘剩余空间(这儿特指邮件队列所在的分区)小于1.5*message_size_limit的时候,日志会报错。

Ganglia的XML解析出错

November 18th, 2009

在使用Ganglia的过程中,发现偶尔会发生如下错误,大约每天几次,无规律可循。

Nov 13 10:01:48 labmonitor /usr/local/ganglia/sbin/

gmetad[24866]: Process XML (BJQA1): XML_ParseBuffer() error at line 1078: not well-formed (invalid token)
一旦出现这个错误,就会导致gmetad进程死掉,web程序不能再读取到相关xml数据,僵死在哪儿,当然图片也就不能正常生成,导致图片变的断断续续的,重启gmetad后可恢复。不知道是啥原因,问了官方maillist也没给出解决方案,于是自己搞了个Workaround办法。。。如下:
[root@labmonitor ~]# crontab -l
* * * * * /bin/sh /root/bin/gmetad_restart.sh >/dev/null 2>&1
[root@labmonitor ~]# cat /root/bin/gmetad_restart.sh
#!/bin/sh

if tail -1 /var/log/messages | grep ‘not well-formed’ ; then
/sbin/service gmetad restart
echo `date ` gmetad restart >> /var/log/messages
fi

临时解决了这个问题,继续期待官方的Solution!