一. 日志分析及管理
1. 日志的功能
用于记录系统、程序运行中发生的各种事件
通过阅读日志,有助于诊断和解决系统故障
2. 日志文件的分类
内核及系统日志
由系统服务syslog统一进行管理,日志格式基本相似
用户日志
记录系统用户登录及退出系统的相关信息
程序日志
由各种应用程序独立管理的日志文件,记录格式不统一
- 日志保存位置
默认位于:/var/log 目录下
- 主要日志文件介绍
内核及公共消息日志:/var/log/messages
计划任务日志:/var/log/cron
系统引导日志:/var/log/dmesg
邮件系统日志:/var/log/maillog
用户登录日志:/var/log/lastlog 、/var/log/secure 、/var/log/wtmp 、/var/run/utmp
- 由系统服务 syslogd 统一管理
软件包:sysklogd-1.4.1-39.2
主要程序:/sbin/klogd 、/sbin/syslogd
配置文件:/etc/syslog.conf
- 日志消息的级别
0 EMERG (紧急):会导致主机系统不可用的情况
1 ALERT (警告):必须马上采取措施解决的问题
2 CRIT (严重):比较严重的情况
3 ERR (错误):运行出现错误
4 WARNING (提醒):可能会影响系统功能的事件
5 NOTICE (注意):不会影响系统但值得注意
6 INFO (信息):一般信息
7 DEBUG (调试):程序或系统调试信息等
- 分析工具
who 、w 、user 、last 、ac ,下面是who的显示结果分析
aa tty1 2010-07-04 22:54 虚拟终端1
root :0 2010-07-04 13:00 桌面
root pts/1 2010-07-04 13:01 (:0.0) 远程连接1(已断开)
root pts/2 2010-07-04 13:02 (:0.0) 远程连接2
root pts/3 2010-07-04 22:07 (192.168.1.123) 远程连接(连接状态)
- 程序日志分析
由相应的应用程序独立进行管理
Web 服务:/var/log/httpd/
p access_log、error_log
代理服务:/var/log/squid/
p access.log、cache.log、squid.out、store.log
FTP 服务:/var/log/xferlog
……
分析工具
文本查看、grep 过滤检索、Webmin 管理套件中查看
awk 、sed 等文本过滤、格式化编辑工具
Webalizer 、Awstats 等专用日志分析工具
二. 修复MBR 扇区故障
故障原因
病毒、***等造成的破坏
不正确的分区操作、磁盘读写误操作
故障现象
找不到引导程序,启动中断
无法加载操作系统,开机后黑屏
解决思路
应提前作好备份文件
以RHEL5 安装光盘引导进入急救模式
从备份文件中恢复
三. 修复GRUB 引导故障
故障原因
MBR 中的GRUB 引导程序遭到破坏
grub.conf 文件丢失、引导配置有误
故障现象
系统引导停滞,显示“grub>” 提示符
解决思路
尝试手动输入引导命令
进入急救模式,从备份中恢复 grub.conf
向MBR 扇区中重建grub 程序
四. 遗忘root 用户的密码
故障原因
遗忘root 用户的密码
故障现象
无法进行需要root 权限的管理操作
若没有其他可用帐号,将无法登录系统
解决思路
引导进入单用户模式,然后重设密码
p grub > kernel ... single 或 s 或 1
或进入急救模式,然后重设密码
五. 软件包类故障 —— rpm 数据库损坏
故障原因
非正常关机、误删除运行中的程序文件
RPM 数据文件被误写或删除
故障现象
不能正常查询rpm 包信息
无法安装、升级或卸载软件包等
解决思路
重建RPM 数据库
p rpm --rebuilddb 或 rpm --initdb
六. 软件包类故障 —— 缺少*.so 类文件
故障原因
软件正常运行所需要的依赖包没有安装
系统找不到依赖包的 *.so 共享链接库
故障现象
无法正常编译、安装或运行软件
报错提示“缺少... .so 文件”
解决思路
确认已安装能提供相应 *.so 共享库的软件包
添加库文件搜索路径,并更新缓存
七. 修复损坏的文件系统
故障原因
非正常关机、突然断电、设备读写失误等
文件系统的超级块(super-block )信息被破坏
故障现象
无法向分区中读取或写入数据
启动后提示“Give root password for maintenance”
解决思路
根据提示输入root 口令,进入修复状态
使用fsck 命令进行修复
八. 磁盘资源耗尽故障
故障原因
磁盘空间已被大量的数据占满,空间耗尽
虽然还有可用空间,但文件数i 节点耗尽
故障现象
无法写入新的文件,提示“… : 设备上没有空间”
部分程序无法运行,甚至系统无法启动
解决思路
清理磁盘空间,删除无用、冗余的文件
转移或删除占用大量i 节点的琐碎文件
进入单用户模式、急救模式进行修复
为用户设置磁盘配额
九. 无法卸载已挂载的设备
故障原因
需要卸载的设备正在被使用
故障现象
无法卸载设备,提示“... device is busy”
解决思路
将工作目录切换到挂载点以外
退出正在使用该设备的程序
或使用fuser 命令找出相关进程,并终止该进程
十. 检测硬盘中的坏道
故障原因
磁盘设备中存在坏道(逻辑的或物理的)
故障现象
部分文件无法正常访问,提示文件损坏
新建立的分区无法完成格式化
访问磁盘设备时死机,磁盘发出异常声响
解决思路
检测硬盘中是否存在坏道
p mkfs -t ext3 -c /dev/sdb1 或 badblocks -sv /dev/sdb1
修复硬盘,或更换新的硬盘
十一. 系统性能监控
1. 查看CPU 负载
执行uptime 命令
运行时间,登录用户数,CPU 平均负载
查看/proc/loadavg 文件
CPU 平均负载,活动进程数/ 总数,最近进程的PID
2. 查看内存使用情况
vmstat 命令
报告系统虚拟存储使用情况,包括内存使用信息
free 命令
显示系统的物理内存和交换空间的使用情况
3. 磁盘I/O 性能监控
iostat 命令
a) 用于查看系统磁盘I/O 统计信息
b) 由软件包sysstat-7.0.0-3.el5.i386.rpm 提供
sysstat还提供了 mpstat 命令,用于显示进程负载信息