
【摘 要】 设备单磁阵硬盘故障导致整个磁阵存储失效,导致SCP与数据库库连接失败,智能业务触发业务阻塞,故障处理过程及故障原因进行分析。
【关键词】 智能网 签约 SCP 数据库 连接
1 告警信息及影响范围
08:00智能网平台SCP设备CP过负荷,告警属二级告警,智能网平台的SCP1与数据库连接状态正常,无异常告警,现场设备状态检查及设备运行指示灯正常,无告警指示,经测试影响部分用户做被叫接续,后续处理过程中影响5万用户业务使用。
2 处理过程
(1)经测试发现到一号通及彩铃的呼损越来越多,考虑到严重影响业务,基本处于业务全阻状态,在SCP设备上用ROOT用户执行su-zxin10命令,系统无响应。
(2)查看系统发现有异常多归属zxin10用户的进程,正常运行时系统只有20个左右,但当时观察到有数百个。使用root用户执行强制停止并重启双机的命令,停止后双机无法启动。重启SCP1后双机仍无法正常启动,操作过程中观察到SCP2设备自行重启。
(3)查看设备运行状态,与其连接磁阵设备无任何指示灯告警。多次尝试SCP设备和数据库进行重新挂接均失败,重新启动SCP后与数据库挂接仍旧失败,智能网平台所带业务全部中断,影响同振、一号通、彩铃业务正常使用,用户不能做被叫或彩铃不能正常播放,大约影响5万用户业务使用。
(4)多次尝试SCP设备和数据库进行重新连接均出现失败,中兴公司据此判断可能HP磁盘阵列原因导致连接失败,同时发现sybase数据库无法正常启动,建议检查磁阵。
(5)检查与SCP连接的HP-DS240设备,分析设备运行log日志,发现DS2405的1块硬盘有报错,vgsybase无法激活,与SCP无法挂接判断原因一致。
1)/var/opt/resmon/log/event.log中DS2405 slot3槽位的硬盘c4t2d0每天在23:00-24:00左右报一次错,无影响业务。
2)/var/cmcluster/zxin10/zxin10.cntl.log 有业务进程IO报警进入sleeping状态,错误信息逐步累积,严重影响CP过负荷以致影响部分业务,直到6月4日早上,导致过多的进程占用了CPU和内存资源,系统临近崩溃。
(6)判断出故障后决定更换设备硬件,停业务更换了故障硬盘,存储恢复。业务可以在备机SCP2上正常启动,SCP2与HP-DS2405存储恢复访问,业务恢复。
(7)SCP1挂接数据库仍然失败,中兴及惠普工程师对SCP1与数据库连接失败原因分析,最终确定系统文件cron.allow文件丢失导致失败,重新装载数据后恢复正常,SCP2与HP磁阵正常连接。
3 原因分析
3.1 磁阵一块硬盘故障影响整个存储系统分析
HP-DS2405的一块硬盘导致存储访问异常进行了简单的分析,DS2405是低端存储,使用Arbitrated loop或Private Loop仲裁环。这种拓扑的特点是“串行”的,即所有的设备都串在这个环上,同时只有2个port可以通信,而且只有抢到“仲裁权”的port可以通信。这是一种低级别的拓朴,缺点是如果同一个loop上的一个设备损坏,其他设备就受到影响。
DS2405设备每1块硬盘盘实际上都是这个Loop上的1个设备。此次硬盘故障怀疑是硬盘故障点影响了仲裁功能,但还没有彻底损坏,并没有被DS2405标记为坏盘,导致与SCP设备连接状态正常,但是设备负荷过大导致业务处理能力下降。
1块硬盘故障时其他盘的访问并没有受到影响,业务受到影响是因为过多的进程因为此故障盘IO异常进入sleeping状态,占用了过多的CPU和内存,导致业务异常。
3.2 SCP1启动异常原因分析
SCP1上启动异常是cron.allow文件丢失导致,cron.allow文件文件是crontab即hpux下的“计划任务”使用的文件,其中规定了可以执行crontab的用户列表,只有在这个列表里的用户才有权限执行crontab。HPUX操作系统本身用不到crontab,默认这个文件是空的。启动脚本会切换用户并调用crontab,但在查看cronallow时文件丢失,所以业务用户无法执行crontab启动失败。
cron.allow只会在启动时被查看,crontab计划任务运行后就不再查询cron.allow,作用类似汽车上的“启动机”,所以如果在运行中删除不影响业务。
4 总结及建议
(1)HP-DS2405已经在网运行10年,稳定性和冗余性已经无法满足重要业务的需要,建议对硬件进行更新升级, 搭建容灾存储,实现容灾存储同步,故障时倒换到容设备。
(2)完善HP-DS2405备份策略,缩短用户数据备份周期,把智能网和HLR用户数据全备份,1周1次备份,做好数据分类以便应急使用。
(3)加强设备告警巡视及设备log日志的分析,故障隐患及时处理。
(www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/
CSSCI核心/医学投稿辅导/职称投稿辅导。
投稿邮箱:fabiaoba365@126.com
在线咨询:
275774677、
1003180928
在线咨询:
610071587、
1003160816
联系电话:13775259981
期刊简介: 《种子科技》(月刊)创刊于1983年,曾用刊名:(种子通讯)是中国种子协...
主管单位:山东省教育厅 主办单位:山东省教委 国内刊号:CN 37-1025/G4 国际刊号:IS...
期刊简介: 主管单位:吉林省社会保险事业管理局 主办单位:吉林省人力资源和社会保障...
主管单位:湖北省国资委 主办单位:湖北省经济干部管理学院 出版地:湖北省武汉市 国...
期刊简介: 《高等工程教育研究》是我国第一份、也是唯一一份面向工程教育研究的全国...
主管单位:国家民族事务委员会 主办单位:西北民族大学 出版地:甘肃省兰州市 国际标...
近来发现有些作者论文投稿存在大量剽窃、抄袭行为,“发表吧”对此类存在大量剽窃、抄袭的论文已经停止编辑、推荐。同时我们也提醒您,当您向“发表吧”投稿时请您一定要保证论文的原创性、唯一性,这既是对您自己负责,更是对他人的尊敬。
此类投稿的论文如果发表之后,对您今后的人生和事业将造成很大的麻烦,后果不堪设想,请您一定要慎重,三思而后行。
如因版权问题引起争议或任何其他原因,“发表吧”不承担任何法律责任,侵权法律责任概由剽窃、抄袭者本人承担。