在线客服系统

移动智能网平台故障浅析

时间:2014-08-28 12:54 来源:www.fabiaoba.com 作者:许薇等 点击:

  【摘 要】 设备单磁阵硬盘故障导致整个磁阵存储失效,导致SCP与数据库库连接失败,智能业务触发业务阻塞,故障处理过程及故障原因进行分析。

  【关键词】 智能网 签约 SCP 数据库 连接

  1 告警信息及影响范围

  08:00智能网平台SCP设备CP过负荷,告警属二级告警,智能网平台的SCP1与数据库连接状态正常,无异常告警,现场设备状态检查及设备运行指示灯正常,无告警指示,经测试影响部分用户做被叫接续,后续处理过程中影响5万用户业务使用。

  2 处理过程

  (1)经测试发现到一号通及彩铃的呼损越来越多,考虑到严重影响业务,基本处于业务全阻状态,在SCP设备上用ROOT用户执行su-zxin10命令,系统无响应。

  (2)查看系统发现有异常多归属zxin10用户的进程,正常运行时系统只有20个左右,但当时观察到有数百个。使用root用户执行强制停止并重启双机的命令,停止后双机无法启动。重启SCP1后双机仍无法正常启动,操作过程中观察到SCP2设备自行重启。

  (3)查看设备运行状态,与其连接磁阵设备无任何指示灯告警。多次尝试SCP设备和数据库进行重新挂接均失败,重新启动SCP后与数据库挂接仍旧失败,智能网平台所带业务全部中断,影响同振、一号通、彩铃业务正常使用,用户不能做被叫或彩铃不能正常播放,大约影响5万用户业务使用。

  (4)多次尝试SCP设备和数据库进行重新连接均出现失败,中兴公司据此判断可能HP磁盘阵列原因导致连接失败,同时发现sybase数据库无法正常启动,建议检查磁阵。

  (5)检查与SCP连接的HP-DS240设备,分析设备运行log日志,发现DS2405的1块硬盘有报错,vgsybase无法激活,与SCP无法挂接判断原因一致。

  1)/var/opt/resmon/log/event.log中DS2405 slot3槽位的硬盘c4t2d0每天在23:00-24:00左右报一次错,无影响业务。

  2)/var/cmcluster/zxin10/zxin10.cntl.log 有业务进程IO报警进入sleeping状态,错误信息逐步累积,严重影响CP过负荷以致影响部分业务,直到6月4日早上,导致过多的进程占用了CPU和内存资源,系统临近崩溃。

  (6)判断出故障后决定更换设备硬件,停业务更换了故障硬盘,存储恢复。业务可以在备机SCP2上正常启动,SCP2与HP-DS2405存储恢复访问,业务恢复。

  (7)SCP1挂接数据库仍然失败,中兴及惠普工程师对SCP1与数据库连接失败原因分析,最终确定系统文件cron.allow文件丢失导致失败,重新装载数据后恢复正常,SCP2与HP磁阵正常连接。

  3 原因分析

  3.1 磁阵一块硬盘故障影响整个存储系统分析

  HP-DS2405的一块硬盘导致存储访问异常进行了简单的分析,DS2405是低端存储,使用Arbitrated loop或Private Loop仲裁环。这种拓扑的特点是“串行”的,即所有的设备都串在这个环上,同时只有2个port可以通信,而且只有抢到“仲裁权”的port可以通信。这是一种低级别的拓朴,缺点是如果同一个loop上的一个设备损坏,其他设备就受到影响。

  DS2405设备每1块硬盘盘实际上都是这个Loop上的1个设备。此次硬盘故障怀疑是硬盘故障点影响了仲裁功能,但还没有彻底损坏,并没有被DS2405标记为坏盘,导致与SCP设备连接状态正常,但是设备负荷过大导致业务处理能力下降。

  1块硬盘故障时其他盘的访问并没有受到影响,业务受到影响是因为过多的进程因为此故障盘IO异常进入sleeping状态,占用了过多的CPU和内存,导致业务异常。

  3.2 SCP1启动异常原因分析

  SCP1上启动异常是cron.allow文件丢失导致,cron.allow文件文件是crontab即hpux下的“计划任务”使用的文件,其中规定了可以执行crontab的用户列表,只有在这个列表里的用户才有权限执行crontab。HPUX操作系统本身用不到crontab,默认这个文件是空的。启动脚本会切换用户并调用crontab,但在查看cronallow时文件丢失,所以业务用户无法执行crontab启动失败。

  cron.allow只会在启动时被查看,crontab计划任务运行后就不再查询cron.allow,作用类似汽车上的“启动机”,所以如果在运行中删除不影响业务。

  4 总结及建议

  (1)HP-DS2405已经在网运行10年,稳定性和冗余性已经无法满足重要业务的需要,建议对硬件进行更新升级, 搭建容灾存储,实现容灾存储同步,故障时倒换到容设备。

  (2)完善HP-DS2405备份策略,缩短用户数据备份周期,把智能网和HLR用户数据全备份,1周1次备份,做好数据分类以便应急使用。

  (3)加强设备告警巡视及设备log日志的分析,故障隐患及时处理。


www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
  本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/ CSSCI核心/医学投稿辅导/职称投稿辅导。

投稿邮箱:fabiaoba365@126.com
 在线咨询: 投稿辅导275774677投稿辅导1003180928
 在线咨询: 投稿辅导610071587投稿辅导1003160816
 联系电话:13775259981

联系方式
李老师QQ:发表吧客服610071587 陈老师QQ:发表吧客服275774677 刘老师QQ:发表吧客服1003160816 张老师QQ:发表吧客服1003180928 联系电话:18796993035 投稿邮箱:fabiaoba365@126.com
期刊鉴别
  • 刊物名称:
  • 检索网站:
热门期刊
发表吧友情提醒

近来发现有些作者论文投稿存在大量剽窃、抄袭行为,“发表吧”对此类存在大量剽窃、抄袭的论文已经停止编辑、推荐。同时我们也提醒您,当您向“发表吧”投稿时请您一定要保证论文的原创性、唯一性,这既是对您自己负责,更是对他人的尊敬。

此类投稿的论文如果发表之后,对您今后的人生和事业将造成很大的麻烦,后果不堪设想,请您一定要慎重,三思而后行。

如因版权问题引起争议或任何其他原因,“发表吧”不承担任何法律责任,侵权法律责任概由剽窃、抄袭者本人承担。

 
QQ在线咨询
陈老师:275774677
张老师:1003180928
李老师:610071587
刘老师:1003160816
论文刊登热线:
137-7525-9981
微信号咨询:
fabiaoba-com

友情链接

申请链接