ibm服务器raid驱动 RAID硬盘问题

博客访问: 214648
博文数量: 70
博客积分: 2711
博客等级: 少校
技术积分: 715
注册时间:
APP发帖 享双倍积分
IT168企业级官微
微信号:IT168qiye
系统架构师大会
微信号:SACC2013
分类: LINUX
环境:ibm x346服务器,安装redhat-as4-u2 32bit操作系统
问题起因:2月8号早上突然发现系统无法远程ssh登陆,打电话给托管机房,让其重启,重启后大概二十分钟,系统又再次宕机,于是赶到托管机房检查原因。经检查,服务器磁盘绿灯亮,状态良好,服务器无报警灯亮,在系统启动时候通过ctrl+A进入ibm& raid管理界面,发现有一块硬盘处于degraded状态,另一块optimal状态,查询optimal属于正常状态,degraded属于磁盘降级状态,需要raid1 的重建。之后又重启,把宕机硬盘拔下在插上,装态变为了replace,找到原因所在,当时想到的解决方案有两个:
&&&第一、是准备一块新的硬盘,必须同现有的生产硬盘一模一样,替换到degraded的硬盘,重启开机,raid1会在线的实施同步,耗费时间比较长,而且影响系统的性能
&&&第二、重启开机ctrl+A进入raid管理,手动的进行rebuild。
因为机房距离公司比较远,当时想的是现场解决问题不在麻烦跑一回,就选择了第二种方法,可是让我预想不到的是rebuild功能非常耗时,下午五点开始进行rebuild,到晚上十二点半才结束,我的硬盘是73Gscsi,时候查询资料,rebuild的确是耗时,大概计算为10G容量需要一个小时左右。
相关资料:
使用 SIMATIC PC 时,如果 RAID1 硬盘系统报告 "degraded",说明硬盘在 RAID1 数组发生错误。然而,这并不意味着数据已经丢失。PC 将继续自动运行片刻,并与硬盘交互(RAID1功能)。但是,此刻不再有硬盘的冗余。PC 机能够运行到下一个合适的维护日期。
产生 "degraded" 消息可能有以下原因:
硬盘有缺陷(硬盘错误,对于此消息的典型的原因)
即使硬盘没有缺陷(非常例外),作为 RAID1 驱动器的 "Bad Block Recovery Handling" 的一部分,也会出现此消息。
当 PC 机遭遇硬切断的时候,能够发生“坏块”(也被称作不可恢复的 CRC 故障),例如,在写入磁盘的过程中,发生突然的电源故障。如果在从磁盘读取的过程中发现“坏块”,相关块从 RAID1 数组的其他硬盘读取,并且“坏块”被纠正。这个过程叫做“坏块恢复”。
在某一条件下,存储管理器不能正确地运行“坏块恢复”程序。这将导致 RAID1 数组报告 "degraded"。如果发生机械的硬盘错误时,你一定要替换相应的硬盘驱动器。
替换 RAID1 数组的硬盘驱动器的过程在相关设备的操作指令中给出。
阅读(2104) | 评论(0) | 转发(0) |
相关热门文章
给主人留下些什么吧!~~
请登录后评论。查看: 9087|回复: 6
winPE不识别IBM服务器SAS硬盘
WinPE ISO:老毛桃WinPE,小马WinPE
服务器:& && &IBM X块硬盘,做的Raid 5
故障:& && &&&使用老毛桃WinPE,小马WinPE,进入系统后无法识别SAS硬盘
请问高手:
1、用老毛桃WinPE,启动Win2003PE,按F6(没有软驱,使用USB软驱)加载阵列卡2003版本的驱动,是否可以解决此故障
2、若用1方法不能解决,用哪种WinPE进入系统后,再加载SRS驱动可以解决?如何加载??请高手指点,非常感谢
3、目前普通的WinPE解决不了服务器阵列卡驱动,SAS等非常见硬盘,是否可以出一个专门针对服务器版本的WinPE ,谢谢
这点一直在求,按F6一样没用的吧。
不识别硬盘的话,可以使用win7pe.但是安装阵列卡的驱动,这个还真不知道.要是目前硬盘上已经有系统的话,建议试试IT天空的离线注入,不保证一定有效果,单纯一个建议,纯属建议..
回复 #3 丰都修罗 的帖子
不识别硬盘,可以使用Win7pe,这个你试过吗?硬盘可是SAS硬盘啊,Win7pe能识别??
如果还没找到解决办法,了解一下驱动三要素或许有点帮助:
回复 #4 一条大虫 的帖子
嗯.我这里经常遇到服务器硬盘无法识别,问题只出现在 xp 或2003的pe中,win7pe无此问题.可正常显示.
能用win8PE的就用win8pe,不行就用win7pe,启动完后再安装驱动
Powered by各位高手,小弟管的一台IBM&X3650服务器(最老的那款)春节期间中毒挂掉了,症状是win2003走到滚动条那就就无限滚动了。机器有三个硬盘,一块已坏,一直没有拿下来,另外两个组的raid0(没有太多重要数据)。想着就重装系统吧,然后噩梦就来了。首先是用IBM引导盘,8.1/9.0都试过,全都卡在创建分区那就不动了。然后是R2直接装,也是到格式化硬盘那就卡住了不动了,用2003挂驱动进去,如果选用NTFS格式化的选项,就卡死在格式化100%的地方了,如果选用NTFS快速格式化的选项,格式化能过去,但卡死在复制安装文件的步骤,一直是0%。用ubuntn安装系统,也是到创建分区那就报读写错误。机器阵列卡是severaid&8K那个,我尝试重组阵列,raid0,raid1都不行,故障如上,拔掉坏硬盘也不行,单插任意硬盘尝试依然如此,不可能两个硬盘都出问题了吧?灯也没报警啊,引导盘检测说硬盘状态也是GOOD。换其他硬盘口也不行。实在不知怎么办了,请大家帮我支支招把,万分感谢!!
系统管理员
该楼层已被屏蔽 |
啊,这是个好主意,我怎么忘了,到PE下试试
不行啊,PE下面的磁盘工具也是格式化就卡死了。。
服务器用raid0?自找麻烦的做法,还有硬盘坏掉肯定要拔下来的,不拔下来肯定是有问题的,接着把新的硬盘给换上,然这三个硬盘组成raid5或raid1,最后再安装系统
22:58:49 修改
组RAID0的话,一定要保证这个RAID0至少有两块硬盘在。这样才能操作。反正系统盘组RAID没啥作用,去掉RAID装系统吧
太平洋网络论坛群欢迎您:,活动群。小渣渣吐槽请轻喷
本人已不在论坛作日常活动,有需要请通过群或51CTO网络板块联系。
1,2,3楼。。。楼主你在自言自语啊。。。不过我也没什么方法。。纯顶了~~
新的一年,继续努力,多多中大奖。
既然你都尝试过重组阵列了,说明没数据了,再试一下重建MBR吧
谢谢大家帮忙,我终于搞定了,问题居然是raid卡固件过老,和现有新的引导驱动兼容性不好的原因。用7.4.16引导盘引导,升级raid卡固件,然后一切顺利!问题排除!!历时6天解决问题,以后对付老机器一定要注意驱动问题呀!!
&发表于&12:39&谢谢大家帮忙,我终于搞定了,问题居然是raid卡固件过老,和现有新的引导驱动兼容性不好的原因。用7.4.16引导盘引导,升级raid卡固件,然后一切顺利!问题排除!!历时6天解决问题,以后对付老机器一定要注意驱动...
您需要登录后才可以发帖
其他登录方式:常用PC服务器阵列卡、硬盘健康监控 - 为程序员服务
常用PC服务器阵列卡、硬盘健康监控
通常,我们使用的DELL/HP/IBM三家的机架式PC级服务器阵列卡是从LSI的卡OEM出来的,DELL和IBM两家的阵列卡原生程度较高,没有做太多封装,可以用原厂提供的阵列卡管理工具进行监控;而HP的阵列卡一般都做过封装了,因此需要使用自身特有的管理工具来监控。
本文以几种常用的阵列卡为例,展示其阵列卡及硬盘监控的方法。
DELL SAS 6/iR卡,全称LSI Logic SAS1068E,只支持RAID 0, RAID 1, RAID 1+0, 不支持RAID 5等高级RAID特性,不支持阵列卡电池。
DELL PERC PERC H700卡,全称LSI Logic MegaRAID SAS 2108,支持各种RAID级别及高级特性,可选配阵列卡电池。
DELL PERC H310 Mini卡 ,全称LSI Logic / Symbios Logic MegaRAID SAS 2008,支持常见RAID级别,不支持高级RAID特性,不支持阵列卡电池。
IBM ServeRAID M5014 SAS/SATA Controller卡,全称LSI Logic / Symbios Logic MegaRAID SAS 2108,支持各种RAID级别及高级特性,可选配阵列卡电池。
IBM ServeRAID-MR10i SAS/SATA Controller卡,全称LSI Logic / Symbios Logic MegaRAID SAS 1078,支持常见RAID级别,不支持高级RAID特性,可选配阵列卡电池,这个卡其实和DELL的PERC 6/i卡是一样的,都是基于LSI MegaRAID SAS 1078基础上OEM出来的。
上面是几种常见的阵列卡型号,更多的可以自行查看官方的技术手册。
下面我们要继续的是,这些阵列卡以及硬盘如何监控,阵列卡的管理也请查看官方技术手册,不在本文讨论范畴,或者查看作者的一个分享PPT:PC服务器阵列卡管理简易手册。
一般地,支持RAID 5的卡,我们称其为阵列卡,都可以使用LSI官方提供的MegaCli工具来管理,而不支持RAID 5的卡,我们称其为SAS卡,使用lsiutil工具来管理。HP的服务器使用其特有的hpacucli工具来管理。
1、MegaCli工具
a) MegaCli -adpallinfo -aall — 查看阵列卡信息
-a 参数指定阵列卡的编号,一般服务器上只会配一个阵列卡,因此我们通常指定为 -a0(阵列卡适配器编号,从0开始) 即可,主要关注下面几个信息:
Product Name : PERC H710 Mini
阵列卡名称
FW Package Build: 21.2.0-0007
阵列卡firmware版本号,版本如果太低,建议升级以提高稳定性及性能
BBU : Present
是否有配BBU电池
b) MegaCli -cfgdsply -aall — 查看阵列配置
Memory: 512MB
阵列卡cache大小,2的N次方,如果不是,说明阵列卡有异常
Number of dedicated Hotspares: 0
阵列是否有专用/独享热备盘(如果有多个逻辑磁盘组/disk group,则可以指定一个硬盘用于全局热备,那么该disk group上的专用热备盘数量为0也不用担心),除了RAID 1/RAID 1+0一般不指定热备盘以外,其他几个阵列级别建议都要指定热备盘
State : Optimal
阵列状态,如果不是 Optimal 就要关注了
Current Cache Policy: WriteBack, ReadAheadNone, Direct, Write Cache OK if Bad BBU
阵列读写cache策略,建议写策略设置为FORCE WB,最起码是WB,预读策略可以关掉,意义不大,几乎没影响
Disk Cache Policy : Disabled
硬盘cache策略,建议关闭,防止意外时数据丢失
Current Power Savings Policy: None
节电策略,建议关闭
Media Error Count: 0
三个错误计数器,任何一个值大于100就要立刻引起关注,尤其要关注起增长速度。1T以上SATA盘,计数值不够精确,可能所有盘上该值都会大于0,一般重启就会重新清0,如果重启后还是大于0的话,赶紧报修吧。SAS盘的计数值则比较准确。
Other Error Count: 0
Predictive Failure Count: 0
Firmware state: Online, Spun Up
查看硬盘状态,如果是unconfigured表示该硬盘未分配加入到阵列中;如果是 unconfigured(bad)表示该盘不但是未分配,而且还坏了,正是“出师未捷身先死”;如果是failed,表示该盘故障无法识别;如果是rebuilding,表示该盘正在重建数据
c) MegaCli -adpbbucmd -aall — 查看阵列卡电池信息
Temperature: 39 C
查看电池温度,如果相比上一次查看高出不少,就需要关注了,或者可以根据经验设置一个基线值
Battery State: Optimal
电池状态,如果不是为Optimal,就需要关注了
Charger Status: Complete
电池充放电状态
isSOHGood: Yes
电池状态,如果不是为Yes,需要关注
Relative State of Charge: 93 %
当前电量,当电量低于15%,或者电池坏掉时,默认都会将写策略从WB改成WT,除非设定为FORCE WB策略
Max Error = 0 %
电池是否有错误信息
Next Learn time: Tue Oct 14 22:06:50 2014
电池充放电时间,注意这是美国时间。另外,新的阵列卡电池很多改成电容式的了,也就不需要重复充放电了
d) MegaCli -fwtermlog -dsply -aALL 查看阵列卡日志,关注里面的error/fail/warn等多个关键字
2、lsiutil工具
lsiutil有交互和非交互两种方式,作为监控,我们肯定选择非交互模式。想要使用交互模式的,可以根据非交互模式自行练习。
a) lsiutil -p 1 -a 20,12,0,0 — 查看硬盘计数器
Invalid DWord Count 2,563 — 任何一个值大于0,都需要引起关注
Running Disparity Error Count 2,366
Loss of DWord Synch Count 0
Phy Reset Problem Count 0
b) lsiutil -p 1 -a 21,1,0,0,0 — 查看逻辑卷状态
Volume State: optimal, enabled
逻辑卷健康状况
Volume draws from Hot Spare Pools: 0
是否有热备
Volume Size 139392 MB, 2 Members
由几块硬盘组成
Primary is PhysDisk 1 (Bus 0 Target 9)
Secondary is PhysDisk 0 (Bus 0 Target 3)
c) lsiutil -p 1 -a 21,2,0,0,0 — 查看物理硬盘状态
PhysDisk 0 is Bus 0 Target 3
PhysDisk State: online
Error Count 13, Last Error: Command = 28h, Key = 3, ASC/ASCQ = 11h/00h
错误计数器,大于0的话,就需要引起关注
3、hpacucli工具
hpacucli工具查看阵列、硬盘、电池信息,其实就只要一条指令:
hpacucli ctrl all show config detail — 查看阵列详细信息、配置
Controller Status: OK
阵列卡状态
Firmware Version: 1.18
firmware版本,太低了建议升级,以提高稳定性及性能
Cache Board Present: True
是否配备了cache模块
Cache Status: OK
cache模块状态
Cache Ratio: 100% Read / 0% Write
cache策略,此处只有读cache,不用于写cache,因为没有bbu电池,见下方结果
Drive Write Cache: Disabled
关闭磁盘cache
Total Cache Size: 256 MB
Total Cache Memory Available: 208 MB
实际可用cache大小,和理论cache大小不一样,说明cache模块可能有问题
No-Battery Write Cache: Disabled
关闭FORCEWB策略
Battery/Capacitor Count: 0
阵列卡BBU电池数量为0,也就是没有BBU模块
Battery/Capacitor Status: Failed (Replace Batteries)
阵列卡BBU电池状态,这里显示是错误状态,需要及时更换
第一个乌列阵列,编号从A开始,依次是A、B、C
Status: OK
物理阵列状态
Logical Drive: 1
第一个逻辑卷,编号从1开始
Fault Tolerance: RAID 5
第一个逻辑卷的阵列级别
Status: OK
第一个逻辑卷状态
Caching: Enabled
第一个逻辑卷是否启用了cache策略
physicaldrive 1I:1:1
第一块物理硬盘,编号从1开始
Status: OK
第一块物理硬盘状态
Firmware Revision: HPDA
第一块物理硬盘firmware,如果太低,也需要及时升级,HP的硬盘每个批次都有不同的firmware
延伸阅读:
MySQL服务|MySQL咨询|MySQL培训|MySQL技术支持
原文地址:, 感谢原作者分享。
您可能感兴趣的代码君,已阅读到文档的结尾了呢~~
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
IBM服务器硬盘故障处理
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口

我要回帖

更多关于 ibm服务器做raid 的文章

 

随机推荐