这两天遇到一个问题,很头疼。在我们的CX3-10C上,分配给服务器的虚拟磁盘不断减少。一开始原因不明,现在正常了。先说说大致的故事。前天晚上,这种情况开始出现。密件抄送警告消息已发送到我的手机。因为没及时看,广电中心有人打电话说视频上传不了。然后我看了看视频服务器,发现磁盘又不见了。我以为和上一个问题是一样的,但是我觉得不太可能,因为我之前的测试从来没有过这个问题。十一假期刚过就出现这个问题,真的有点奇怪,更何况我的HBA卡是新的。
问题是这个视频服务器上的两个虚拟盘不见了,存储阵列管理终端显示光纤没有连接,然后我猜测是网通的人敲掉或者拔掉了电缆,因为最近在摸电缆,准备机房搬迁,很有可能是电缆被敲掉了。电话告诉陈干,可能的原因是我要去机房检查服务器的光纤连接,处理这个故障。去了之后发现光纤确实松了,指示灯也没亮。插上电源后,重启,一切正常。
但是第二天早上,也就是昨天早上,又出现了这样的问题,就是这个视频服务器上的两个虚拟磁盘没有了,但是存储阵列管理端显示所有连接正常,服务器端的powerpath也正常,没有任何错误的提示,除了系统日志有几个提示错误。
此时问题原因不明,服务器端提示正常,但确实没有磁盘,令人惊讶。然后我重启了服务器,因为windows系统很多问题一旦重启都是正常的,重启之后就正常了。但是这个时候,我不知道原因。至少,我觉得存储阵列上没问题,光开关肯定没问题。即使有问题,也是端口问题。我怀疑最大的问题是网通又碰线了。我打电话给网通的负责人,问有没有人去机房。他们说没人去机房。我很怀疑,但是没办法,因为我们机房暂时没有门禁系统,无法判断,所以这个问题我就暂时放在这里,日志看不出为什么。
郁闷的是两个小时后又出现了,磁盘又没了,提示都正常,错误日志和上次一样。我怀疑是不是光纤的问题。去机房换了光纤交换机的端口,重启机器正常,还是不行。下午三点,原来的问题又出现了,重启恢复正常。进一步观察,每次提示的错误都是一样的,就是数字略有不同。
由于有另一件事比这更重要,下午下班后我还得做另一件事。回来八点,同事会在路上打电话说又有问题了。我说你应该先重启然后恢复正常。回来后要马上研究,一直监控。同时要对上面的数据进行备份,防止磁盘多次卸载挂起,却在备份过程中坏掉。因为很晚了,这个服务器的访问不是很高,所以你晚上没有加班。说实话,就算加班我也不知道该怎么办。回家后想了想,决定只剩下HBA卡的问题了。端口换了,光纤也换了。这个问题反复出现,时断时续,真的很烦人.
我一大早就来了,发现昨晚磁盘已经掉了。昨晚前半个上午,我遇到了一个问题,很头疼。分配给CX3-10C服务器的虚拟磁盘总是被丢弃。一开始原因不明,现在正常了。
先说说大致的故事。前天晚上,这种情况开始出现。密件抄送警告消息已发送到我的手机。因为没及时看,广电中心有人打电话说视频上传不了。然后我看了看视频服务器,发现磁盘又不见了。我以为和上一个问题是一样的,但是我觉得不太可能,因为我之前的测试从来没有过这个问题。十一假期刚过就出现这个问题,真的有点奇怪,更何况我的HBA卡是新的。
问题是这个视频服务器上的两个虚拟盘不见了,存储阵列管理终端显示光纤没有连接,然后我猜测是网通的人敲掉或者拔掉了电缆,因为最近在摸电缆,准备机房搬迁,很有可能是电缆被敲掉了。电话告诉陈干,可能的原因是我要去机房检查服务器的光纤连接,处理这个故障。去了之后发现光纤确实松了,指示灯也没亮。插上电源后,重启,一切正常。
但是第二天早上,也就是昨天早上,又出现了这样的问题,就是这个视频服务器上的两个虚拟磁盘没有了,但是存储阵列管理端显示所有连接正常,服务器端的powerpath也正常,没有任何错误的提示,除了系统日志有几个提示错误。错误截图如下:
此时问题原因不明,服务器端提示正常,但确实没有磁盘,令人惊讶。然后我重启了服务器,因为windows系统很多问题一旦重启都是正常的,重启之后就正常了。但是这个时候,我不知道原因。至少,我觉得存储阵列上没问题,光开关肯定没问题。即使有问题,也是端口问题。我怀疑最大的问题是网通又碰线了。我打电话给网通的负责人,问有没有人去机房。他们说没人去机房。我很怀疑,但是没办法,因为我们机房暂时没有门禁系统,无法判断,所以这个问题我就暂时放在这里,日志看不出为什么。
郁闷的是两个小时后又出现了,磁盘又没了,提示都正常,错误日志和上次一样。我怀疑是不是光纤的问题。去机房换了光纤交换机的端口,重启机器正常,还是不行。下午三点,原来的问题又出现了,重启恢复正常。进一步观察,每次提示的错误都是一样的,就是数字略有不同。
由于有另一件事比这更重要,下午下班后我还得做另一件事。回来八点,同事会在路上打电话说又有问题了。我说你应该先重启然后恢复正常。回来后要马上研究,一直监控。同时要对上面的数据进行备份,防止磁盘多次卸载挂起,却在备份过程中坏掉。因为很晚了,这个服务器的访问不是很高,所以你晚上没有加班。说实话,就算加班我也不知道该怎么办。回家后想了想,决定只剩下HBA卡的问题了。换了端口,换了光纤,但是这个问题还是反复出现,断断续续,真的很烦.
我一大早就来了,昨天晚上发现磁盘掉了。昨晚前半小时,早上重启后联系戴尔售后服务工程师讨论解决问题的方法,咨询了一个类似的问题。他看了存储阵列spa、spb、系统日志、光开关的supportshow命令的输出(那个我看不懂,他让我抓过来给他)。然后断定HBA坏了。那时我已经在计算机房了。由于该服务器上有两个HBA,我将光纤连接到另一个HBA卡,然后在管理端再次注册该HBA卡,以形成到存储阵列的有效访问链接。不用说,切换过程是第三步
这种问题很烦,有时候也挺好。你不说他有问题吗?他又可以工作了,有什么问题吗?一次又一次这样崩溃,真的让他很头疼,尤其是存放这么重要的东西。总之在处理问题的时候一定要想清楚,判断出问题的确切位置和最有可能的原因。只有这样才能解决问题。
早上几个小时,重启后联系戴尔售后服务工程师讨论解决问题的方法,咨询了一个类似的问题。他看了存储阵列spa,spb,系统日志,光开关的supportshow命令的输出(那个我看不懂,他让我抓过来给他)。然后断定HBA坏了。那时我已经在计算机房了。由于该服务器上有两个HBA,我将光纤连接到另一个HBA卡,然后在管理端再次注册该HBA卡,以形成到存储阵列的有效访问链接。切换过程就不用说了,就是一般的注册过程,非常简单,问题就这样解决了。一切恢复正常。
这种问题很烦,有时候也挺好。你不说他有问题吗?他又可以工作了,有什么问题吗?一次又一次这样崩溃,真的让他很头疼,尤其是存放这么重要的东西。总之在处理问题的时候一定要想清楚,判断出问题的确切位置和最有可能的原因。只有这样才能解决问题。