2012年5月21日月曜日

hpマシンのLinuxサーバでLAID構成を確認

ドキュメントの足りないサーバのHW構成を調査する時、
大体LAID構成が最後までわからないことが多い。
今日は故障したHDDの交換に立会い、コマンドを教えてもらったのでメモ。

まず、OSにログインしてACUを立ち上げる。
#hpacucli

で、ACUモードで下記コマンドを実行するとLAID構成が分かる。
=>ctrl slot=0 ld all show

物理的な一覧を表示させるとホットスペアがあるかないかも分かる。

=>ctrl slot=0 pd all show
  →spareとついているHDDがあればそれがホットスペア。
     ちなみにactiveとなっていると壊れたHDDのスペアとして稼働している。

ちなみにLAID5でサーバを組むときはホットスペア前提で考えたほうが良い。
LAID1だとホットスペアは本当にただのスペアでしかないけど、
LAID5の場合は壊れた時に下記のメリットがある。

1.HDD復旧時のリビルドが早い。
  →LAID5構成でホットスペアなしの場合、故障HDDを交換して
     リビルドすると正常HDDからハッシュを計算しつつリビルドするため、
     すごく時間がかかる。
     ホットスペアがあればすでに計算済みのハッシュがホットスペアに
     逃げているため、それをそのままコピーするだけ。
     なので圧倒的に早い。

2.データの損失を防げる。かもしれない。
  →HDD起因でデータがロストしたと聞けば、まずLAID5構成のマシンだ。
     以前後輩が故障したHDDを交換してリビルドが80%までいったところで
     マシンがダウンし、再度マシンを起動したところデータが全損していたことがあった。
     考えられる原因は正常HDDにエラーデータが蓄積しており、
     そこからリビルドのためハッシュを計算させたところデータの整合性が
     とれずに壊れたのではないかとのこと。
     ホットスペアがあればハッシュを逃がすことができたので、防げたかもしれない。
     まぁ、後はこまめに再起動していればデータの整合性チェックもできたかもしれない。
     RAID5構成は敬遠されがちだけど、OSのこまめな再起動とホットスペアが
     できるなら十分運用できると思う。