システムの信頼性とは?フォールトトレランスって何?

パソコン 光 青

皆さん、こんにちは!

にしすん です。

当ページでは、「システムの信頼性」について、簡単にご説明しています。

・IT初心者の方
・コンピュータシステムの信頼性って何?という方
・フォールトアボイダンスやフォールトトレランスって何?という方

ぜひ、参考にしてみてください!

スポンサーリンク
レクタングル(大)にしすん

システムの信頼性とは?

パソコン

コンピュータシステムの信頼性、と聞いて、ピンと来るでしょうか?

ここで言う「信頼性」とは、主観的に信頼・信用できるかどうかではありません。

システムの信頼性とは、システムが故障した際に、どれくらいの時間そのシステムが使えないか、を表します。

システムの信頼性が高いということは、故障した際にそのシステムが使えない時間が短いということです。

iPhoneが故障したら、修理・修復して、また使いますね。

修理してもダメな場合は、新しく買い換えると思います。

コンピュータのシステムも同様です。

システムが故障したら修理・修復して、また稼働するわけです。

完全にダメになるまでは、修復と稼働を繰り返します。

平均故障間隔と平均修復時間

パソコン コーヒー 植物

システムの信頼性について学ぶ上で、覚えておかなければならない言葉があります。

平均故障間隔と平均修復時間です。

<平均故障間隔(MTBF:Mean Time Between Failures)>
:故障と故障の間の平均時間。つまり、稼働している平均時間。平均故障間隔が長いほど、信頼性は高い。
<平均修復時間(MTTR:Mean Time To Repair)>
:修理・修復の平均時間。平均修復時間が短いほど、保守性が高い。

例えば、こんなコンピュータシステムがあったとします。

・稼働①100時間
→修復①1時間
→稼働②60時間
→修復②2時間
→稼働③80時間
→修復③3時間

この場合、平均故障間隔と平均修復時間はどうなるでしょうか。

計算すると、このようになります。

平均故障間隔=80時間=(100+60+80)/3
平均修復時間=2時間=(1+2+3)/3

また、システムが正常に動いている時間割合のことを、稼働率と言います。

稼働率は、平均故障間隔と平均修復時間を使って求めることができます。

稼働率=平均故障間隔/(平均故障間隔+平均修復時間)

※稼働率について、詳しくはコチラをご覧ください!
>>稼働率とは?直列システムと並列システムでの違いは?

信頼性設計とは?

パソコン ビジネス 話し合い

信頼性設計とは、システムの信頼性を向上させることを目的とした考え方・設計方法のことです。

大きく分けると、2つの考え方があります。

・フォールトアボイダンス(故障排除技術)
・フォールトトレランス(耐故障技術・耐障害性)

フォールトアボイダンス

その名の通り、故障を排除・回避する考え方です。

故障が起きてからどうするかではなく、そもそも故障が起きる可能性を下げてしまおう、ということです。

例)
・システムを構成する部品の信頼性を高める
・故障しやすい部品を使用しない
・障害が発生しやすいシステムを採用しない
・点検・整備を強化する

フォールトトレランス

あらかじめ故障に備える考え方です。

ある程度の故障は想定内であり、故障したとしてもシステムを稼働させ続けよう、ということです。

システムを構成する部品を二重化・多重化する技術(デュアルシステム・デュプレックスシステム)などがあります。

フォールトトレランスについて

インターネット

信頼性設計には、「フォールトアボイダンス」と「フォールトトレランス」という考え方があります。

フォールトトレランスをさらに細かく見てみましょう。

・フェールセーフ
・フェールソフト
・フールプルーフ

という、代表的な3つの方法があります。

信頼性設計について考えるときに非常に重要な概念です。ぜひ、頭に入れておいてください。

フェールセーフ

システムに障害が発生した際に、真っ先にシステムの安全性を確保する方法です。

システムの一部が故障しても、全体に悪影響を与えないよう、安全な状態に移行させます。

障害発生による二次被害・致命的被害を避けているわけですね。

「何か問題が起きたら、まずは安全性!」という考え方です。

例えば、電車の踏切の遮断機です。

システムが故障したら、強制的に、遮断機は下がってきます。

まずは安全性確保!ということです。

信号も、故障があれば、赤信号のままになります。

フェールソフト

システムに障害が発生した際に、システムの継続を優先する方法です。

システムの一部が故障した場合に、機能やパフォーマンスを低下させたとしても、システムの稼働を維持します。

「何か問題が起きたら、まずは継続性!」という考え方です。

停止させることなく、システムの運転の継続が必要な場合に使用されます。

例えば、代表的なものは、飛行機のエンジンです。

1つのエンジンが故障しても、他のエンジンだけで飛行能力を維持できるように設計されています。

フールプルーフ

ユーザーの操作ミスによる誤動作を防ぐ方法です。

(操作ミスをしたら動作しないような設計です)

想定外の操作をしても故障しないように設計されるので、不特定多数の人が操作をしても、誤動作が起こりにくくなります。

<代表的な例>
・+-の向きが正しくないと入らない電池
・自動車のギア(ブレーキを踏まないと「パーキング」から変えられない)
・半角入力の入力フォームに、全角で入力してしまった場合、警告メッセージが出る

まとめ ~システムの信頼性~

いかがでしたか?

システムの信頼性」について、簡単にご説明しました。

重要な語句
・システムの信頼性(システムが故障した際に、どれくらいの時間そのシステムが使えないか)
・平均故障間隔
・平均修復時間
・フォールトアボイダンス
・フォールトトレランス
・フェールセーフ
・フェールソフト
・フールプルーフ

当ページが、皆さんの生活や学習の一助になれば幸いです。

スポンサーリンク
レクタングル(大)にしすん
レクタングル(大)にしすん

フォローする