エフサステクノロジーズ株式会社

本ページの製品は2024年4月1日より、エフサステクノロジーズ株式会社に統合となり、順次、切り替えを実施してまいります。一部、富士通表記が混在することがありますので、ご了承ください。

MetroCluster マニュアル ( CA08871-401 )

to English version

Tiebreakerソフトウェアの概要

MetroCluster Tiebreakerソフトウェアの概要、およびどのように障害のタイプが特定されるかを理解しておくと、MetroCluster構成を効率的に監視できます。設定の管理、およびMetroCluster構成のステータスと処理の監視には、TiebreakerのCLIを使用します。

MetroCluster Tiebreakerソフトウェアによる障害の検出

Tiebreakerソフトウェアは、2つのクラスタおよびクラスタ間の接続ステータスを第3のサイトから監視する場合にのみ使用します。Tiebreakerソフトウェアは、第3のサイトのLinuxホストに配置します。これにより、クラスタ内の各パートナーがISL障害(サイト間リンクが停止した場合)とサイト障害を区別することができます。

LinuxホストにTiebreakerソフトウェアをインストールしたら、災害状況を監視するMetroCluster構成内のクラスタを設定できます。

Tiebreakerソフトウェアでは、最大15個のMetroCluster構成を同時に監視できます。MetroCluster IP構成、ストレッチMetroCluster構成の組み合わせがサポートされます。

Tiebreakerソフトウェアでサイト障害を検出する方法

MetroCluster Tiebreakerソフトウェアは、MetroCluster構成のノードおよびクラスタに到達できるかをチェックして、サイト障害の有無を判断します。また、Tiebreakerソフトウェアは、特定の状況でアラートをトリガーします。

Tiebreakerソフトウェアで監視されるコンポーネント

Tiebreakerソフトウェアは、IPネットワークでホストされるノード管理LIFとクラスタ管理LIFへの複数のパスを介して冗長接続を確立することで、MetroCluster構成内の各コントローラーを監視します。

Tiebreakerソフトウェアは、MetroCluster構成の次のコンポーネントを監視します。

  • ローカル ノード インターフェイスを介したノード

  • クラスタ指定のインターフェイスを経由するクラスタ

  • サバイバー クラスタとディザスタ サイトとの接続の有無を評価(NVインターコネクト、ストレージ、クラスタ間ピアリング)

Tiebreakerソフトウェアとクラスタ内の全ノードおよびクラスタ自体との接続が失われると、Tiebreakerソフトウェアはそのクラスタを「到達不能」と宣言します。接続障害を検出するには、約3~5秒かかります。Tiebreakerソフトウェアからクラスタに到達できない場合、障害が発生していないクラスタ(到達可能なクラスタ)は、Tiebreakerソフトウェアがアラートをトリガーする前に、パートナー クラスタへのすべてのリンクが切断されていることを示す必要があります。

サバイバー クラスタがFC(NVインターコネクトとストレージ)とクラスタ間ピアリングを介してディザスタ サイトのクラスタと通信できなくなると、すべてのリンクが切断されたとみなされます。

Tiebreakerソフトウェアがアラートをトリガーする障害シナリオ

Tiebreakerソフトウェアは、ディザスタ サイトのクラスタ(すべてのノード)が停止するか到達不能となり、サバイバー サイトのクラスタが「AllLinksSevered」ステータスになるとアラートをトリガーします。

次のシナリオでは、Tiebreakerソフトウェアはアラートをトリガーしません(またはアラートが拒否されます)。

  • 8ノードMetroCluster構成で、ディザスタ サイトのHAペアの1つが停止している

  • ディザスタ サイトのすべてのノードを含むクラスタが停止し、サバイバー サイトのHAペアの1つが停止し、サバイバー サイトのクラスタが「AllLinksSevered」ステータスになっている

    Tiebreakerソフトウェアはアラートをトリガーしますが、ONTAPはアラートを拒否します。この場合、手動のスイッチオーバーも拒否されます。

  • Tiebreakerソフトウェアがディザスタ サイトの1つ以上のノードまたはクラスタ インターフェイスに到達できる、またはサバイバー サイトがFC(NVインターコネクトとストレージ)またはクラスタ間ピアリングを介してディザスタ サイトのいずれかのノードに到達できる

Tiebreakerソフトウェアでサイト間接続障害を検出する方法

MetroCluster Tiebreakerソフトウェアは、サイト間のすべての接続が失われると警告を表示します。

ネットワーク パスの種類

構成によっては、MetroCluster構成の2つのクラスタ間のネットワーク パスに次の2種類が存在します。

  • クラスタ間ピアリング ネットワーク

    この種類のネットワークは、2つのクラスタ間の冗長IPネットワーク パスで構成されます。クラスタ ピアリング ネットワークは、Storage Virtual Machine(SVM)構成をミラーするために必要な接続を提供します。一方のクラスタのすべてのSVMの設定が、パートナー クラスタにミラーされます。

  • IPネットワーク(MetroCluster IP構成に存在)

    この種類のネットワークは、2つの冗長IPスイッチ ネットワークで構成されます。各ネットワークには2つのIPスイッチがあり、各スイッチ ファブリックの1つのスイッチはクラスタと同じ場所に配置されます。各クラスタには、各スイッチ ファブリックから1つずつ、2つのIPスイッチがあります。すべてのノードは、同じ場所に配置されている各FCスイッチに接続されています。データは、クラスタからクラスタへ、ISL経由でレプリケートされます。

サイト間接続の監視

Tiebreakerソフトウェアは、サイト間接続のステータスをノードから定期的に取得します。NVインターコネクト接続が失われて、クラスタ間ピアリングがpingに応答しない場合、クラスタはサイトが分離されたとみなし、Tiebreakerソフトウェアが「AllLinksSevered」としてアラートをトリガーします。クラスタで「AllLinksSevered」ステータスが確認され、もう一方のクラスタにネットワーク経由で到達できない場合は、Tiebreakerソフトウェアが「disaster」としてアラートをトリガーします。

災害のタイプとTiebreakerソフトウェアの検出時間の関係

ディザスタ リカバリーへの対応を確実にするために、MetroCluster Tiebreakerソフトウェアは災害を検出するまでに一定の時間を要します。この時間は「災害の検出時間」と呼ばれます。MetroCluster Tiebreakerソフトウェアは、災害発生から30秒以内にサイト障害を検出し、ディザスタ リカバリー処理をトリガーして災害に関する通知を送信します。

検出時間は災害のタイプによっても異なり、一部のシナリオ(主に「ローリング ディザスタ」)では30秒を超える場合があります。ローリング ディザスタ(連続的に発生する災害)の主なタイプは次のとおりです。

  • 電源の喪失

  • パニック

  • 停止またはリブート

  • ディザスタ サイトのFCスイッチの喪失

電源の喪失

Tiebreakerソフトウェアは、ノードが停止するとすぐにアラートをトリガーします。電源が失われると、すべての接続と更新(クラスタ間ピアリング、NVインターコネクト、メールボックス ディスクなど)が停止します。クラスタが到達不能になってから、災害が検出されてアラートがトリガーされるまでの時間(デフォルトのサイレント時間である5秒を含む)が30秒を超えることはありません。

パニック

ノードの動作が停止してもコアダンプ プロセスのファイルが生成されない場合は、検出時間が30秒を超えることはありません。 MetroCluster IP構成では、NVが通信を停止します。サバイバー サイトはコアダンプ プロセスを認識しません。

停止またはリブート

Tiebreakerソフトウェアは、ノードが停止し、サバイバー サイトのステータスが「AllLinksSevered」になった場合にのみアラートをトリガーします。クラスタが到達不能になってから災害が検出されるまでの時間は、30秒を超える可能性があります。このシナリオで災害の検出にかかる時間は、ディザスタ サイトのノードがシャットダウンされるまでの時間によって異なります。

ディザスタ サイトのFCスイッチの喪失(ファブリック接続MetroCluster構成)

Tiebreakerソフトウェアは、ノードが停止するとアラートをトリガーします。FCスイッチが失われると、ノードはディスクへのパスのリカバリーを約30秒間試行します。この間、ノードはピアリング ネットワーク上で稼働し、応答しています。両方のFCスイッチが停止してディスクへのパスをリカバリーできない場合、ノードはMultiDiskFailureエラーを生成して停止します。FCスイッチの障害からノードがMultiDiskFailureエラーを生成するまでの時間は約30秒長くなります。この30秒を災害の検出時間に追加する必要があります。

TiebreakerのCLIとマニュアル ページについて

TiebreakerのCLIでは、Tiebreakerソフトウェアをリモートで設定したり、MetroCluster構成を監視したりするためのコマンドを実行できます。

CLIのコマンド プロンプトには、MetroCluster Tiebreaker::>と表示されます。

マニュアル ページは、CLIのプロンプトで該当するコマンド名を入力すると表示されます。

Top of Page