重複除外のベストプラクティス

重複除外は、多くの要因に左右される複雑なプロセスです。

重複除外の処理速度に影響を及ぼす最も重要な要因は、次のとおりです。

重複除外データベースへのアクセス速度
ストレージノードの RAM 容量
Storage Nodeで作成される重複除外ロケーションの数

重複除外のパフォーマンスを高めるには、推奨事項に従う必要があります。

重複除外データベースと重複除外ロケーションを別の物理デバイスに配置する

重複除外データベースには、ロケーションに保存されているすべての項目のハッシュ値が保存されます。ただし、暗号化されたファイルなどの重複除外できない項目は除きます。

重複除外データベースへのアクセス速度を上げるには、データベースとロケーションを別々の物理デバイスに配置する必要があります。

ロケーションとデータベースに専用デバイスを割り当てる方法が最適です。この方法が不可能である場合は、少なくとも、オペレーティングシステムがある同じディスクにロケーションまたはデータベースを配置しないでください。この配慮が必要な理由は、オペレーティングシステムはハードディスクでの読み取り/書き込みを多く実行するからです。これらの処理が実行されると、重複除外の実行速度が大幅に低下します。

重複除外データベースのディスクを選択する

データベースは、固定ドライブに存在する必要があります。重複除外データベースを、取り外し可能な外部ドライブに置かないでください。
データベースへのアクセス時間を最小化するには、マウントされたネットワークボリュームではなく、直接接続されたドライブに保存します。ネットワーク遅延により、重複除外のパフォーマンスが大幅に低下する場合があります。
重複除外データベースに必要とされるディスク領域は、次の計算式で予測することができます。

S=U*90/65536+10

ここでは

Sはディスクサイズ（単位は GB）です。

Uは重複除外データストアに保存される重複のないデータの予測容量（単位は GB）です。

例えば、重複除外データストアに保存される重複のないデータの予測容量が U=5TB である場合、重複除外データベースには、以下のように最低空き領域が必要です。

S = 5000 * 90 / 65536 +10 = 17 GB

重複除外ロケーションのディスクを選択する

データの消失を防ぐために、RAID10、5、または 6 の利用をお勧めします。フォールトトレラントでないため、RAID 0 は推奨されません。転送速度が比較的遅いため、RAID 1 は推奨されません。ローカルディスクまたは SAN は利用可能ですが、最適ではありません。

40～160MB の RAM（重複のないデータ 1TB あたり）

上限に達すると重複除外は停止しますが、バックアップと復元は引き続き機能します。Storage Node に RAM を追加すると、次のバックアップで重複除外が再開します。一般的に、RAM が増えると、保存できる一意のデータのボリュームが大きくなります。

各Storage Nodeでは重複除外ロケーションを1つに制限する

Storage Nodeでは、作成する重複除外ロケーションを1つのみにすることを強く推奨します。複数作成すると、利用可能なRAMのボリューム全体が、格納域の数に応じて分散される場合があります。

アプリケーション間でリソースの競合が発生しないようにする

Database Management Systems（DBMS）や Enterprise Resource Planning（ERP）システムなど、システムリソースを多く必要とするアプリケーションは、ストレージノードのコンピュータで実行しないようにします。

最低 2.5GHz のクロックレートを発揮するマルチコアプロセッサー

最低 4 コアで構成され、最低 2.5GHz のクロックレートのプロセッサーを使用することを推奨します。

ロケーションの十分な空き領域

ターゲットでの重複除外には、バックアップデータがロケーションに保存された直後に使用する領域と同程度の空き領域が必要になります。ソースで圧縮または重複除外を行っていない場合、この値は特定のバックアップ操作でバックアップされた元のデータと同じサイズになります。

高速 LAN

1 Gbit LAN を推奨します。この LAN では、重複除外により 5～6 のバックアップ操作を並行して実行できます。この際、実行速度が大幅に低下することはありません。

データの内容が類似している複数のコンピュータをバックアップする前に、代表的な 1 台のコンピュータをバックアップする

内容が類似している複数のコンピュータをバックアップするときは、1 台のコンピュータを最初にバックアップし、バックアップされたデータのインデックス付けが完了するまで待つことをお勧めします。インデックス付けの実行後、効率的な重複除外により、他のコンピュータはより迅速にバックアップされます。最初のコンピュータのバックアップに対してインデックス付けが実行されているため、多くのデータが既に重複除外データストアに含まれています。

異なるコンピュータを異なる時間帯にバックアップする

多くのコンピュータをバックアップする場合は、時間をずらしてバックアップ操作を展開していきます。時間をずらすことで、さまざまなスケジュールで複数のバックアップ計画を作成します。

重複除外のベスト プラクティス