「インライン」重複排除を導入すべきか?

インライン重複排除とは、データがディスクに書き込まれる過程で重複排除が行われることを意味します。

インライン重複排除には、主に3つのアプローチがあります:

1. バックアップアプリケーションのメディアサーバーソフトウェアにインライン重複排除機能を追加する。この場合、メディアサーバープラットフォームは、コアとなるメディアサーバーのタスクと、計算負荷の高い重複排除処理を兼用することになり、バックアップの速度が大幅に低下します。バックアップ速度の低下を補うため、バックアップアプリケーションは計算リソースの消費を抑えるべく、より控えめなアルゴリズムを使用します。しかしその結果、時間の経過とともに(保存期間が長くなるにつれて)より多くのディスク容量を消費し、レプリケーションに要する帯域幅も増加します。ほとんどのバックアップアプリケーションは、使用する固定長ブロックのサイズに応じて、2:1、4:1、6:1、または8:1の重複排除率を達成します。さらに、フラッシュストレージ、多数のデュアルコアプロセッサ、そして大容量のメモリを備えた高価なメディアサーバーが必要となります。

一部のバックアップアプリケーションベンダーは、購入すべきサーバーを推奨しつつ、ディスクについてはユーザーが好みのベンダーを選択できるようにしています。また、メディアサーバーソフトウェア、物理サーバー、ディスクを単一のソリューションとしてパッケージ化しているベンダーもあります。いずれの場合も、専用ハードウェアを導入するターゲット側のアプライアンスに比べ、バックアップ速度は遅くなり、必要なディスク容量と帯域幅は3~4倍になります。さらに、すべてのデータは重複排除された形式で保存されるため、復元、VMの起動、またはオフサイトへのテープコピー要求が行われるたびに、データを再構築する必要があります。その結果、VMの起動には数時間、オフサイトへのテープコピーには数日かかる場合があります。

2. スケールアップ型ストレージアーキテクチャ(フロントエンドコントローラとディスクシェルフ)を備えた専用アプライアンスへのインライン重複排除の追加。このアプローチは、すべてのシステムリソースがデータ重複排除に専念されるため、バックアップメディアサーバー上で重複排除を行うよりも高速です。これらのアプライアンスは、よりきめ細かくて強力なアルゴリズムを採用しており、はるかに高い重複排除率を達成し、ストレージと帯域幅をさらに節約します。しかし、より強力なアプローチはより多くの演算リソースを消費するため、取り込み速度は依然として遅くなります。このアプローチは、バックアップソフトウェア内のインライン重複排除よりも高速ですが、割り当てられたバックアップウィンドウ内に収まるほど高速ではありません。レプリケーションを有効にすると、レプリケーションが重複排除とプロセッサおよびメモリを競合するため、バックアップ速度はさらに低下します。また、暗号化を有効にすると、パフォーマンスはさらに低下します。さらに、すべてのデータは重複排除された形式で保存されるため、復元、VMの起動、またはオフサイトテープへのコピー要求が行われるたびに、データを復元する必要があります。このプロセスは、VMの起動では数時間、オフサイトテープへのコピーでは数日かかる場合があります。

3. 専用アプライアンスにインライン重複排除機能を追加し、メディアサーバーおよびアプリケーションサーバーにインストールされるソフトウェアオプションを備えたスケールアップ型ストレージアーキテクチャ(フロントエンドコントローラーとディスクシェルフ)を採用する。SQLダンプやOracle RMANなどのユーティリティを使用する場合、メディアサーバーやデータベースサーバーにインストール可能なソフトウェアが存在する。このアプローチでは、ネットワーク上のサーバーで重複排除処理の一部を実行することで、他の場所から演算リソースを借用し、取り込み速度を向上させます。欠点は、メディアサーバーやデータベースサーバーから演算リソースを奪うため、ボトルネックがチェーンの上流へと押し上げられることです。

このアプローチは、専用のインライン重複排除アプライアンスの取り込み速度を向上させますが、2つの欠点があります。第一の欠点は、メディアサーバーや本番データベースサーバーにソフトウェアをインストールして実行する必要があるため、それらのサーバーの処理速度が低下することです。これらのアプライアンスは、よりきめ細かくて強力なアルゴリズムを採用しており、はるかに高い重複排除率を達成することで、ストレージと帯域幅をさらに節約します。レプリケーションを有効にすると、レプリケーションが重複排除とプロセッサおよびメモリを競合するため、バックアップはさらに遅くなります。さらに、暗号化も有効になっている場合、パフォーマンスはさらに低下します。2つ目の欠点は、ソフトウェアアドオンによってデータ取り込み速度は向上するものの、すべてのデータは依然として重複排除された形式で保存されるため、復元、VMの起動、またはオフサイトへのテープコピー要求のたびに、データを再構成する必要がある点です。このプロセスは、VMの起動では数時間、オフサイトへのテープコピーでは数日かかる場合があります。つまり、取り込み速度を向上させるためにメディアサーバーやデータベースサーバー上でソフトウェアを実行しても、すべてのデータが重複排除されているという事実は変わらず、復元要求の際には依然として同じ時間のかかる復元処理を経る必要があるのです。