「データ重複排除」とは何ですか?

データ重複排除とは、入力されるデータを解析し、それをより小さなブロックやゾーン単位に分割した後、さまざまな手法を用いてそれらのブロックやバイトを比較する技術です。重複するデータが貴重なディスク容量を占有しないよう、一意のブロックやバイトのみが保存されます。プライマリストレージやアーカイブストレージの場合、重複排除率は1.2:1から最大1.8:1の範囲です。これは実際には標準的なデータ圧縮と同等か、それ以下であるため、各ファイルのコピーが1つしかないプライマリストレージやアーカイブストレージでは、データ重複排除はあまり価値をもたらしません。しかし、バックアップの場合は、長期保存を行うため、類似したファイルの複数のコピーが保持されるという点で異なります。

バックアップでは、12週間分のバックアップを保持し、その後3年間は月次バックアップを保持するのが一般的です。この場合、40コピー以上が必要となり、データ保持期間こそがデータ重複排除が最大の価値を発揮する場面です。100TBのフルバックアップがあり、40コピーを保持する場合、4PBのディスク容量が必要になります。標準的な圧縮で2:1の圧縮率を達成したとしても、依然として2PBのディスク容量が必要となります。データ重複排除を使用すれば、最初の100TBのコピーは約50TBのディスク容量で保存でき、その後の各コピーには約2TBの容量が必要となります。これは、毎週データの約2%が変更されるためです(つまり、100TBのフルバックアップに対して2TB)。この例では、50TBに78TB(週あたり2TB × 39コピー)を加えた128TBのディスク容量が必要となります。

重複排除率は、重複排除を行わない場合の必要ディスク容量を、重複排除を行った場合の必要ディスク容量で割ることで算出されます。この例では、4PBを128TBで割ると、重複排除率は31:1となります。保存期間が長くなるほど、重複排除率は高くなります。保存用に1コピーのみを保持する場合、1.8:1程度となり、4コピーを保持すれば3:1程度になる可能性があります。しかし、18コピーの場合、業界平均は約20:1となります。この業界平均の重複排除率20:1は、約18週間の保存期間を想定して算出されています。