Windows Server 2012のデータ重複除去機能について調べてみました。

Windows Server 2012に搭載されているデータ重複除去機能について調べてみました。
最近のMicrosoftのドキュメントは自分が読むのに慣れてしまった可能性も無くは無いですが、昔と比べるとすごく丁寧で読みやすくなった気がします。

データ重複除去とは

データ重複除去では、データの重複を検出し、そのデータの正確さや整合性を損なうことなく削除することが必要になります。この目標は、ファイルを小さな (32 から 128 KB) 可変サイズのチャンクに分割した後で重複するチャンクを識別し、各チャンクを 1 つだけ保持することによって、より多くのデータをより小さな領域に格納することです。重複するチャンクは、1 つ残されるチャンクへの参照に置き換えられます。さらに領域を最適化するために、チャンクはコンテナーファイルにまとめられ、コンテナーが圧縮されます。

確認してみた限り、以下の点を抑えておくとよろしいかなと思いました。

単一インスタンス記憶域(SIS)やNTFS ファイルシステム圧縮よりも高効率

サーバの空きリソースを使ってバックグラウンドで自動的に実行、基本的にメンテナンスフリー

データによってはディスク領域の消費量を50%～90%以上削減可能

一度に処理できるボリューム数は、最大90で物理CPUコア数+1でハイパースレッディングはカウントしない

対象ボリュームはシステム・ブートボリュームを除く。また、クラスターの共有ボリュームも利用不可。ただしiSCSIは利用可能

経過日数が0日のファイルを処理対象に出来るが開いているファイルは処理されない

一日ボリュームあたりおおよそ1.5TBのデータ処理が可能

特定のディレクトリを重複除去の対象外に設定可能

Windows Storage Server 2008で重複排除利用していたデータはsisadminコマンドで予めSISを解除しておく

基本的には対象は書き換わる事が想定されないデータとする

削減効果は旧OSを利用している場合でも、重複除去評価ツール (DDPEVAL.exe) でテストする事が可能で、Windows 7、Windows Server 2008 R2、または Windows Server 2012 システムで実行可能との事です。
実際の重複除去機能はローカルDiskに対してのみ実行可能なようですが、評価ツールであればリモートフォルダに対しても実行する事が出来るので重複除去機能を利用した場合の削減効果を確認出来ます。

古い大量のデータが保存されているサーバは最適です。
重複除去機能の詳細は以下のページから確認出来ます。

データ重複除去の計画と展開
http://technet.microsoft.com/ja-jp/library/hh831700.aspx

データ重複除去を使うにあたっての移行、クラスター、BranchCache の考慮事項
http://technet.microsoft.com/ja-jp/library/hh831454.aspx