Optimale Vorgehensweisen bei der Deduplizierung
Deduplizierung ist ein komplexer Prozess, der von vielen Faktoren abhängt.
Die wichtigsten Faktoren, die die Deduplizierungsgeschwindigkeit beeinflussen, sind:
- Die Zugriffsgeschwindigkeit auf die Deduplizierungsdatenbank
- Die RAM-Kapazität des Storage Nodes
- Die Anzahl der deduplizierenden Speicherorte, die auf dem Storage Node erstellt wurden.
Folgen Sie den unteren Empfehlungen, um die Deduplizierungsperformance zu verbessern.
Platzieren Sie die Deduplizierungsdatenbank und den deduplizierenden Speicherort auf unterschiedlichen physischen Geräten
Die Deduplizierungsdatenbank enthält Hash-Werte für alle am Speicherort gesicherten Elemente – mit Ausnahme solcher, die nicht dedupliziert werden können (z.B. verschlüsselte Dateien).
Um die Zugriffsgeschwindigkeit auf eine Deduplizierungsdatenbank verbessern zu können, sollten die Datenbank und der Speicherort auf unterschiedlichen physischen Geräten liegen.
Es ist am besten, dem Speicherort und der Datenbank je eigene, dedizierte (also nur für diese Aufgabe bestimmte) Geräte zuzuweisen. Falls dies nicht möglich ist, sollten Sie zumindest weder den Speicherort noch die Datenbank auf ein gemeinsames Laufwerk zusammen mit dem Betriebssystem legen. Der Grund ist, dass das Betriebssystem häufige Lese-/Schreib-Aktionen auf dem Laufwerk durchführt, was die Deduplizierung deutlich verlangsamen kann.
Ein Laufwerk für eine Deduplizierungsdatenbank auswählen
- Die Datenbank muss auf einem fest eingebauten Laufwerk liegen. Versuchen Sie nicht, die Deduplizierungsdatenbank auf ein externes, entfernbares Laufwerk zu legen.
- Um eine niedrige Zugriffszeit für die Datenbank zu gewährleisten, sollten Sie diese auf einem direkt angeschlossenen Laufwerk speichern (statt beispielsweise auf einem Netzwerk-Volume). Eine netzwerkbedingte Latenz kann eine deutliche Reduzierung der Deduplizierungsperformance bewirken.
- Der für eine Deduplizierungsdatenbank erforderliche Speicherplatz kann mit folgender Formel abgeschätzt werden:
G = E * 90 / 65536 + 10
Wobei:
G die Laufwerksgröße in GB ist,
E die geplante Menge an 'einmaligen' (nur einmal vorkommenden) Daten im Deduplizierungsdatenspeicher in GB ist.
Falls beispielsweise für die geplante Menge der einmaligen Daten im Deduplizierungsdatenspeicher 'E=5 TB' gilt, dann erfordert die Deduplizierungsdatenbank einen freien Speicherplatz mit folgender Größe:
G = 5000 * 90 / 65536 +10 = 17 GB
Ein Laufwerk für einen deduplizierenden Speicherort bestimmen
Zum Schutz gegen Datenverlust empfehlen wir die Verwendung von RAID 10, 5 oder 6. RAID 0 wird nicht empfohlen, da es nicht fehlertolerant ist. RAID 1 ist aufgrund seiner geringen Geschwindigkeit nicht empfehlenswert. Es gibt keine Bevorzugung von lokalen Laufwerken gegenüber SAN, beide sind gut.
40 to 160 MB an RAM pro 1 TB an einmaligen Daten
Wenn der Grenzwert erreicht ist, wird die Deduplizierung gestoppt. Backups und Wiederherstellungen sind davon aber nicht direkt betroffen und funktionieren weiterhin. Wenn Sie den Storage Node mit mehr RAM erweitern, wird die Deduplizierung wieder aufgenommen und fortgesetzt. Grundsätzlich gilt: je mehr RAM Sie haben, desto mehr einmalige Daten können Sie speichern.
Nur ein deduplizierender Speicherort auf jedem Storage Node
Es wird dringend empfohlen, auf einem Storage Node nur je einen deduplizierenden Speicherort zu erstellen. Anderenfalls wird möglicherweise der komplette verfügbare Arbeitsspeicher (RAM) proportional unter den Speicherorten aufgeteilt.
Applikationen vermeiden, die um Ressourcen konkurrieren
Auf der Maschine mit dem Storage Node sollten keine weiteren Applikationen ausgeführt werden, die viele Systemressourcen benötigen – wie beispielsweise Datenbankverwaltungssysteme (DBMS) oder Enterprise Resource Planning-Systeme (ERP).
Ein Mehrkern-Prozessor mit einer Taktrate von mindestens 2,5 GHz
Wir empfehlen die Verwendung eines Prozessors mit wenigstens vier Kernen und einer Taktfrequenz nicht unter 2,5 GHz.
Ausreichend freier Speicherplatz für den Speicherort
Für eine Deduplizierung am Ziel ist genauso viel freier Speicherplatz erforderlich, wie die gesicherten Daten belegen, direkt nachdem diese zum Speicherort geschrieben wurden. Ohne Komprimierung oder Deduplizierung an der Quelle entspricht dieser Wert der Größe der ursprünglich gesicherten Daten während einer gegebenen Backup-Aktion.
High-Speed LAN
1-Gbit-LAN wird empfohlen. Dadurch kann die Software 5-6 Backups mit Deduplizierung parallel durchführen, ohne dass die Geschwindigkeit deutlich heruntergeht.
Backup einer typischen Maschine, bevor Sie mehrere Maschinen mit ähnlichem Inhalt sichern
Wenn Sie mehrere Maschinen mit ähnlichem Inhalt sichern wollen, empfiehlt es sich, zuerst nur das Backup einer Maschine zu erstellen und dann zu warten, bis die Indizierung der gesicherten Daten abgeschlossen ist. Danach werden die Backups der anderen Maschinen schneller verlaufen, was der effizienten Deduplizierung zu verdanken ist. Da das Backup der ersten Maschine bereits indiziert wurde, befinden sich die meisten Daten bereits im Deduplizierungsdatenspeicher.
Backups von verschiedenen Maschinen zu unterschiedlichen Zeiten
Falls Sie eine größere Anzahl an Maschinen sichern wollen, sollten Sie die Backup-Aktionen zeitlich verteilen. Erstellen Sie dazu mehrere Backup-Pläne mit unterschiedlichen Planungen.