Die Deduplikations Technologie hat in den letzten Jahren enorme Fortschritte gemacht und wird heute sogar auf High-End Online Speicher Systemen eingesetzt. Die Technologie sollte jedoch nicht für alle Speicheranforderungen eingesetzt werden. Durch eine intelligente Nutzung der Technologie, können Sie jedoch heute Ihre Infrastruktur um Faktoren optimieren und dies bei einem niedrigeren Preis in der Anschaffung und im Betrieb!
Was ist Deduplikation?
Deduplizierung (engl. Deduplication) oft auch als SIS (Single Instance Storage) bekannt, ist in der IT ein Prozess, der redundante Daten identifiziert und eliminiert. Systeme mit Deduplizierung arbeiten anders als klassische Kompressionsverfahren, die nur wenige Vergleichsmuster benutzen. Allgemein kann Deduplizierung auf unterschiedlichen Ebenen wie z.B. Datei, Segement oder Block eingesetzt werden. Um die Duplikate zu finden, wird die Information mit einem Hash Algorithmus versehen. Oft wird dabei mit MD5 oder SHA-1 Algorithmen gearbeitet. Ob Block oder Segment, jeder Datenteil erhält einen eigenen Hash Wert, welcher in einer Art Index abgelegt wird. Haben Informationen den selben Hash-Wert, können sie als einheitlich betrachtet werden und müssen lediglich ein einziges mal gespeichert werden (Single Instance). Wird bei einer Blockdeduplizierung lediglich ein Teil einer Datei verändert, müssen nur die geänderten Blöcke mit einem neuen Hash-Wert versehen werden und mit der Index Datenbank verglichen werden.
Die ersten Systeme mit Deduplizierungstechnik wurden im Backupsegment eingesetzt. Backup profitiert traditionell stark von der Deduplizierung, da diverse «Full-Backups» aus Sicherheitsgründen aufbewahrt werden. Hat ein produktives System 20GB Daten, braucht man mit traditionellen Backupmethoden bei Weekly-Full Backups mit einer Aufbewahrungszeit von 3 Monaten mindestens 10x mehr Platz auf der Backupinfrastruktur. Dies obwohl vermutlich 90% der Daten stets identisch waren! Dank der Deduplizierung benötigt man nun nur noch marginal mehr Speicher, was wie folgt illustriert wird:
Backup Volumen = Fullbackup + veränderte und eindeutige Daten über den Zeitraum der Aufbewahrungsfrist
Was für Methoden der Deduplizierung gibt es?
Es gibt mehrere Methoden zur Deduplizierung. Je nach Anforderung, hat jede Methode seine Stärken und Schwächen. Am Markt wird meist in zwei Gruppen unterschieden, wobei von jeder Gruppe ein Merkmal in einer Deduplizierungslösung vorhanden ist.
- Inline vs Nearline Deduplizierung
- Segment vs Blocklevel Deduplizierung
Merkmal 1: Inline vs Nearline Deduplizierung
Die Deduplizierungstechnik hat auch seine Herausforderungen. Will man Daten die noch nicht geschrieben wurden bereits beim Transfer deduplizieren, so erhöht das die Latenz, da zusätzliche CPU und IO Zyklen dafür nötig sind. Diese Technik wird Inline Deduplizierung genannt. Der Vorteil dieser Technik liegt auf der Hand. Daten die bereits existieren belasten das meist schwächste Glied in der Speicherkeite, die Harddisk, nicht ein weiteres mal. Grosse und sequentielle Datenströme werden effizient abgearbeitet. Der Nachteil durch die erhöhte Latenz kann, gerade auf kleine aber mengenmässig viele IOs, einen starken Einfluss haben. Durch die physikalischen Gegebenheiten der Inline Deduplizierung, wird sie heute noch selten bei Online Speichersystemen eingesetzt. Dank dem jedoch schnell verändernden CPU Markt, wird diese Schwäche mit der Zeit immer geringer, da diese Methode 100% von der Leistung der CPU abhängt.
Das Nearlineverfahren ist ein guter Kompromiss. Daten werden auf Basis von Schedules dedupliziert, wobei beim ersten Durchgang sämtliche auf dem Volume basierten Daten dedupliziert werden. Anschliessend werden lediglich die Daten analysiert, welche seit der letzten Deduplizierung neu dazugekommen sind. Der Vorteil dabei ist, dass zwischen den Deduplizierungsvorgängen das System beim Schreiben von Daten sich wie ein traditionelles Speichersystem verhält. Beim Lesen der Daten profitiert man weiterhin von der Deduplikation! Der Nachteil dieses Verfahrens liegt im Prinzip das Daten zweimal verarbeitet werden müssen. Beim ersten mal werden die Daten traditionell gespeichert um anschliessend beim nächsten Deduplizierungsdurchgang erneut gelesen und verarbeitet zu werden. Bei Systemen die zu 100% 7x24h ausgelastet sind, kann dies zu einer Einschränkung der Leistung während der Deduplikation führen, was jedoch selten bei Kunden anzutreffen ist!
Merkmal 2: Segment vs Blocklevel Deduplizierung
Die Blocklevel Deduplizierung ist eine simple Methode der Deduplizierung. Jeder Datenblock wird mit einem eigenen Hash-Wert versehen. Rein theoretisch zählt diese Methode zu den effizientesten Methoden der Deduplizierung, resultiert jedoch in einer sehr grossen und strukturell komplexen Index Datenbank. Die meisten Hersteller limitieren darum auch die maximale Grösse eines solchen Volumes auf wenige TB.
Die Segment Deduplizierung wird immer in Kombination mit der Inline-Deduplizierung verwendet. Dabei wird ein Datenstrom analysiert und in variable Segmente z.B. 16k – 4k aufgeteilt und analysiert. Ist ein Hash-Wert eines Segments bereits vorhanden, muss das vollständige Segment nicht erneut abgelegt werden. Gerade bei Backuplösungen ist dies eine sehr effiziente Methode, welche die Deduplizierungsdatenbank auch volumenmässig in Grenzen hält.
Wo macht Deduplikation Sinn?
Aktuell sind wir in der IT fleissig am Zentralisieren. Der «IT as a Service» Ansatz führt zu einer starken Konsolidierung. Gerade in virtualisierten Umgebungen wo ganze Desktops virtuell betrieben werden, würde der traditionelle Ansatz zu einer enormen Speicherineffizienz führen. Warum soll das virtuelle C: Drive von 1000 Desktops welche zu 99% identisch ist mehrfach auf dem zentralen Speicher abgelegt werden? Dank der Deduplizierungstechnologie können gerade bei virtualisierten Infrastrukturen Platzeinsparnisse von > 80% erzielt werden. Sprich, statt 1TB werden nur noch weniger als 0.2TB benötigt. Die intelligenten Systeme von NetApp profitieren zudem von der Deduplikation im Cache Bereich. Daten werden dedupliziert sowohl im RAM als auch auf FLASH abgelegt. Gerade bei diesem kostspieligen und mengenmässig kleinem Speicher profitiert man stark von der Deduplizierung.
Der Vorteil der Deduplizierungstechnologie im Backupumfeld ist erheblich. Wo früher diskbasierte Backuplösungen nicht bezahlbar waren, sind genau diese heute dank dieser Technologie immer öfters kosteneffizienter als traditionelle Tape Methoden.
Die folgende Liste zeigt grob auf wo Deduplizierung eingesetzt werden sollte. Die Liste erhebt dabei nicht den Anspruch abschliessend zu sein:
- Backup
- Virtuelle Infrastrukturen, im speziellen VDI
- Datenarchive
- Home Verzeichnisse
- PST Dateien
- Exchange 2010 (hat kein SIS mehr)
Wo sollte auf Deduplikation verzichtet werden?
Sie mögen nun wohl denken «Super, dann deduplizieren wir doch gleich ALLES!» Dieser Ansatz kann wegen den existierenden Schwächen der Deduplizierung jedoch einen verheerenden Einfluss auf die Leistungsfähigkeit Ihrer Infrastruktur haben. Klassische Bilddaten lassen sich z.B. sehr schlecht deduplizieren, warum also dies Leistung des Systems minimieren wenn es schon im Vorhinein klar das es kein Vorteil bringt. Transaktionsbasierte Anwendungen die möglichst viele Transaktionen in sehr kurzer Zeit verarbeiten müssen würden unter einer Deduplikation massiv leiden. Oft sind dabei auch die Datenmengen eher marginal. Daten die bereits komprimiert wurden, sind meist nicht für eine Deduplikation geeignet, dazu gehören Video, Bild, Audio und ZIP Daten wie z.B. JPEG, MPEG, MP4, MP3, ZIP.
Die folgende Liste zeigt grob auf wo Deduplizierung NICHT eingesetzt werden sollte. Die Liste erhebt dabei nicht den Anspruch abschliessend zu sein:
- Bilddaten
- Videodaten
- Audiodaten
- komprimierte Daten
- OLTP Datenbanken
- Exchange 2003 & 2007 (verwendet bereits SIS)
Lösungen auf Basis der Deduplikations Technologie
BSR & Partner baut Lösungen mit integrierter Deduplikation für Online-, Nearline- sowie Backup-Speicher. Dabei kommen Produkte von NetApp, Pure Storage und EMC zum Einsatz. Während NetApp ganz klar die Führung im Online- und Nearline-Speicher hat, führt Pure Storage den Bereich All-Flash Arrays an. Im Backup Umfeld heist der Pionier DataDomain, der seit einiger Zeit zu EMC dazugehört. Wir empfehlen jedem Kunden speziell bei virtualisierten Umgebungen und traditionellen Backup Ansätzen, Lösungen mit Deduplikation zu berücksichtigen. Die finanziellen Einsparungen und die erhöhte Leistungsfähigkeit gerade bei virtualisierten Infrastrukturen bieten klare Vorteile.