×

ITRIS One AG

+41 56 418 64 64
  • ITRIS Gruppe
  • IT SOLUTIONS
    • DATACENTER & CLOUD
      • Übersicht
      • Datacenter Solutions
      • Cloud & Hybrid Cloud
      • Orchestration & Automation
      • Innovation Lab
    • NETWORK SOLUTIONS
      • Übersicht
      • Software Defined Networking
      • Mobility & Wireless
      • Cloud Managed Networks
      • Managed Network Services
      • WLAN Ortungslösungen
      • Cisco DNA Demo
      • Netzwerkanalysen as a Service
    • IT SECURITY
      • Übersicht
      • Umfassende Security
      • Cloud Security
      • Security Audit
      • Network Detection & Response
    • UNIFIED COLLABORATION
      • Übersicht
    • DIGITAL WORKPLACE
      • Übersicht
    • HEALTHCARE IT SOLUTIONS
      • Übersicht
      • WLAN Ortungslösungen
  • IT SERVICES
    • Professional IT Services
      • Übersicht
      • Projekt Management
      • IT Navigation
      • Cloud Readiness Check
      • Business Aligned IT
      • Unified Collaboration as a Service
      • Threat Management as a Service
      • Ransomware Readiness Workshop
      • Netzwerkanalysen as a Service
    • IT Service Management
      • Übersicht
    • IT Support Services
      • Übersicht
      • IT Monitoring Service
  • CLOUD SERVICES
    • Übersicht
    • Cloud Security Service
    • Cloud Readiness Check
    • Unified Collaboration as a Service
  • UNTERNEHMEN
    • ITRIS Gruppe
    • Über uns
    • Jobs | Wir suchen Dich →
    • Standorte
    • Referenzen
    • Partner
    • Awards
    • News
    • Expertenstatements
    • Events
  • KONTAKT
  • Home
  • Allgemein
  • Archive from category "Allgemein"
  • Page 3

Effizienz dank Deduplikation

21.08.2015 by ITRIS

Die Deduplikations Technologie hat in den letzten Jahren enorme Fortschritte gemacht und wird heute sogar auf High-End Online Speicher Systemen eingesetzt. Die Technologie sollte jedoch nicht für alle Speicheranforderungen eingesetzt werden. Durch eine intelligente Nutzung der Technologie, können Sie jedoch heute Ihre Infrastruktur um Faktoren optimieren und dies bei einem niedrigeren Preis in der Anschaffung und im Betrieb!

 

Was ist Deduplikation?

Deduplizierung (engl. Deduplication) oft auch als SIS (Single Instance Storage) bekannt, ist in der IT ein Prozess, der redundante Daten identifiziert und eliminiert. Systeme mit Deduplizierung arbeiten anders als klassische Kompressionsverfahren, die nur wenige Vergleichsmuster benutzen. Allgemein kann Deduplizierung auf unterschiedlichen Ebenen wie z.B. Datei, Segement oder Block eingesetzt werden. Um die Duplikate zu finden, wird die Information mit einem Hash Algorithmus versehen. Oft wird dabei mit MD5 oder SHA-1 Algorithmen gearbeitet. Ob Block oder Segment, jeder Datenteil erhält einen eigenen Hash Wert, welcher in einer Art Index abgelegt wird. Haben Informationen den selben Hash-Wert, können sie als einheitlich betrachtet werden und müssen lediglich ein einziges mal gespeichert werden (Single Instance). Wird bei einer Blockdeduplizierung lediglich ein Teil einer Datei verändert, müssen nur die geänderten Blöcke mit einem neuen Hash-Wert versehen werden und mit der Index Datenbank verglichen werden.

Die ersten Systeme mit Deduplizierungstechnik wurden im Backupsegment eingesetzt. Backup profitiert traditionell stark von der Deduplizierung, da diverse «Full-Backups» aus Sicherheitsgründen aufbewahrt werden. Hat ein produktives System 20GB Daten, braucht man mit traditionellen Backupmethoden bei Weekly-Full Backups mit einer Aufbewahrungszeit von 3 Monaten mindestens 10x mehr Platz auf der Backupinfrastruktur. Dies obwohl vermutlich 90% der Daten stets identisch waren! Dank der Deduplizierung benötigt man nun nur noch marginal mehr Speicher, was wie folgt illustriert wird:

Backup Volumen = Fullbackup + veränderte und eindeutige Daten über den Zeitraum der Aufbewahrungsfrist

 

Was für Methoden der Deduplizierung gibt es?

Es gibt mehrere Methoden zur Deduplizierung. Je nach Anforderung, hat jede Methode seine Stärken und Schwächen. Am Markt wird meist in zwei Gruppen unterschieden, wobei von jeder Gruppe ein Merkmal in einer Deduplizierungslösung vorhanden ist.

  1. Inline vs Nearline Deduplizierung
  2. Segment vs Blocklevel Deduplizierung

 

Merkmal 1: Inline vs Nearline Deduplizierung

Die Deduplizierungstechnik hat auch seine Herausforderungen. Will man Daten die noch nicht geschrieben wurden bereits beim Transfer deduplizieren, so erhöht das die Latenz, da zusätzliche CPU und IO Zyklen dafür nötig sind. Diese Technik wird Inline Deduplizierung genannt. Der Vorteil dieser Technik liegt auf der Hand. Daten die bereits existieren belasten das meist schwächste Glied in der Speicherkeite, die Harddisk, nicht ein weiteres mal. Grosse und sequentielle Datenströme werden effizient abgearbeitet. Der Nachteil durch die erhöhte Latenz kann, gerade auf kleine aber mengenmässig viele IOs, einen starken Einfluss haben. Durch die physikalischen Gegebenheiten der Inline Deduplizierung, wird sie heute noch selten bei Online Speichersystemen eingesetzt. Dank dem jedoch schnell verändernden CPU Markt, wird diese Schwäche mit der Zeit immer geringer, da diese Methode 100% von der Leistung der CPU abhängt.

Das Nearlineverfahren ist ein guter Kompromiss. Daten werden auf Basis von Schedules dedupliziert, wobei beim ersten Durchgang sämtliche auf dem Volume basierten Daten dedupliziert werden.  Anschliessend werden lediglich die Daten analysiert, welche seit der letzten Deduplizierung neu dazugekommen sind. Der Vorteil dabei ist, dass zwischen den Deduplizierungsvorgängen das System beim Schreiben von Daten sich wie ein traditionelles Speichersystem verhält. Beim Lesen der Daten profitiert man weiterhin von der Deduplikation! Der Nachteil dieses Verfahrens liegt im Prinzip das Daten zweimal verarbeitet werden müssen. Beim ersten mal werden die Daten traditionell gespeichert um anschliessend beim nächsten Deduplizierungsdurchgang erneut gelesen und verarbeitet zu werden. Bei Systemen die zu 100% 7x24h ausgelastet sind, kann dies zu einer Einschränkung der Leistung während der Deduplikation führen, was jedoch selten bei Kunden anzutreffen ist!

 

Merkmal 2: Segment vs Blocklevel Deduplizierung

Die Blocklevel Deduplizierung ist eine simple Methode der Deduplizierung. Jeder Datenblock wird mit einem eigenen Hash-Wert versehen. Rein theoretisch zählt diese Methode zu den effizientesten Methoden der Deduplizierung, resultiert jedoch in einer sehr grossen und strukturell komplexen Index Datenbank. Die meisten Hersteller limitieren darum auch die maximale Grösse eines solchen Volumes auf wenige TB.

Die Segment Deduplizierung wird immer in Kombination mit der Inline-Deduplizierung verwendet. Dabei wird ein Datenstrom analysiert und in variable Segmente z.B. 16k – 4k aufgeteilt und analysiert. Ist ein Hash-Wert eines Segments bereits vorhanden, muss das vollständige Segment nicht erneut abgelegt werden. Gerade bei Backuplösungen ist dies eine sehr effiziente Methode, welche die Deduplizierungsdatenbank auch volumenmässig in Grenzen hält.

 

Wo macht Deduplikation Sinn?

Aktuell sind wir in der IT fleissig am Zentralisieren. Der «IT as a Service» Ansatz führt zu einer starken Konsolidierung. Gerade in virtualisierten Umgebungen wo ganze Desktops virtuell betrieben werden, würde der traditionelle Ansatz zu einer enormen Speicherineffizienz führen. Warum soll das virtuelle C: Drive von 1000 Desktops welche zu 99% identisch ist mehrfach auf dem zentralen Speicher abgelegt werden? Dank der Deduplizierungstechnologie können gerade bei virtualisierten Infrastrukturen Platzeinsparnisse von > 80% erzielt werden. Sprich, statt 1TB werden nur noch weniger als 0.2TB benötigt. Die intelligenten Systeme von NetApp profitieren zudem von der Deduplikation im Cache Bereich. Daten werden dedupliziert sowohl im RAM als auch auf FLASH abgelegt. Gerade bei diesem kostspieligen und mengenmässig kleinem Speicher profitiert man stark von der Deduplizierung.

Der Vorteil der Deduplizierungstechnologie im Backupumfeld ist erheblich. Wo früher diskbasierte Backuplösungen nicht bezahlbar waren, sind genau diese heute dank dieser Technologie immer öfters kosteneffizienter als traditionelle Tape Methoden.

Die folgende Liste zeigt grob auf wo Deduplizierung eingesetzt werden sollte. Die Liste erhebt dabei nicht den Anspruch abschliessend zu sein:

  • Backup
  • Virtuelle Infrastrukturen, im speziellen VDI
  • Datenarchive
  • Home Verzeichnisse
  • PST Dateien
  • Exchange 2010 (hat kein SIS mehr)

 

Wo sollte auf Deduplikation verzichtet werden?

Sie mögen nun wohl denken «Super, dann deduplizieren wir doch gleich ALLES!» Dieser Ansatz kann wegen den existierenden Schwächen der Deduplizierung jedoch einen verheerenden Einfluss auf die Leistungsfähigkeit Ihrer Infrastruktur haben. Klassische Bilddaten lassen sich z.B. sehr schlecht deduplizieren, warum also dies Leistung des Systems minimieren wenn es schon im Vorhinein klar das es kein Vorteil bringt. Transaktionsbasierte Anwendungen die möglichst viele Transaktionen in sehr kurzer Zeit verarbeiten müssen würden unter einer Deduplikation massiv leiden. Oft sind dabei auch die Datenmengen eher marginal. Daten die bereits komprimiert wurden, sind meist nicht für eine Deduplikation geeignet, dazu gehören Video, Bild, Audio und ZIP Daten wie z.B. JPEG, MPEG, MP4, MP3, ZIP.

Die folgende Liste zeigt grob auf wo Deduplizierung NICHT eingesetzt werden sollte. Die Liste erhebt dabei nicht den Anspruch abschliessend zu sein:

  • Bilddaten
  • Videodaten
  • Audiodaten
  • komprimierte Daten
  • OLTP Datenbanken
  • Exchange 2003 & 2007 (verwendet bereits SIS)

 

Lösungen auf Basis der Deduplikations Technologie

BSR & Partner baut Lösungen mit integrierter Deduplikation für Online-, Nearline- sowie Backup-Speicher. Dabei kommen Produkte von NetApp, Pure Storage und EMC zum Einsatz. Während NetApp ganz klar die Führung im Online- und Nearline-Speicher hat, führt Pure Storage den Bereich All-Flash Arrays an. Im Backup Umfeld heist der Pionier DataDomain, der seit einiger Zeit zu EMC dazugehört. Wir empfehlen jedem Kunden speziell bei virtualisierten Umgebungen und traditionellen Backup Ansätzen, Lösungen mit Deduplikation zu berücksichtigen. Die finanziellen Einsparungen und die erhöhte Leistungsfähigkeit gerade bei virtualisierten Infrastrukturen bieten klare Vorteile.

Read more
  • Published in Allgemein
No Comments

Caching oder Tiering, Kampf der Titanen

07.08.2015 by ITRIS

Während die ganz grossen Hersteller mit flashbasierten Caches und Automated-Tiering um sich werfen, vergessen einige sich dabei die essentielle Frage zu stellen: «Was macht technisch und wirtschaftlich gesehen Sinn und was nicht?» Dieser Frage gehen wir in diesem Artikel, im speziellen aus der Sicht eines Write-Caches, auf den Grund.

 

Potential von Flash

Ich denke wir stimmen alle mit der Aussage überein, dass die flashbasierte SSD Technologie ein enormes Potential hat. In der Frage, wie man diese SSD Technologie effizient und wirtschaftlich einsetzt, scheinen sich die Hersteller jedoch nicht ganz einig zu sein. Während die einen die Technologie in ein AST (Automated Storage Tiering) Konzept einbauen, setzt  z.B. NetApp auf VST (Virtual Storage Tiering) und andere auf All-Flash Architekturen.

 

Automated Storage Tiering (AST)

Automated Storage Tiering verschiebt wie bereits im Namen ersichtlich, automatisch Daten zwischen unterschiedlichen Storage Tiers anhand definierter Regeln, wie z.B. Last Access Time. Das Problem bei AST liegt in der Granularität der verschiebbaren Daten. Um eine Granularität auf Blockebene zu ermöglichen, sind sehr grosse und komplexe Zuweisungs- tabellen nötig. Diese Tabellen können ein System oder Kontroller sehr schnell in die Knie zwingen. Bei den heutigen zu verwaltenden Datenmengen, ein vermutlich unmögliches Unterfangen. Aus diesem Grund verwenden die Hersteller bei der AST Technologie eine Segmentierung der Daten. Dabei werden mehrere Blöcke zu einem Segment zusammengefasst, meist mehrere hundert Kilobytes oder gar Megabytes. Der Vorteil liegt auf der Hand, durch die Segmentierung der Daten müssen weniger Metadaten verwaltet werden. Werden jedoch nur wenige Blöcke in einem Segment sehr oft genutzt, wird das ganze Segment auf dem leistungsfähigen Tier, z.B. SSD vorgehalten. Durch die Metadaten wird unter anderem Komplexität hinzugefügt, sowie die einzelnen Tiers zusätzlich mit Backgroundoperationen belastet. Defekte Metadaten oder Tabellen könnten ein System sogar total unbrauchbar machen, egal auf welchem Speicher-Level (Tier).

 

Virtual Storage Tiering (VST)

Virtual Storage Tiering ist im Prinzip nichts anderes als ein Caching auf mehreren Ebenen. Jeder leistungsfähige Kontroller verwendet heute bereits einen L1 Cache, was dem Arbeitsspeicher (RAM) des Kontrollers entspricht. Darin werden Operationen und Informationen zwischengelagert. Das Caching von Daten baut auf der Blockebene auf und ist somit äusserst effizient. Die Grösse eines L1 Caches ist jedoch meist auf wenige bis einige hundert Gigabytes beschränkt. Dank der Flash Technologie, kann nun zusätzlich ein sehr grosser und verglichen zur traditionellen Harddisk sehr leistungsfähiger L2 Cache hinzugefügt werden. Enterprise Speicherkontroller können heute bereits mehrere Terabytes L2 Cache verwalten. Der klare Vorteil beim Caching ist, dass keine Daten verschoben werden, sowie die sehr feine Granularität.

 

All-Flash Architekturen

Bereits heute gibt es Hersteller die nicht mehr auf Tiering setzten, sondern das ganze Speichersystem mit 100% Flash bestücken. Die komplexität ist dabei sicherlich am geringsten, doch ist diese Lösung meist auch die kostspieligste, es sei denn, das System verwendet intelligente und platzsparende Funktionen wie Deduplication, Compression, Thin-Provisioning und Cloning.

 

Wieviele Tiers brauche ich?

Der Speichermarkt ist heute in einem äusserst starken Umbruch, wie er seit der Erfindung der Harddisk nicht war. Die Flashtechnologie wird vermutlich mittelfristig bis langfristig die traditionelle Disk ablösen. Während heute Flash kurze Latenzzeiten bei noch niedriger Datenmenge bietet, ermöglicht die Disktechnologie das Abspeichern von mehreren Terabytes auf einer einzelnen Harddisk. Diese Situation schreit förmlich nach einer Kombination der beiden Technologien, und genau hier gehen die Hersteller zur Zeit getrennte Wege. Eine weitere Leistungsunterscheidung, auf der Ebene der traditionellen Harddisk, ergibt heute, bei den vergleichsweise minimalen Leistungsunterschieden, kaum noch Sinn.

 

AST oder VST?

Wegen der Komplexität des noch jungen AST, sowie dem ständigen Verschieben der Daten von einem Tier zum anderen, was zusätzliche Risiken birgt, ist aus unserer Sicht ein Virtual Storage Tiering, sprich Caching, vorzuziehen. Bei lediglich zwei Speicherebenen (Flash und Harddisk) ist ein komplexes und riskantes Tiering nicht angebracht. Das VST, sprich Caching, bietet hier wesentliche Vorteile.

 

Flashbasierter Write Cache, Ja oder Nein?

Diese Frage ist stark von der Architektur eines Speichersystems abhängig. Wie bei der Autoindustrie, gibt es mehrere Wege um ein System leistungsfähiger zu machen. Als Cache ist das RAM auch heute noch das leistungsfähigste Medium. Nun könnte man auch für Schreiboperationen zusätzlich einen L2 Cache integrieren, dies käme jedoch der simplen Leistungssteigerung von einem Automotor (Turbolader) ähnlich. Die Alternative um die Leistungsfähigkeit eines Fahrzeuges zu optimieren, wäre z.B. Gewicht einzusparen. Ähnliche Ansätze werden bereits heute von den Speicherherstellern gemacht. Die Hauptfrage die sich bei Schreiboperationen stellt ist: „Wie bringe ich die zu schreibenden Daten schnellstmöglich auf das finale Medium?“ In fast allen Fällen ist das finale Medium die traditionelle Harddisk. Diese Frage ist stark von der Architektur eines Speichersystemes abhängig. Dabei kommt es stark auf die Arbeitsweise des Kontrollers an. Zum Beispiel baut NetApp viel Intelligenz in den Speicherkontroller, welche ein optimiertes Speichern der Daten ermöglicht.

So werden von den Servern meist Daten random an den zentralen Kontroller gesendet, dieser wandelt diese jedoch dank des NVRAM Caches in sequentielle Schreiboperationen um. Sequentielle Schreiboperationen sind optimal für traditionelle Harddisks. Ein zusätzliches Zwischenlagern auf teurem Flash Cache wäre eine Ressourcen-Verschwendung. Warum? Ganz einfach, der Flash Cache ist auf geringe Latenz bei kleinen Datenblöcken optimiert. Je grösser die Datenblöcke sind, desto kleiner wird der Durchsatz. Bei traditionellen Harddisks trifft genau das Gegenteil zu. Je grösser die Blöcke, desto besser der Durchsatz. Eine SSD erreicht heute maximale Schreibwerte von ca. 100-200MB/s und ca. 18 – 50k Operationen. Eine traditionelle Harddisk erreicht ca. 70MB/s und 250 Operationen. Der Preisunterschied der beiden Technologien entspricht ca. einem Faktor 10, ohne dabei die massiv höhere Datendichte der Harddisk zu berücksichtigen.

Die einfache Faustregel für die beiden Technologien ist:

„Durchsatz = Harddisk“
«Operationen = Flash“

 

Optimaler Einsatz von Flash

Unter Berücksichtigung der Faustregel, sollten demnach beide Technologien Ihren Stärken entsprechend eingesetzt werden. NetApp hat die Stärken der beiden Technologien optimal in die FAS Speicherprodukte integriert und bietet zusätzlich auch noch eine optimale Integration in der Applikationswelt. Auch Nimble Storage setzt auf ein ähnliches hybrides Speicherkonzept. Profitieren Sie von der langjährigen Erfahrung von BSR & Partner AG. Gerne beraten und unterstützen wir Sie bei Ihren Speicheranforderungen.

Read more
  • Published in Allgemein
No Comments

Flash Mythbusters

20.04.2015 by ITRIS

Sehen Sie wie Vaughn Steward (Pure Storage), Jeremiah Dooley (Solid Fire), Devin Hamilton (Nimble Storage) und Sam Marraccini (EMC) in einem Video Conference Round Table die 10 Top Myths über Flash Speicher besprechen und Sie bestätigen, plausibilisieren oder auffliegen lassen. Ein Interessanter Austausch für technisch versierte Leute.

Read more
  • Published in Allgemein
No Comments

LTB: NetApp RAID-DP

27.03.2015 by ITRIS

In diesem Artikel von LTB (Learn-The-Basics) besprechen wir die RAID-DP Implementation von NetApp.

Angesichts wachsender Festplattenkapazitäten wird die Ausfallsicherheit zum Schutz wichtiger Daten zu einer immer größeren Herausforderung. Die Festplattengröße hat immer weiter zugenommen, aber die Zuverlässigkeit ist in etwa gleich geblieben. Eine hohe Festplattenkapazität bedeutet, dass eine Wiederherstellung ausgefallener Festplatten auf der Grundlage von RAID Parity-Informationen deutlich mehr Zeit in Anspruch nimmt. Dadurch steigt auch das Risiko des Ausfalls einer zweiten Festplatte bzw. die Gefahr des Auftretens eines anderen Fehlers, noch bevor die Wiederherstellung abgeschlossen ist. Die Wahrscheinlichkeit von Bit- und Blockfehlern nimmt auch proportional mit der gestiegenen Kapazität zu. Dadurch steigt auch das Risiko, dass ein solcher Fehler ausgerechnet während der Wiederherstellung auftritt, oder dass es zu doppelten Ausfällen kommt – was in Single Parity RAID Implementierungen zu Betriebsunterbrechungen und Datenverlusten führen kann.

Als Lösung für dieses Problem entwickelte NetApp mit RAID-DP, Dual-Parity RAID Implementierung. Es gibt zwar auch andere Dual-Parity RAID 6 Implementierungen, aber RAID-DP ist die einzige, die ohne nennenswerte Performance-Einbußen Schutz vor doppeltem Festplattenausfall in derselben RAID-Gruppe bietet.

RAID-DP funktioniert so zuverlässig, dass es als Standardoption in NetApp Storage-Systemen verwendet wird. Tests zufolge ist die Random Write Performance von RAID-DP nur 2 % niedriger als bei der NetApp RAID 4 Implementierung. Im Vergleich dazu sinkt die Random Write Performance bei der RAID 6 Implementierung vergleichbarer Storage-Anbieter gegenüber RAID 5 auf dem selben System um 33 %. (RAID 4 und RAID 5 sind beides Single-Parity RAID-Implementierungen.) Bei RAID 4 wird eine separate Parity Disk verwendet. Bei RAID 5 werden die Paritätsinformationen auf alle Festplatten innerhalb einer RAID-Gruppe verteilt, damit nicht eine Festplatte (mit allen Paritätsinformationen) zur Schwachstelle des Systems wird. Dies ist bei NetApp RAID 4 aufgrund der Art und Weise, in der Daten in Data ONTAP geschrieben werden, nicht nötig. (Hierauf wird zu einem späteren Zeitpunkt noch genauer eingegangen.)

RAID-DP bietet unter anderem folgende entscheidende Vorteile:

  • Maximale Datensicherung: Mit NetApp RAID-DP ist die Gefahr eines Datenverlusts aufgrund doppelten Festplattenausfalls Hunderte Male niedriger als bei RAID 5 Konfigurationen. RAID 1+0 bietet zwar eine bessere Datensicherung als RAID 5, aber bei einem Ausfall zweier gespiegelter Festplatten können auch hier Daten verloren gehen. RAID-DP bietet vollständigen Schutz vor doppeltem Festplattenausfall, und das zur Hälfte der Kosten von RAID 1+0.
  • Geringste Kosten: Bei RAID 5 Implementierungen ist die Größe der RAID-Gruppen oft auf 3+1 oder 5+1 beschränkt (was zu einem Mehraufwand von 17 % bis 25 % führt). RAID 1+0 erfordert 1+1 (Mehraufwand von 50 %). NetApp hingegen unterstützt RAID-Gruppen von bis zu 28 (26+2), deren Mehraufwand bei gerade einmal 7 % liegt.
  • Kompromisslose Performance: Wie bereits zuvor erläutert, ist bei herkömmlichen Dual-Parity-Technologien häufig ein starker Einbruch bei der Schreib-Performance zu verzeichnen, sodass der Einsatzbereich im Wesentlichen auf Applikationen mit hohem Leseanteil beschränkt ist. NetApp RAID-DP weist im Vergleich zu Single-Parity RAID-Implementierungen praktisch keine Performance-Verluste auf, wird von NetApp als Standard eingesetzt und kann bei allen Workloads verwendet werden.

 

Implementierung von RAID-DP in Data ONTAP

Enge Integration in NVRAM und WAFL

Die RAID-DP Implementierung in Data ONTAP ist eng mit NetApp NVRAM und NetApp WAFL (Write Anywhere File Layout) verknüpft. Dies ist der Grund für die außergewöhnliche Performance von RAID-DP im Vergleich zu anderen RAID 6 Implementierungen.

Da Schreibvorgänge im Arbeitsspeicher viel schneller ablaufen als auf der Festplatte, nutzen Storage-Anbieter in der Regel einen batteriegestützten, nichtflüchtigen RAM-Speicher (NVRAM) als Schreib-Cache und zur Steigerung der Schreib-Performance. NetApp setzt NVRAM in allen Storage-Systemen ein, aber dies erfolgt in der NetApp Data ONTAP Betriebsumgebung signifikant anders als in herkömmlichen Storage Arrays.

Der NVRAM-Speicher wird als Journal der von Data ONTAP seit dem letzten Konsistenzpunkt empfangenen Schreibanforderungen verwendet. Der Konsistenzpunkt ist eine im Abstand von einigen Sekunden von Data ONTAP erzeugte spezielle Snapshot Kopie, die ein vollständig konsistentes Abbild des Dateisystems auf der Festplatte darstellt. Ein Konsistenzpunkt bleibt auch beim Schreiben neuer Blöcke auf Festplatte unverändert, da in Data ONTAP vorhandene Festplattenblöcke nie überschrieben werden. Wenn in dieser Konfiguration ein Fehler auftritt, kehrt Data ONTAP einfach zum letzten Konsistenzpunkt zurück und geht dann das Journal der Schreibanforderungen aus dem NVRAM-Speicher erneut durch.

Diese NVRAM-Verwendung unterscheidet sich deutlich von der in herkömmlichen Storage Arrays, in denen im NVRAM Schreibanforderungen auf Ebene des Festplattentreibers zwischengespeichert werden. Sie bietet zahlreiche Vorteile: Es wird weniger NVRAM-Speicher benötigt, die Reaktionszeit beim Schreiben wird verkürzt, und der Schreibvorgang auf Festplatte wird optimiert.

 

Optimierung von Schreibvorgängen: RAID 4

Die Cache-Speicherung von Schreibvorgängen ist eng in die NetApp RAID-Implementierungen integriert und ermöglicht die Planung von Schreibvorgängen, um die Performance für das zugrunde liegende RAID Array zu optimieren. Bevor ich näher auf RAID-DP eingehe, werde ich erläutern, wie NetApp diesen Vorgang bei der RAID 4 Implementierung optimiert.

In RAID Arrays werden Daten in Stripes verwaltet. Ein solcher Stripe besteht aus einem Datenblock auf jeder Festplatte in der RAID-Gruppe. Bei jedem Stripe wird ein Block als Paritätsblock festgelegt. In Abbildung 1 ist eine herkömmliche Horizontal Parity RAID 4 Gruppe dargestellt, bestehend aus vier Disks (die ersten vier Spalten, gekennzeichnet mit «D») und einer Single-Parity Disk (letzte Spalte, gekennzeichnet mit «P»).

In diesem Beispiel wird die Parität zu Demonstrationszwecken wie folgt berechnet: Die Werte in jedem horizontalen Stripe werden addiert, und die Summe (3 + 1 + 2 + 3 = 9) wird als Paritätswert gespeichert. In der Praxis wird die Parität mit einer XOR-Operation (exclusive OR) berechnet.

Wenn Daten nach dem Ausfall eines Laufwerks wiederhergestellt werden müssen, wird der Vorgang zur Erzeugung von Parität einfach umgekehrt. Fällt beispielsweise die erste Festplatte aus, so berechnet RAID 4 die Daten in den einzelnen Blöcken dieser Festplatte aus den verbleibenden. In unserem Beispiel müssten einfach die Werte der anderen Festplatten vom Paritätswert subtrahiert werden (9 – 3 – 2 – 1 = 3). Dies erklärt auch, warum Single-Parity RAID nur vor dem Ausfall einzelner Festplatten schützt. Wenn zwei Werte fehlen, sind nicht genügend Informationen zur Berechnung der fehlenden Werte vorhanden.

In typischen RAID-Implementierungen muss zum Schreiben neuer Daten in ein Stripe, das bereits Daten (und Paritätsinformationen) enthält, zuerst der Paritätsblock gelesen werden. Anschließend wird ein neuer Paritätswert für den Stripe berechnet, und erst dann werden der Datenblock und der neue Paritätsblock geschrieben. Das ist bei jedem zu schreibenden Block ein erheblicher Mehraufwand.

Bei NetApp wird dieser Mehraufwand dadurch reduziert, dass Schreibvorgänge im Arbeitsspeicher (durch das Journal im NVRAM geschützt) gepuffert werden. Anschließend werden vollständige RAID Stripes samt Paritätsinformationen geschrieben. Auf diese Weise müssen die Paritätsdaten vor dem Schreibvorgang nicht mehr gelesen werden, und WAFL kann eine gemeinsame Paritätsberechnung für den gesamten Stripe mit Datenblöcken vornehmen. (Die genaue Zahl der Blöcke hängt von der Größe der RAID-Gruppe ab.) Dies ist möglich, da bei WAFL geänderte Datenblöcke nie überschrieben werden und da Daten und Metadaten (die Speicherinformationen, aus denen hervorgeht, wie die Daten organisiert sind) an jedem Speicherort geschrieben werden können. In anderen Daten-Layouts werden geänderte Datenblöcke in der Regel überschrieben, und Metadaten müssen sich an einem bestimmten Speicherort befinden.

 

Zusätzliche Diagonal Parity: RAID-DP

Bei NetApp RAID-DP kommen pro RAID-Gruppe zwei Parity Disks zum Einsatz. Auf einer davon werden die für horizontale Stripes berechneten Paritätsinformationen gespeichert (wie oben erläutert). Auf der zweiten werden aus diagonalen Stripes errechnete Paritätsinformationen gespeichert. In Abbildung 2 sind zur Horizontal Parity aus Abbildung 1 ein Diagonal Parity Stripe (blau schattiert) und eine zweite Parity Disk (mit «DP» gekennzeichnet) hinzugekommen.

In die Berechnung des Diagonal Parity Stripe wird ein Block aus der Horizontal Parity Disk miteinbezogen. RAID-DP behandelt sämtliche Festplatten aus der ursprünglichen RAID 4 Konfiguration – Daten- und Parity Disks – gleich. Eine Festplatte ist aus dem Diagonal Parity Stripe ausgenommen. In Abbildung 3 sind die zusätzlichen Horizontal und Diagonal Parity Stripes dargestellt.

Bei jedem Diagonal Parity Stripe fehlt eine Festplatte, und zwar bei jedem eine andere. Es gibt auch einen Diagonal Stripe (die weißen Blöcke in Abbildung 3), zu dem auf der Diagonal Parity Disk keine Paritätsinformationen gespeichert sind. Dies wirkt sich nicht nachteilig auf die Wiederherstellbarkeit sämtlicher Daten aus.

 

Wiederherstellung nach doppeltem Festplattenausfall

Durch die Kombination aus Horizontal und Diagonal Parity ist eine Wiederherstellung auch einem doppelten Festplattenausfall in derselben RAID-Gruppe möglich. Wenn nur eine Festplatte ausfällt oder ein Block- bzw. Bitfehler auftritt, werden zur Wiederherstellung nur die horizontalen Paritätsinformationen benötigt.

Fallen zwei Festplatten aus, ermittelt RAID-DP zuerst (wie in Abbildung 4 dargestellt), in welcher Reihenfolge die Wiederherstellung vorzunehmen ist. Wie bereits erwähnt, lassen sich Daten aus Paritätsinformationen nur dann wiederherstellen, wenn maximal ein Element fehlt. Aus diesem Grund wird bei den Diagonal Parity Stripes jeweils eine Daten-Festplatte übersprungen.

Durch die Wiederherstellung des ersten Blocks mittels Diagonal Parity wird nun auch die Wiederherstellung des zweiten Blocks mittels Horizontal Parity (erste Reihe in Abbildung 4) möglich. Dies wiederum ermöglicht die Wiederherstellung eines weiteren fehlenden Blocks mit Hilfe von Diagonal Parity. Diese Wiederherstellungskette wird fortgesetzt, bis der Stripe erreicht ist, zu dem keine diagonalen Paritätsinformationen gespeichert wurden. Wenn dieser Punkt erreicht ist, wird ein anderer Einstiegspunkt gesucht, und es beginnt eine neue Wiederherstellungskette mit diagonalen und horizontalen Stripes. Irgendwann sind genügend fehlende Blöcke wiederhergestellt, sodass alle Stripe-Werte ausschließlich über Horizontal Parity errechnet werden können. Dieses Verfahren wird im technischen Bericht TR-3298: RAID-DP ausführlicher erläutert.

Die vorliegenden Beispiele sind vereinfacht, um das grundlegende Kontept von RAID-DP zu erläutern. Das Verfahren funktioniert jedoch ebenso in realen Storage-Systemen mit Dutzenden von Festplatten pro RAID-Gruppe und Millionen von Datenreihen. In unserem Beispiel fallen zwei benachbarte Festplatten aus. Das Verfahren funktioniert aber unabhängig davon, ob die ausgefallenen Festplatten neben einander liegen oder nicht, und ob es sich um Daten- oder Parity Disks handelt.

 

Optimierung von Schreibvorgängen: RAID-DP

Wie bereits im Zusammenhang von RAID 4 erläutert, wird bei WAFL stets versucht, Daten zu puffern und vollständige Stripes auf Festplatte zu schreiben. Bei RAID-DP werden Datenblöcke im Arbeitsspeicher gepuffert, damit mehrere Horizontal und Diagonal Parity-Berechnungen in einem einzelnen Schreibvorgang vorgenommen werden können. Die 2-prozentige Performance-Einbuße bei RAID-DP gegenüber RAID 4 hängt mit dem Zusatzaufwand für die Diagonal Parity-Berechnung und das Schreiben des zweiten Parity-Blocks zusammen.

 

Fazit

NetApp RAID-DP ist ein wichtiges Tool zur Steigerung der Ausfallsicherheit, das bei praktisch allen gängigen Storage Workloads eingesetzt werden kann. Weitere Informationen zu NetApp RAID-DP finden Sie in den Technischen Berichten TR-3298: Implementation of Double-Parity RAID for Data Protection und WP-7005: NetApp RAID-DP: Dual-Parity RAID 6 Protection Without Compromise.

Read more
  • Published in Allgemein
No Comments

FlexPod Cooperative Support

07.08.2014 by ITRIS

Müde vom Ping-Pong der Hersteller wenn es um Supportfragen geht? Keine Zeit für das Validieren von Firmwares, Treibern und kompatibilitäts Matrixen? Dann sollten Sie ernsthaft unsere Agile Rechenzenterlösung FlexPod anschauen. Der folgende Video gibt einen Einblick in die das Cooperative Support Modell von Cisco und NetApp:

Read more
  • Published in Allgemein
No Comments

FlexPod Kunden äussern sich zu den Business Benefits

06.08.2014 by ITRIS

Quest, Cirrity und State of Alaska äussern sich zu den Unternehmensvorteilen mit der FlexPod Architektur. Sind Sie noch nicht Agile? Kontaktieren Sie uns für ein Workshop auf unserer eigenen FlexPod Demoinfrastruktur. Ob Virtuelle Server Infrastrukturen oder Virtuelle Desktop Infrastrukturen, wir bieten Ihnen eine live Demo der äusserste effizienten und flexiblen Lösung.

Read more
  • Published in Allgemein
No Comments
  • 1
  • 2
  • 3

Suche

Weitere News

  • ITRIS Gruppe gehört zu den Top 10 Arbeitgebern der Schweiz in der Branche Internet, Telekom und IT

  • Cloud Security Services by ITRIS One AG

    ITRIS Cloud Security Services: Mehr Sicherheit in der Cloud

  • Data Center Summit 2023 – Green and Beyond

  • Datenautomatisierung

    Nur wer sein Netzwerk kennt, kann die IT effizient nutzen

  • Hyperconverged Event

    Hyperconverged Event

Kontakt
ITRIS One AG
Industriestrasse 169
8957 Spreitenbach

+41 56 418 64 64
one@itris.ch

Copyright
Die Inhalte und Bilder dieser
Webseite sind urheberrechtlich
geschützt.

AGB
Impressum

Support
ITRIS One Services
+41 56 418 62 62

ITRIS One Solutions
0800 558 880

Wir bieten unseren Kunden einen schnellen Fernsupport an.

Fernsupport

Quicklinks

  • IT SOLUTIONS
    • DATACENTER & CLOUD
    • NETWORK SOLUTIONS
    • IT SECURITY
    • UNIFIED COLLABORATION
    • DIGITAL WORKPLACE
    • HEALTHCARE IT SOLUTIONS
  • IT SERVICES
    • Professional IT Services
    • IT Service Management
    • IT Support Services
  • CLOUD SERVICES
    • Übersicht
    • Cloud Security Service
    • Cloud Readiness Check
    • Unified Collaboration as a Service
  • UNTERNEHMEN
    • ITRIS Gruppe
    • Über uns
    • Jobs | Wir suchen Dich →
    • Standorte
    • Referenzen
    • Partner
    • Awards
    • News
    • Expertenstatements
    • Events
  • KONTAKT

Social Media

ITRIS AG ITRIS AG
ITRIS One Siegel Top Arbeitgeber IT Schweiz
ITRIS One AG

© Alle Rechte vorbehalten.

TOP