Was passiert mit meinen Daten?
Strategien für eine effiziente Dokumentenablage und
erfolgreiche Langzeitarchivierung
Kinder lernen bereits in der Grundschule, was Hieroglyphen
sind. Die Schriftzeichen der antiken Sprache haben in Stein gemeißelt mehr als
2.000 Jahre überdauert. Eine Glanzleistung der damaligen Archivare! Es ist
äußerst fraglich, ob wir im Jahr 4.000 oder sei es nur in 20, 30 oder 50 Jahren
noch auf heute gängige Datenträger wie Festplatten, Tapes, DVDs, CD-ROMs oder
Mikrofilme zugreifen können. Der zunehmenden Informationsflut des digitalen
Zeitalters sollten Unternehmen mit einem bezahlbaren Medienmix aus genügend
langlebigen Datenträgern und Archivlösungen begegnen. Ebenso muss auch die
Lesbarkeit von wichtigen Geschäftsinformationen für einen langen Zeitraum
gesichert werden. Wer dabei nur auf offene Systeme und Standardformate setzt,
zahlt nur die halbe Miete. Die kostbaren Unternehmensinhalte müssen in
komplexen Umgebungen wieder gefunden, Versionen von Software und
Betriebssystemen wollen verwaltet, und die Daten sollen unverändert digital
archiviert werden. Enterprise Content Management (ECM) kann diesen Aufgabenberg
bewältigen.
In der Praxis haben die Wirtschaftstreibenden erkannt, dass
die Konsolidierung von Speicherinseln für E-Mails, Bilder, Auftragsdaten und
andere unstrukturierte Inhalte notwendig ist. Von der Umsetzung eines
umfassenden Content Managements sind sie allerdings noch weit entfernt, wie
aktuelle Studien von Analysten zeigen. Welche effizienten und kostengünstigen Wege
gibt es also, weg von der unstrukturierten Datenablage auf diversen
Speicherinseln und -medien hin zu einem durchgängigen Management
unstrukturierter Inhalte und deren langfristiger Aufbewahrung? Um es vorweg zu
nehmen: Unternehmen müssen den ECM-Berg nicht an einem Tag besteigen. Die
einzelnen Phasen der Datenerfassung, Strukturierung, Speicherung, Verteilung
und Archivierung können in Teilprojekten schrittweise eingeführt werden. Doch
vor der praktischen Umsetzung steht die Theorie: ECM-Strategien müssen gut
durchgeplant und den Unternehmensprozessen angepasst sein. Bevor die
IT-Abteilung die passenden Hard- und Software-Lösungen auswählen kann, sollten
Archiv- und Rechtsexperten bei der Definition von Regeln und Metadaten helfen,
so dass die Informationen automatisch auf das adäquate Medium gespeichert
werden.
Formatwahl entscheidend
Der eigentliche ECM-Prozess beginnt bei der Erstellung
unstrukturierter Dokumente durch einen Autoren, oder der Erfassung durch
Scannen, Bildbearbeitung oder Formularverarbeitung. Natürlich ist es sinnvoll,
alle Dokumente in Standard-Formaten wie XML, TIFF Group 4, Adobe PDF oder JPEG
zu speichern und zu archivieren. Gleichzeitig sollte auch der bereits abgelegte
Informationsbestand auf seine Formatvielfalt hin überprüft werden. Viele
ECM-Systeme verwalten sogenannte COLD (Computer Output on Laserdisk)-Dokumente,
die bei Druckprozessen generiert werden, die getrennt nach Inhalten und
Formulardaten umständlich gespeichert werden müssen. Sinnvoll ist hier eine
frühe Konvertierung in den Archivierungs-Standard PDF/A.
Recherchierbarkeit durch Klassifizierung und
Kategorisierung
Im zweiten Schritt werden die erfassten Informationen mit
Hilfe von Metadaten klassifiziert und kategorisiert. Informationen wie
Dokumententyp, Autor, Zugriffsrechte oder Verfallsdatum strukturieren die
Informationsflut und machen sie über Anwendungen hinweg recherchierbar. Bei
größeren Unternehmen mit hohem Datenaufkommen kann diese Phase schnell zur
Mammutaufgabe werden. Eine große Hilfe sind hier Software-Module, die die
Klassifizierung der Unternehmensdaten automatisieren. Die Ergebnisse der
Klassifizierung dienen dann zur Kategorisierung oder als Suchbegriffe, die in
die Metadaten der Inhalte einfließen. Viele Anwender tun sich schwer damit, die
Metadaten bei der Erzeugung von Inhalten konsistent einzugeben. Das schränkt
die Wiederauffindbarkeit und programmierte Verarbeitung von Inhalten erheblich
ein. Ein entsprechendes Programm schlägt bei der Datenerstellung automatisch
Metadaten vor, die der Anwender annehmen oder ablehnen kann. Die Erarbeitung
von Kategorien von Grund auf kann zur gewaltigen Aufgabe werden, für die
zahlreiche Funktionen in der Organisation zusammenwirken müssen. Um diesen
Prozess zu erleichtern, gibt es Software mit vorbereiteten Taxonomien
(Hierarchieren von Kategorien) für eine Reihe verschiedener Branchen und
Aufgabenbereiche.
Speicherstufen bringen wirtschaftliche Vorteile
Bis jetzt wurden die Informationen organisatorisch für die
digitale Ablage gut vorbereitet. Nun müssen sich die IT-Experten mit der
Konsolidierung der unterschiedlichen Speichermedien befassen. Sinnvoll ist auf
jeden Fall die Vernetzung vorhandener Speicherinseln in einem Storage Area
Network (SAN) respektive Network Attached Storage (NAS) für File-Daten.
Innerhalb dieser Verbünde sollten die Informationen entsprechend ihrer Relevanz
auf die jeweils passenden Speichermedien kaskadiert werden. Die Daten der
zentralen SAP-Anwendung gehören demgemäß auf hochverfügbare Platten-Arrays,
während der interne E-Mail-Verkehr sicher auch auf preisgünstigen ATA-Platten
oder Magnetbändern gut aufgehoben ist. Wer für unterschiedliche
Service-Level-Anforderungen die entsprechenden Speicherebenen implementiert,
differenziert auch seine Kosten. Hochverfügbarer primärer Speicher auf High-End
RAID-Systemen kostet derzeit mindestens 13 Euro pro Gigabyte (GB). Im Low-End
speichert ein Unternehmen auf ATA-Platten ein GB für etwa vier Euro. Eine
traditionelle Tape-Sicherung ist schon für 90 Cent pro GB zu haben (Quelle:
Gartner/EMC).
Archivsilos reduzieren oder zusammenführen
Neben der Einführung von Speicherstufen sollte auch die
absolute Anzahl der Speichermedien verringert werden, um die Administration zu
vereinfachen und die Systeme fit für die Anforderungen der Zukunft zu machen.
Mit dem Preisverfall bei Festplattenspeichern geht der Trend ganz klar weg von
Magneto-optischen Technologien, CD-ROM oder DVDs. Auch WORM-fähige Magnetbänder
laufen den Archiv-Jukeboxen von einst den Rang ab. Trotzdem müssen ältere
Technologien nicht gleich entsorgt werden. Je nach Anforderung im Unternehmen
können diese nach wie vor ausreichend sein. Entsprechende Archivierungssoftware
hilft zudem dabei, sämtliche Archivsilos in einem virtuellen Speicherpool zu
verwalten. Um die Lesbarkeit der Daten zu gewährleisten, empfiehlt das
Bundesarchiv in Köln, CDs und DVDs alle fünf Jahre umzukopieren. Wer sich von
den glänzenden Scheiben trennen möchte, sollte ihren Datenbestand sorgsam
prüfen und auf entsprechende Speichermedien migrieren. Auch Mikrofilme sind in
den Unternehmen immer noch ein weit verbreitetes Archivmedium. Da es sich um
eine analoge Technologie handelt, sollten Mikrofilme nur der nachgeordneten
Archivierung bereits digitalisierter Dokumente dienen. Einzig auf Mikrofilm
gebannte steuerlich relevante Belege haben dort seit Einführung der GDPdU
(Grundsätze zum Datenzugriff und zur Prüfbarkeit digitaler Unterlagen) im Jahr
2001 nichts mehr zu suchen, oder sollten schnellstens gescannt und einem
digitalen Speicher zugeführt werden.
Magnetbänder sind als Archivdatenträger weiterhin äußerst
populär. Der Wehrmutstropfen dabei: die Bänder sollten alle zwei Jahre
ausgewechselt werden, da ihre Magnetisierung nicht von Dauer ist. Vor dem
Zugriff lädt ein Lesegerät jedes Band, was zu Wartezeiten führt. Hier muss jede
Organisation selbst entscheiden, wie schnell sie auf Archivdaten zugreifen muss
und ob es lohnt, sich eher der schnelleren Plattenspeicherung zuzuwenden. Mit
Einführung der CAS-Technologie (Content-Addressed-Storage) vor einigen Jahren drängen
auch die Festplattenhersteller in den Archivierungsmarkt. CAS archiviert
langlebige, gleich bleibende Informationen auf Plattenbasis revisionssicher.
Direkt mit ECM- und DMS-Systemen gekoppelt, erlaubt ein solches Speichersystem
den schnellen Online-Zugriff auf Archivdaten. Im Vergleich mit den
Tape-Klassikern verbrauchen die CAS-Archive zwar mehr Strom und sind aufgrund
ihrer Software-Intelligenz wartungsanfälliger. Vorteile wie der RAID-Schutz der
Archivdaten, die automatische Migration auf neue Hardware-Generationen, die
programmierbare Löschung von Informationen, integrierte Rechteverwaltung sowie
die höhere Performance stechen Tape-Libraries allerdings rasch aus. Hinzu
kommt, dass Anwender, die wenig Stellplatz zur Verfügung haben oder diesen mieten
müssen, bei Plattenarchiven nur mit höchstens zwei 19-Zoll-Gehäusen im
Rechenzentrum kalkulieren müssen.
Moderne Dokumentenablage und Langzeitarchivierung
Wer sich zu lange ziert und seine Datenablagetechnologien
nicht kontinuierlich modernisiert, riskiert die digitale Erinnerungslosigkeit:
Informationen können nicht in angemessener Zeit oder aufgrund mangelnder
Indizierung gar nicht wieder aufgefunden werden. Die eingangs erwähnte
ägyptische Methode der Langzeitarchivierung ist für flüchtige, digitale
Informationen leider nicht praktikabel. Viel Augenmerk sollten Unternehmen, die
ein Enterprise Content Management einführen, daher auf die Skalierbarkeit von
Formaten, Anwendungen und Systemen legen. Denn um die regelmäßige Nachrüstung
und Modernisierung der vorhandenen Medien und Infrastruktur kommt nach heutigem
Stand der Archivierungstechnik keine IT-Abteilung herum.
((9.192 Zeichen))
Autor: Daniel Pelke, Technical Director Germany, EMC Software
Group
So funktioniert der Langzeitzugriff
- Analyse der Geschäftsprozesse
- Archivierungsregeln und Metadaten abteilungsübergreifend
definieren
- ECM-Phasen (Erfassung, Strukturierung,
Speicherung/Bereitstellung, Archivierung) schrittweise planen und umsetzen
- Formatmix analysieren, Standardformate festlegen
- bei großen Datenvolumina: Software zur automatischen
Klassifizierung/Kategorisierung einsetzen
- Speichernetze mit unterschiedlichen Speicherebenen
einführen
- Medienmix konsolidieren durch Ersatz, Migration oder
Bildung virtueller Speicherpools
- Vor- und Nachteile von Tape- oder CAS-Speichern abwägen
- Migrationszyklen planen