Een petabyte is meer dan 1000 terabyte. Of: hoe groot wordt ons nationaal archief?
Mega, giga, tera, peta…. Wat komt er ook al weer na peta? Daar moest ik aan denken bij het lezen van het bericht dat IBM een onvoorstelbaar groot opslagsysteem realiseert. 8 keer groter dan het grootste opslagsysteem tot nu toe. Genoeg voor 5 GB on-line opslagcapaciteit voor 24 miljoen gebruikers. Het systeem zal bestaan uit 200.000 harde schijven. Een omvang die ons voorstellingsvermogen te boven gaat. Een petabyte is 1.000.000.000.000.000 byte ofwel 1 biljard byte. (na peta komen nog exa, zetta, votta, de opslagcapaciteit kan gewoon nog een tijdje blijven doorgroeien…)
De droom: één digitaal archief
Ik moest ook denken aan de digitale droom van mijn collega. Een droom over een digitaal archief waarin documenten eenmalig en centraal worden opgeslagen. Hoe groot wordt zo’n digitaal archief wel niet als de Nederlandse overheden alle archiefstukken digitaal in een systeem gaan bewaren?
De voordelen van het eenmalig en centraal opslaan van documenten liggen voor de hand; geen dubbele opslagkosten, één loket waar documenten bewaard en opgevraagd kunnen worden. Voor gebruikers is dat het belangrijkste pluspunt: het systeem is transparant. Het doet er voor de gebruiker immers niet toe waar het document bewaard wordt, als het maar op efficiënte en effectieve wijze vindbaar is. Maar betekent één loket ook dat alle documenten op 1 plaats in 1 systeem bewaard moeten worden? En wat is dat: 1 systeem?
Het is niet één technisch onderdeel
Zo’n gecentraliseerd systeem zal de verschillende verschijningsvormen van archiefstukken moeten kunnen beheren. Naast de digitale tekstdocumenten, images, foto’s zijn er inmiddels diverse formaten bijgekomen. Denken bijvoorbeeld aan het archiveren van de gemeentelijke website. En bij steeds meer gemeenten worden nu al de raadsvergaderingen op video vastgelegd en deze video’s worden gezien als formeel te archiveren ‘stuk’. Er zijn ook al gemeenten die Twitter als formeel communicatiekanaal gebruiken; ook dit zal gearchiveerd moeten kunnen worden. Het is duidelijk dat de technologische ontwikkelingen niet stil staan, niet stil gaat staan en er dus op korte termijn nog nieuwe digitale vormen zullen bijkomen. Al deze archiefstukken stellen eigen eisen aan het digitale archief ten aanzien van het opslaan van de archiefstukken en de wijze waarop de archiefstukken naar de gebruiker wordt gebracht. Een video wordt tegenwoordig gezien de omvang van het bestand naar de gebruiker gestreamd: de gebruiker bekijkt de video al zodra de eerste minuut van de video ontvangen is. De rest van de video wordt verstuurd terwijl de gebruiker kijkt.
Een normaal (klein) document kan gewoon door de gebruikers worden gedownload. De systemen voor het archiveren van websites of twitterberichten stellen ook eigen eisen aan de opslag en het afleveren van de documenten bij de gebruiker. De technische oplossingen voor de verschillende archiefstukken zijn zo verschillend dat dat éne logische archief al snel uit verschillende technische onderdelen zal bestaan.
Het is niet één opslagmedium
Een andere reden waarom de archiefstukken niet op 1 fysieke plaats en 1 applicatie bewaard hoeven worden, zijn de kosten voor de opslagmedia. Alles on-line bewaren is nog steeds een kostbare optie. Wanneer archiefstukken niet of nauwelijks geraadpleegd (gaan) worden kunnen ze naar een goedkoper medium verplaatst worden (bv. tape).
Het is wel één logisch geheel
Een groot nadeel van gecentraliseerde opslag is dat de gebruikers van het archief juist niet gecentraliseerd zijn. Zij zitten verspreid door het hele land, en misschien wel daarbuiten. Maar gebruikers van het digitaal gemeentelijk archief, zijn geconcentreerd in die gemeente. Waarom dan niet alle data op die locatie bewaren? Als het gecentraliseerde loket weet in welk archief de gevraagde document worden bewaard, is er nog steeds sprake van één logisch systeem, met alle voordelen van dien.
Droom of werkelijkheid?
Eén transparant digitaal archief betekent niet vanzelfsprekend één fysieke plek of één toepassing. Het betekent wel: één logisch digitaal loket voor de gebruiker. Zowel voor gebruikers die documenten willen archiveren als gebruikers die het archief willen raadplegen. Met slechts één zo’n loket, is het voor iedereen duidelijk waar en hoe documenten opgevraagd kunnen worden, maar ook aan welke eisen de documenten moeten voldoen om de documenten op te kunnen slaan. Zo komt de digitale droom uit en blijkt het geen nachtmerrie.
Reactie op dit bericht
De diverse soorten documenten in het archief zijn ook al vindbaar gemaakt. Het systeem dat daarvoor wordt gebruikt heet Google..