of 58940 LinkedIn

Het netwerk is eindelijk de computer geworden

Het netwerk is eindelijk de computer geworden. Voor de ontwikkeling van intelligentie start- en end-points van groot belang om het data transport beperkt te houden

In onze informatiewereld zijn glasvezelverbindingen de transportwegen om de enorme hoeveelheden data te transporteren die we met elkaar uitwisselen. De bandbreedte van een kabelverbinding is een eenheid voor de hoeveelheid data die we in een tijdseenheid over die kabel kunnen vervoeren.

Technisch gesproken is bandbreedte het verschil tussen hoogste frequentie en laagste frequentie van radiosignalen die kunnen worden doorgelaten.

 

Maar in datacommunicatie wordt met bandbreedte meestal aangegeven hoeveel data per seconde door een verbinding kan worden gestuurd. Het is de kanaalcapaciteit die in bits per seconde wordt uitgedrukt. Met de huidige glasvezelverbindingen spreken we meestal over Gigabits per seconde.

 

Holle vezels
Alle datacenters zijn wereldwijd met glasvezel met elkaar verbonden en de hoeveelheid data die we transporteren, is enorm. Vele Terabits per seconde (triljarden bits) is al heel normaal. De lichtsnelheid bedraagt in vacuüm bijna 300 miljoen meter per seconde, maar in glas is dat echter 30 procent minder. In Engeland hebben onderzoekers nu een holle vezel ontworpen die vrijwel geheel met lucht is gevuld en zij konden daarmee toch 99,7 procent van de maximale lichtsnelheid bereiken. In hun laboratorium hebben zij op die wijze een snelheid van 73,7 Tbit/s bereikt.

 

In de praktijk lijkt een capaciteitsverhoging tot enkele tientallen Terabits per seconde een reële verwachting voor de komende jaren. Het is wetenschappers gelukt dit te realiseren door pulsen met een andere vorm te genereren, waardoor minder ruimte op de vezel wordt verspild. Deze oplossingen zijn goedkoop en inmiddels zo volwassen dat zij in de praktijk kunnen worden toegepast.

 

De lichtsnelheid en de wet van Moore
De snelheid om een bepaalde hoeveelheid data door te geven, bepaalt hoe snel we data van de ene naar de andere plaats kunnen transporteren. In een eerdere blog over data-gravity ‘de aantrekkingskracht van data’ heb ik al eens uitgelegd dat we een andere architectuur van applicaties en data aan het ontwikkelen zijn. In de back office zijn de applicaties groot en bevatten heel veel regels software – dus data – terwijl de omringende, gestructureerde datasets relatief klein zijn.

 

Nu zijn we applicaties ook als ‘microservices’ aan het ontwikkelen, terwijl de datasets als ongestructureerde data enorm toenemen. Omdat die data zo groot worden en de verplaatsbaarheid van hele grote datasets veel tijd kost, wordt de plaats waar je je data (definitief) laat landen steeds belangrijker. De ironie is dat de processorsnelheid alsmede de capaciteit van flashgeheugens nog steeds de Wet van Moore volgt, maar dat de lichtsnelheid dat absoluut niet doet. Dus de groei in datatransport via glasvezels is voor de toekomst beperkt.

 

Fysiek data transport
Met de groei van cloud-diensten wordt de discrepantie tussen de plaats waar de backoffice-applicaties draaien en waar de big data-opslagplaatsen liggen belangrijker. Omdat zowel grote applicaties als grote datalakes lastig te verplaatsen zijn, zal ook de locatiekeuze steeds vaker een strategische afweging worden.

 

Er zijn vele case studies over de transport van grote datasets naar de cloud. In deze case werd 12TB in drie dagen naar Amazon S3 getransporteerd, zo’n 4 TB per dag. Een hoeveelheid van 100 TB vraagt dus al een kleine maand om verplaatst te worden. Zodra we in echter de Petabytes en hoger komen, de normale hoeveelheden die in datalakes worden verzameld, wordt datatransport een tijdrovende affaire.

 

We zien dat cloud-leveranciers steeds vaker fysiek datatransport mogelijk maken. Zowel Azure als AWS bieden een fysieke dienst om met disks data van en naar hun cloud te transporteren. Ook wij herkennen dat in de markt. Voor sommige klanten is het opslaan van data op grote storage-systemen – denk dan aan enkele Petabytes aan data – en deze systemen dan fysiek transporteren, een prima oplossing. Het lijkt in onze digitale wereld een vreemde zaak, maar het komt vaker voor dan men denkt.

 

Ook bij de politie zijn dit soort zaken belangrijk. Als men een beperkte tijd krijgt om op de plaats van het delict digitale data te verzamelen, dan is het plaatsen van een container met fysieke opslag een interessante optie. Bij kinderpornozaken moeten soms honderden terabytes aan verdachte data in 24 uur worden verzameld. Dat kan alleen als naast de locatie waar die data is gevonden, een fysieke opslaglocatie wordt geplaatst die de data op compliant wijze direct weet vast te leggen op een fysiek medium.

 

Distributed Hadoop
Migratie van grote hoeveelheden data is dus een aandachtspunt. Het op verschillende datalakes uitvoeren van een data-analyse is een uitdaging. Als je als bedrijf zowel in Tokyo, New York en Londen een datalake met vele petabytes aan data hebt opgebouwd en daar een data-analyse over wilt uitvoeren, is dat een uitdaging. We zijn op diverse vlakken bezig om dit soort gedistribueerde data-analyses mogelijk te maken. Distributed Hadoop is zich aan het ontwikkelen om gedistribueerde analytics mogelijk te maken.

 

Data ontstaat waar de systemen en de gebruikers zijn. Maar cross data center verkeer is schaars, duur en minder betrouwbaar dan intra data center verkeer. Daarnaast verhindert wetgeving steeds vaker het vrij mogen verplaatsen van data over de wereld. Daarom ontwikkelen zich nieuwe vormen van applicaties die we kenmerken als Geo-Distributed Machine Learning (GDML). Het zijn gedistribueerde applicaties die elk voor zich de ruwe data ter plaatste analyseren en in onderling contact met elkaar daaruit leren welke informatie zich ontwikkelt. Hierop kunnen dan aanvullende analytics op worden uitgevoerd.

 

Het netwerk is eindelijk de computer
Ooit zei John Gage, chief scientist bij Sun Microsystems ‘The network is the computer’. Het was vele jaren een van de ‘taglines’ van het bedrijf. Hoe verder de cloud-standaard zich uitbreidt en de hybride cloud het nieuwe informatie operating-model is geworden, blijkt de integratie van netwerken en datacenters inderdaad steeds verder te gaan. Waarbij ook de eindpunten waar de data wordt gegenereerd of gebruikt steeds meer intelligentie krijgen om van die data direct bruikbare informatie te maken. Hierdoor hoeft data minder te worden verplaatst en kan het ook worden geminimaliseerd. Immers 10 maal dezelfde gemeten data hoeft als informatie maar één keer gerapporteerd te worden.

 

Voor de ontwikkeling van het Internet of Things is de ontwikkeling van intelligentie start- en end-points van groot belang om het data transport beperkt te houden. Daarnaast zullen multi-cloud applicaties – zie mijn vorige blog – aan belang winnen omdat vele bedrijven en organisaties nu eenmaal geografisch gedistribueerd zijn. De data management en analytics markt verdubbelt van 70 B$ in 2015 naar 140 B$ in 2020 waarbij het Hadoop-segment nog eens driemaal sneller groeit. Met deze ontwikkeling en groei kan worden gesteld dat het netwerk eindelijk de computer is geworden.

Verstuur dit artikel naar Google+

Reageer op dit artikel
















Even geduld a.u.b.

AfbeeldingDell EMC Computer Systems (Benelux)

Edisonbaan 14 B

3439 MN Nieuwegein

www.netherlands.emc.com

www.datacentered.nl / www.emcblog.nl

netherlands@emc.com 

Afbeelding Afbeelding Afbeelding 

Meer nieuws

Equalit: Samenwerkingsverband meerdere gemeenten

Bloggers