Cloud archivering: Voordelen, uitdagingen en best practices

door | 15 juli 2024

Een archief, gehost in de cloud of ergens anders, lijkt een beetje op een opslagback-up. In tegenstelling tot een back-up is een archief echter bedoeld voor gegevens die langdurig worden opgeslagen en niet vaak worden geraadpleegd.

Maar wat is een cloudarchief precies, hoe verschilt het van traditionele methoden om gegevens te archiveren, en Wat zijn enkele van de best practices voor cloudarchivering die u moet volgen? Wij hebben de antwoorden voor je. Laten we beginnen.

Inhoudsopgave

Big Data Ingest voor cloudarchivering

Enorme hoeveelheden gegevens vanaf een centrale locatie opnemen in meerdere cloudarchiefoplossingen zoals Amazon S3 Glacier.

Waarom media of andere gegevens archiveren?

Video- en postproductiebedrijven gebruiken gegevensarchivering vaak om opslagruimte vrij te maken en ervoor te zorgen dat ze nog steeds toegang hebben tot de bestanden als ze die nodig hebben (bijvoorbeeld tijdens een informatieaudit, als een klant vraagt om beelden van drie jaar geleden of voor herstel na een ramp).

Archiefopslag staat ook bekend als koude gegevensopslag. Voor videobewerkers en andere post-professionals helpt het bewaren van gegevens in koude opslag om ruimte vrij te maken in snellere, sneller reagerende "warme" opslag, zoals RAID-arrays of netwerkopslag (NAS) apparaten.

Archieven hebben vaak strikte regels over wie gegevens mag opslaan en openen vanwege veiligheidsoverwegingen en omdat het verlaten van koude opslag duur en tijdrovend is.

Wat is een cloudarchief?

A cloudarchief is precies hoe het klinkt: een archief gehost in de cloud, meestal via een storage-as-a-service publieke cloud zoals Amazon S3 object storage of Google Cloud Storage. Cloudarchivering is populair sinds bedrijven erachter zijn gekomen dat ze de cloud kunnen gebruiken om..:

  • Sla gearchiveerde gegevens kosteneffectiever op (en met veel minder onderhoud en zorgen dan wanneer u gearchiveerde gegevens intern bewaart) op elke schaal; elke archiveringsoplossing biedt meestal praktisch onbeperkte schaal en koude gegevensopslag voor slechts een cent per GB.
  • Vermijd enorme CapEx-uitgaven door het kopen en upgraden van dure on-prem apparatuur (en OpEx voor het onderhouden, updaten en patchen van die apparatuur).

Vóór de cloud gebruikten de meeste media Lineaire tape-open (LTO), een type magnetische tape, om gearchiveerde gegevens op te slaan.

Cloudarchief vs. cloudback-up

A cloudarchief en cloudback-up klinken misschien hetzelfde, maar dat zijn ze niet:

  • Een back-up Er worden regelmatig nieuwe gegevens naar gekopieerd, ze worden relatief toegankelijk gehouden voor het geval dat gegevens hersteld moeten worden en er worden vaak wijzigingen in de gegevens aangebracht omdat de productiegegevens in realtime evolueren. Het wordt meestal on-site bewaard (als het in fysieke opslag is) of in gemakkelijk toegankelijke cloud-opslagen wordt niet onbeperkt bewaard.
  • Een archief verplaatst gegevens eenmaal van de site en bewaart ze voor onbepaalde tijd op een veilige locatie. De gegevens worden niet gewijzigd of aangevuld. Het is vaak een tijdrovend proces om gegevens uit archieven te halen.

Cloudarchief vs. tapearchief

LTO-tape wordt al jaren gebruikt en is de traditionele keuze van elke media-archivaris. LTO-tape-archieven bewaren gegevens meestal op magnetische tape in cartridges, die vervolgens op een veilige locatie worden opgeslagen (meestal op een externe locatie).

  • Bandbibliotheken maken vaak gebruik van robots voor het opslaan en ophalen van cartridges, die in de duizenden kunnen lopen.
  • Vanwege de beperkte aard van tape blijven tapebibliotheken groeien naarmate er meer gegevens worden toegevoegd (hoewel het de moeite waard is om op te merken dat LTO-7 tape tot 6 TB aan gegevens kan bevatten).
  • Bandbibliotheken zijn vaak georganiseerd via bestandssystemen zoals het Linear Tape File System (LTFS).

LTO-tape wordt vaak gebruikt voor archivering omdat tapes duurzaam zijn, een lange houdbaarheid hebben (tot 30 jaar) en goedkoper zijn dan het bewaren van gearchiveerde gegevens op schijven. Het nadeel van tapebibliotheken is dat tapes specifieke opslagomstandigheden van een constante temperatuur van ongeveer 70 graden F met 40 procent relatieve luchtvochtigheid.

Plaatshouder afbeelding

Vanwege de langzame egress die geassocieerd wordt met sommige cloud cold storage, kan het zelfs sneller zijn om gegevens uit een tape library te halen dan cloud storage.

Maar LTO-tape is over het algemeen uit de gratie geraakt in vergelijking met archiefopties in de cloud, die vaak goedkoper zijn met betere beveiliging, zoekfunctionaliteit, redundantie, uptime en gemak.

Centraliseer data-invoer met MASV

MASV fungeert als een enkel toegangspunt tot elke verbonden opslagbestemming, van de warmste tot de koudste, op locatie of in de cloud.

Uitdagingen rond cloudarchivering (en hoe ze op te lossen)

Het implementeren en beheren van een cloudarchief is niet zonder uitdagingen, hoewel sommige van deze uitdagingen vaak voortkomen uit een gebrek aan interne cloudkennis, wat weer kan leiden tot verkeerde configuraties.

En verkeerde configuraties kunnen dan leiden tot hogere kosten, lagere prestaties en een gebrek aan vertrouwen in de efficiëntie van het opnemen van inhoud in een cloud data-archief.

Hoe ontstaan cloud misconfiguraties?

Een van de belangrijkste voordelen van cloud-opslag in het algemeen is de vrijwel onbeperkte schaalbaarheid van de capaciteit - maar de prijs van onbeperkte schaalbaarheid is dat het heel gemakkelijk is om jezelf in de voet te schieten. Met dat in gedachten vereist het goed implementeren van een cloudarchief veel planning en strategie.

Helaas slaan veel bedrijven de planningsfase over en duiken er meteen in.

"(Omroepen die nieuw zijn in de cloud) zullen in het begin vaak zelf experimenteren en dingen uitproberen, maar ze verbranden zich meestal aan de kosten nadat ze bijvoorbeeld een EC2-instantie een weekend lang aan hebben laten staan", zegt Nick Soper, cloud product manager bij media cloud consultancy Tyrell, in een interview met MASV.

Het is immers gemakkelijk om in een vals gevoel van veiligheid te worden gesust door de glanzende beheerconsoles die door een cloudarchiveringsservice worden gebruikt (ons advies: Gebruik de console niet, behalve in beperkte omstandigheden. Maar hierover later meer).

Plaatshouder afbeelding

BRON: Amazon

Uitdaging 1: Opslagkosten

Sommige cloudfoutconfiguraties, zoals het publiek toegankelijk maken van een Amazon S3 objectopslagemmer (bekend als een "lekkende emmer"), kan leiden tot grote risico's op het gebied van cyberbeveiliging en gegevensinbreuk.

Maar andere verkeerde configuraties kunnen leiden tot inefficiënte workflows, escalerende kosten en de misvatting dat cloudarchivering duurder is.

Eén verkeerde configuratie kan leiden tot enorme pieken in cloudkosten, bijvoorbeeld, door archiefopslagworkflows niet te beperken tot een specifieke emmer of pad en zakelijke gebruikers in staat te stellen actuele gegevens op te nemen in een cloudarchief.

Koude cloudopslag is over het algemeen goedkoper dan warme opslagopties. Maar het opslaan van huidige gegevens in archiefopslag kan leiden tot zeer hoge afvoerkosten als (wanneer?) u toegang moet krijgen tot die gegevens.

Voor Amazon S3Dat betekent bijvoorbeeld grote kostenverschillen afhankelijk van de opslagklasse:

Type opslag Opslagkosten (per GB)
S3-standaard $0.021-$0.023
S3 Standaard Infrequente toegang $0.0125
S3 Glacier onmiddellijk ophalen $0.004
S3 Glacier Flexibel Ophalen $0.0036
S3 Glacier Diep Archief $0.00099

Zoals hierboven is te zien, nemen de opslagkosten per GB af naarmate je koudere en koudere opslagopties gebruikt.

Geweldig! Dat betekent dat je al onze gegevens in een koude opslag moet bewaren, toch?

Fout: de kosten voor het ophalen en ophalen van gegevens stijgen naarmate de opslag kouder wordt:

Type opslag Gegevensopvraagverzoeken (per 1.000 verzoeken) Gegevens ophalen (per GB)
S3-standaard N.V.T. N.V.T.
S3 Standaard Infrequente toegang N.V.T. $0.01
S3 Glacier onmiddellijk ophalen N.V.T. $0.03
S3 Glacier Flexibel Ophalen $0.05-$10 $0.01-$0.03
S3 Glacier Diep Archief $0.025-$0.10 $0.0025-$0.02

De les hier is: Configureer uw cloudopslag niet verkeerd zodat gebruikers actuele gegevens in uw cloudarchief opnemen, of koude gegevens in warme opslag (wat ook duur kan worden)..

Het opnemen van archiefgegevens in een warme opslag kan inderdaad ook duur worden (hoewel providers zoals Amazon meestal per uur rekenen, dus zolang je het vroeg signaleert en verplaatst naar je gegevensarchief, zouden de opslagkosten niet te veel moeten oplopen).

Je moet ook denken aan de verborgen kosten van traditionele archiefopslag: Het onderbrengen van de tapes, het classificeren ervan en het beheren van de kosten van een fysieke ruimte kunnen ook oplopen.

Uitdaging 2: Prestaties

Verkeerde configuraties kunnen ook leiden tot een vertekend beeld van het nut van de cloud op het gebied van prestaties, vooral - vergelijkbaar met ons kostenvoorbeeld hierboven - als gebruikers actuele gegevens opslaan in koude opslag en deze er weer uit moeten halen.

Het kan een tijdje duren voordat je zelfs maar kunt beginnen met het opvragen van gegevens uit een koude opslag: U moet eerst wachten tot het verzoek om gegevens op te halen is verwerkt, wat meestal uren duurt.

Vervolgens moet het archief de gegevens ophalen, wat letterlijk dagen kan duren.

Net als bij de kosten is de doorlooptijd voor gegevens ophalen uit koude opslag hangt grotendeels af van de mate van gekoelde opslag:

Type opslag Doorlooptijd voor het ophalen van gegevens
S3-standaard Milliseconden
S3 Glacier onmiddellijk ophalen Milliseconden
S3 Glacier Flexibel Ophalen 1-5 minuten (versneld), 3-5 uur (batch), 5-12 uur (bulk)
S3 Glacier Diep Archief 12-48 uur

Ook al zijn cloudproviders zoals Amazon erg vergevingsgezind als je een fout maakt, laten we zeggen dat je niet wilt dat cruciale bedrijfsgegevens die je nu nodig hebt vastzitten in Glacier Deep Archive.

Wat een aanvaardbare doorlooptijd is voor het ophalen van gegevens, hangt af van het soort gegevens en uw gebruikssituatie. In sommige gevallen zijn flexibele opvraagopties het beste.

Uitdaging 3: De beheerconsole/het portaal

We gaan dit nu gewoon zeggen: Als je een beheerconsole of portaal zoals AWS Management Console, Azure Portal of Google Cloud Console gebruikt om je cloudservices te beheren, doe je het waarschijnlijk verkeerd..

Beheerconsoles voor een grote publieke cloudprovider zien er meestal goed uit en zijn zo ontworpen dat een nieuwe gebruiker er gemakkelijk aan kan wennen: In veel gevallen hoef je alleen maar een paar vakjes aan te vinken en je hebt je systeem geconfigureerd.

  • Het probleem is dat het aanvinken van deze vakjes heel gemakkelijk is en dat het aanvinken van de verkeerde vakjes negatieve gevolgen kan hebben die in eerste instantie misschien niet duidelijk zijn, maar die na verloop van tijd een enorme hoeveelheid problemen kunnen veroorzaken.
  • Veel consoles kunnen verwarrend zijn en inconsistente regels hebben tussen modules, waardoor het bijna onmogelijk is om volledig te begrijpen welk effect een bepaalde verandering zal hebben op de rest van het systeem.
  • Het is ook erg moeilijk voor je medewerkers, in het geval van een verkeerde configuratie, om te zien wat er is gedaan.

Om deze redenen raden we aan om de beheerconsoles van publieke cloudproviders niet te gebruiken om te implementeren naar productie. De consoles kunnen een goed startpunt zijn en kunnen nuttig zijn, maar ze maken je niet klaar voor succes op de lange termijn.

Het is veel minder gevaarlijk en effectiever om infrastructure as code (IaC) of een commandoregeltool te gebruiken. Deze aanpak heeft verschillende voordelen:

  • Er is een beoordelingsproceswaar elke wijziging die je wilt maken zichtbaar is voor andere teamleden. Je kunt herzieningsregels afdwingen, zodat het onmogelijk is om een wijziging te implementeren zonder dat iemand anders deze eerst heeft beoordeeld.
  • U kunt ook regels instellen rond prestaties en beveiliging, zoals niet toestaan dat een S3-bucket als openbaar wordt ingesteld. Geautomatiseerde scantools waarbij je regels kunt instellen - bijvoorbeeld dat een S3-bucket niet als openbaar mag worden ingesteld.

Het gebruik van IaC of commandoregel voor het opzetten en beheren van uw cloudarchitectuur kan veel configuratie, tijd en kosten met zich meebrengen. Maar het voordeel is dat u uiteindelijk veel kosten, kwetsbaarheden en schade door onnodige fouten bespaart.

Een cloudarchief implementeren en beheren: Best Practices

Er zijn twee belangrijke dingen die u in gedachten moet houden bij het implementeren van een cloudarchief:

  • Zorg ervoor dat je je storage ingest paden configureert zodat de juiste mensen of applicaties toegang hebben tot de juiste opslag.
  • Zorg ervoor dat je je gegevens goed classificeert, zodat alle opgenomen gegevens automatisch in de juiste opslagemmer terechtkomen.

Hier zijn enkele andere tips voor het opzetten van uw cloudarchief:

  1. Uitstellen tot warme opslag: Overweeg als regel om alle gegevens eerst op te slaan in een warme opslag.
  2. Automatiseer gegevens naar koude opslag: Zet een geautomatiseerd systeem op dat uiteindelijk die gegevens herclassificeert en verplaatst naar de koude opslag na een bepaalde periode (je kunt een kant-en-klare oplossing kopen of je eigen regels hiervoor opstellen). Dit proces alleen al maakt het veel moeilijker om een dure fout te maken. U kunt een hulpmiddel voor het uploaden van gegevens/bestandsoverdracht gebruiken dat is geïntegreerd met cloud-opslag en vervolgens uw regels voor archivering configureren binnen het cloud-opslagplatform (d.w.z. archiveer niet geraadpleegde gegevens na X dagen).
  3. Gebruik de console alleen voor PoC's: Gebruik de beheerconsole alleen voor proofs of concept in een sandbox account (heel voorzichtig - zorg ervoor dat je de kosten van die account in de gaten houdt). Zodra de PoC klaar is, implementeer in productie met behulp van IaC of opdrachtregel. Als je de webconsole in productie gebruikt en een fout maakt, moet je alles onthouden waarop je hebt geklikt zodat je het probleem kunt repliceren. Commandoregeltools voorkomen het bovenstaande scenario, want als je de verkeerde commando's invoert, zal de taak gewoon niet werken.
  4. Wees zuinig met bevoorrechte toegang: IT-beheerders mogen alleen bevoorrechte opslagtoegang geven aan zakelijke gebruikers of functies die gegevens moeten opslaan om te archiveren.

Moeiteloos gegevens invoeren in cloudarchieven met MASV

Het opzetten en beheren van een cloudarchief samen met je andere cloudopslag kan veel werk zijn en vereist een grote tijdsinvestering aan de voorkant.

Maar al die tijd en moeite is het waard, want het betekent dat je systematisch hebt nagedacht over je data-archiveringsproces, wat op zijn beurt betekent dat er minder verkeerde configuraties en kostbare fouten worden gemaakt.

Aan de andere kant kan het beheren van meerdere opslagbestemmingen en gedeelde toegang - van hot storage tot archief - al snel uitgroeien tot een administratieve nachtmerrie voor IT-teams die meerdere opslagplatforms en gebruikersrechten moeten beheren, terwijl ze ook nog eens moeten omgaan met de beveiliging van het systeem. Maar MASV gecentraliseerde invoer kan helpen bij het vereenvoudigen van het data-absorptieproces in al uw cloud-opslag en tegelijkertijd de beveiliging verbeteren.

Gecentraliseerde ingest is een hub voor het verbinden, beheren en automatiseren van data ingestion in storage zonder meerdere gebruikers en machtigingen te hoeven beheren op het niveau van het opslagplatform. IT-beheerders kunnen eenvoudig gedeelde opslag verbinden, zoals een cloudarchief, via de browserinterface van MASV en vervolgens eenvoudig ingest-toegang configureren binnen een gecentraliseerde, veilige en geautomatiseerde gateway naar al uw cloudopslag: MASV. Projectteams kunnen MASV vervolgens gebruiken om media automatisch in gedeelde opslag te plaatsen met behulp van een gebruiksvriendelijk uploadportaalDe productiviteit wordt verhoogd en het beheer wordt vereenvoudigd.

Aanmelden voor MASV gratis vandaag.

Uw workflow voor back-up- en archiefopslag automatiseren

MASV integreert met tientallen cloudplatforms en laat je de opslag van grote media automatiseren.