Kennis
“Datamigratie is een van de meest onderschatte onderdelen van data-gerelateerde projecten. Het leidt vaak tot het overschrijden van budgetten en vertragingen in de implementatie van een nieuwe website of een nieuw systeem. Dit is dan ook waarom datamigratie (of zoals wij het noemen, data onboarding) beter geïntegreerd moet worden binnen projecten. Ook dient het georganiseerd te worden als een aparte werkstroom waarvoor specifieke activiteiten gedaan worden en bepaalde middelen nodig zijn. Deze betere integratie en organisatie zal het risico van budgetoverschrijdingen en vertragingen verlagen.”
- Jos Schreurs, partner en mede-oprichter van Squadra, laat duidelijk het belang van accurate datamigratie blijken.
Datamigratie is het verplaatsen van data tussen systemen, waardoor je applicaties en databases kunt veranderen. Om op de goede manier op de doellocatie te landen, dient de datastructuur of het proces eventueel aangepast te worden. Een datamigratieproces bestaat ten minste uit de transform en load-fase van het extract/transform/load (ETL-) proces. Eigenlijk betekent dit dus dat de data voorbereid moet worden voordat het op de doellocatie kan landen.
Datamigratie wordt vaak gebruikt omdat systemen regelmatig beperkingen hebben, waardoor ze vernieuwd moeten worden. Data speelt een steeds grotere rol in de digitalisering of een data driven strategie, waardoor datamigratie (met de bijbehorende uitdagingen) belangrijker is dan ooit tevoren. De implementatie van een PIM- (Product Information Management) of MDM- (Master Data Management) systeem vormt een belangrijk element in de digitalisering en in (data driven) strategieprogramma’s. PIM/MDM projecten veroorzaken vaak ook de implementatie van een nieuw systeem: dit is dan een onderdeel van de oplossing om de verzamelde data op de beste manier te beheren. Data die in andere bronnen (zoals ERP, legacy systems, spreadsheets en gedeelde drives) opgeslagen staat, moet gemigreerd worden naar het nieuwe systeem. Dit is dan ook waar de data uit de verschillende bronsystemen uit elkaar wordt gehaald, en vervolgens weer wordt samengevoegd op de doellocatie.
In een zekere zin helpt datamigratie ook met het verhogen van de datakwaliteit. Er is een accuraat datamodel nodig om de minder- of ongestructureerde data naar het nieuwe systeem te verplaatsen. Het gebruiken van zo’n datamodel zal de overdracht en transformatie inzichtelijker maken. Hierdoor wordt de datakwaliteit niet verbeterd, maar het dwingt een verbeterslag van het laadproces af.
Er bestaan twee algemene datamigratie strategieën. Big bang migratie vindt plaats binnen een korter tijdsbestek en is daarom vrij radicaal te noemen. In Agile migratie wordt het proces opgedeeld in stappen die over een langere periode verdeeld worden. Onno, MDM associate bij Squadra, gebruikt een voorbeeld om duidelijk te maken welke strategie het meest wordt gebruikt. Wanneer een supermarkt data over haar volledige assortiment wil migreren, zou het een onhaalbaar zijn om dit binnen een paar dagen te doen. In plaats daarvan kunnen ze eerst ervoor kiezen om het groenteassortiment naar de testomgeving te verplaatsen, om vervolgens te kijken of ze daar zonder fouten landen. Als dit nog niet zonder problemen verloopt, kan je de omgeving verbeteren zodat het fruitassortiment er vervolgens wel goed kan landen. Welke migratiestrategie er het meest gebruikt wordt, hangt dus sterk af van de organisatie, haar productaanbod en haar eisen.
In het proces van datamigratie kan het handig zijn om bepaalde datatools te gebruiken. Marc, ook MDM associate bij Squadra, stelt dat 90% van het werk gedaan wordt met Excel. Hij voegt hier echter aan toe dat de datatool sterk afhankelijk is van het bedrijf in kwestie.
Datamigratie is een complex en technisch proces dat gepaard gaat met een aantal uitdagingen. De meest voorkomende uitdaging is de inconsistentie van data in het bronsysteem. Er is enorm veel variatie tussen dataformaten, waardoor het vaak gebeurt dat een bedrijf data in het verkeerde formaat aanlevert. Dit probleem wordt meestal veroorzaakt door menselijke fouten en die verkeerde en inconsistente data leidt vervolgens weer tot problemen in het verwerken van de data. Om deze inconsistentie in datakwaliteit aan te duiden gebruikt Marc een voorbeeld. In een warenhuis zijn er producten in dozen met verschillende maten. De medewerker kan, afhankelijk van hoe hij de doos neerzet, hem op verschillende manieren opmeten. Misschien legt hij de doos wel op de zijkant neer waardoor de breedte van de doos als diepte wordt geregistreerd. Dit resulteert in ongespecificeerde data die getransformeerd dient te worden. In dezen zijn data engineers enorm belangrijk, omdat zij de ongespecificeerde data kunnen omzetten zodat deze op de juiste manier op de doellocatie belandt. Het is dus een iteratief proces van dataverbetering om deze data vervolgens goed te laten landen op de doellocatie.
De inconsistentie van data is niet de enige uitdaging van datamigratie. Er zijn namelijk veel bedrijven die hun eigen data niet begrijpen. Jos stelt dat veel bedrijven het belang van data van hoge kwaliteit onderschatten. “Bedrijven gaan ervan uit dat datamigratie simpel is. Ze denken ook dat IT- of data engineers wel zullen weten hoe ze de data moeten gebruiken en transformeren. Dit is echter niet realistisch: de aangeleverde data is vaak bedrijfsspecifiek en de dataspecialisten begrijpen dit vaak niet.” Squadra associates zijn echter wel in staat om de bedrijfstaal te spreken en deze te vertalen naar IT-kennis. Dit is het punt waar Squadra de data toegankelijker maakt door bedrijfskennis te vertalen naar technische kennis (of andersom). Squadra vormt dus een bruggetje tussen bedrijfskennis en succesvolle datatransformatie.
Squadra adviseert daarom niet alleen om datamigratie als een aparte werkstroom te beheren, maar om ook een data readiness assessment uit te voeren. Dit zou in de beginfasen van elk data gerelateerde project gedaan moeten worden.