Andreas Bartsch, hoofd servicelevering bij PBT Group
Dankzij de beschikbaarheid van kunstmatige intelligentie (AI) en machine learning (ML) richten steeds meer bedrijven hun inspanningen op het aanstellen van datawetenschappers om bedrijfswaarde te halen uit de data waarover ze beschikken. Dit heeft de rol van data-ingenieurs vervolgens nog kritischer gemaakt, aangezien deze vaardigheid essentieel is om deze data voor gebruik voor te bereiden.
Met zoveel geroezemoes in de branche rond datawetenschap, verwarren veel bedrijven de twee rollen en zien ze zelfs als onderling uitwisselbaar. Mensen voelen zich aangetrokken tot de voordelen die AI en ML voor een organisatie kunnen opleveren. Veel onderwijsinstellingen hebben zelfs diploma’s ontwikkeld op het gebied van datawetenschap. En hoewel dit essentieel is om gegevens om te zetten in bruikbare inzichten, is het de taak van ingenieurs om het zover te krijgen.
Daarom is het inschakelen van data science de data-engineer. Als deze wetenschappers geen kwaliteitsgegevens op het juiste moment en in het juiste formaat kunnen krijgen, is het onmogelijk om hun werk effectief uit te voeren. Dus terwijl de wetenschap de zakelijke waarde van data ontsluit, ligt een groot deel van de inspanning om dit mogelijk te maken in de technische component. En dus, voor elke datawetenschapper die een organisatie aanwijst, moet het ervoor zorgen dat het meerdere data-engineers aan boord heeft om alles op zijn plaats te krijgen.
Een evoluerende rol
In tegenstelling tot datawetenschap die de afgelopen vijf jaar als concept is gegroeid, bestaan data-ingenieurs al heel lang. Voorheen werden ze extract-transform-load (ETL) -ontwikkelaars genoemd. In de afgelopen twee decennia is deze rol geëvolueerd naar een meer technische rol.
Een groot deel van de geëvolueerde focus van de ingenieur ligt op big data en gedistribueerde systemen. Brits ingenieur Gordon Lindsay Glegg wordt geciteerd: ‘een wetenschapper kan een nieuwe ster ontdekken, maar hij kan er geen maken. Hij zou een ingenieur moeten vragen om het voor hem te doen. ‘
En daarin schuilt de wrijving van de vaardigheden die nodig zijn om een data-engineer te zijn.
Er zijn zeker aspecten van deze rol die op de universiteit worden onderwezen. Informatiemanagementonderzoeken raken bijvoorbeeld de vaardigheden die voor deze ingenieurs vereist zijn. Ervaring met ontwikkelplatforms en dergelijke met SQL en Python is ook essentieel.
Maar alleen omdat een student afstudeert met die vaardigheden, is hij nog geen data-engineer. In plaats daarvan wordt een groot deel van de rol beïnvloed door de ervaring en blootstelling die wordt opgedaan door in deze omgeving te werken.
Krachten bundelen
Dit wil niet zeggen dat ingenieurs en wetenschappers volledig onafhankelijk van elkaar kunnen opereren. Ingenieurs hoeven misschien geen experts te zijn in de tools en technologie die wetenschappers gebruiken, maar ze moeten eraan worden blootgesteld en ze begrijpen. Hierdoor kunnen ze beter aansluiten bij wat wetenschappers nodig hebben.
Daarom, hoe ronder een data-engineer is, hoe beter. Ze moeten worden getraind in de bredere concepten van de moderne datawereld – niet alleen op technologisch gebied, maar ook op het gebied van datamodellering.
Daartoe zijn ze dan beter gepositioneerd om de datapijplijn te ontwerpen en te bouwen die de wetenschappers en alle dataconsumenten mogelijk maakt. Daarom is de rol van data-engineer een cruciaal radertje in de digitale zakenwereld en een die moet worden ingevuld als organisaties relevant willen blijven.