Gestructureerde data: direct naar DW of via Data Lake?
10 december 2018 2020-07-06 15:16Gestructureerde data: direct naar DW of via Data Lake?
Gestructureerde data: direct naar DW of via Data Lake?
Wanneer je aan een nieuwe Data Warehouse- en Analytics-architectuur werkt, is de kans groot dat je het Data Lake een plek wilt geven. Maar wat doe je met brondata die al gestructureerd is? Loopt die ook via het Data Lake?
Nieuwe Data Warehouse-implementaties hebben tegenwoordig zelden nog een traditionele indeling van staging, historische opslag, integratie, en marts. Een moderne equivalent die tegenwoordig veel toegepast wordt is het "Ingest - Store - Prep & Train - Model & Serve" model, dat ook in Microsoft's Modern Data Warehouse referentie-architectuur gebruikt wordt.

Wanneer je deze architectuur echter implementeert, rijst al snel de vraag wat je met gestructureerde data moet doen (linksonder): moet je deze echt via je Azure Data Lake ontsluiten voordat je gaat opslaan in het opnieuw-gestructureerde Azure SQL Data Warehouse?
Melissa Coates (SQLChick) heeft hier recent een interessant artikel over geschreven, waarin ze haar visie deelt over onder welke omstandigheden je relationele data al of niet naar een Data Lake zou moeten laden: "When Should We Load Relational Data to a Data Lake?"
James Serra heeft hier een interessant vervolg op geschreven, waarin hij enkele situaties opnoemt waarin je volgens hem juist wél gebruik wilt maken van je Data Lake als tussenstap richting je Data Warehouse: "Should I load structured data into my data lake?"