Tradisjonelt defineres masterdata som “data som gir kontekst til transaksjonsdata.” I en dataplattformarkitektur kan begrepet transaksjonsdata være uklart.
Derfor gir det mer mening å definere masterdata som “strukturert data som gir kontekst til tidsseriedata”. Tidsseriedata refererer til data som registreres på et gitt tidspunkt og aldri endres, som for eksempel sensor- og loggdata.
Masterdata er dermed: All strukturert data som endrer seg over tid og som skal brukes utenfor systemet der den ble opprettet.
Dette innebærer at masterdata ikke er begrenset til kunde-, produkt-, eiendels- eller ansattdata, men også inkluderer referansedata og annen strukturert informasjon som må være tilgjengelig på tvers av systemer. Eksempler inkluderer ordre- og fakturainformasjon, arbeidsordrer, tidsregistreringer, dokumentmetadata og kategoriseringer.
I en kompleks IT-arkitektur har forskjellige systemer ulike representasjoner av samme objekt. Mange organisasjoner har investert betydelige ressurser i forsøk på å etablere en stabil, kanonisk datamodell, bare for å innse at en slik modell aldri kan dekke alle behov.
Det finnes ingen perfekt, universell datamodell – enhver modell vil alltid være en perspektivbasert representasjon av et objekt.
En mer fleksibel tilnærming er å samle alle perspektiver av et objekt og knytte dem sammen i en dynamisk representasjon. Dette gir fleksibilitet og muliggjør kontinuerlig utvikling av datamodeller på tvers av domener og funksjoner.
En dataplattform skal samle data fra ulike systemer og dele dem på en konsistent måte. Siden forretningssystemer stadig oppdateres eller byttes ut, er det avgjørende å opprettholde en løst koblet arkitektur.
En tett koblet arkitektur fører ofte til at forretningslogikk bygges inn i systemene, noe som gjør dem vanskelige å erstatte over tid. En god dataplattform skal forenkle innføringen av nye systemer – ikke låse organisasjonen til eksisterende løsninger.
Masterdata må kontinuerlig oppdateres, og oppdateringene kan komme fra hvor som helst i dataplattformarkitekturen.
Det er viktig at forbedringer i datakvalitet ikke kun gagner analyse- og rapporteringssystemer. Masterdataoppdateringer bør være toveis, slik at alle systemer får nytte av oppdaterte data.
God datakvalitet krever hyppige oppdateringer på tvers av systemer. Tradisjonelle ETL-prosesser med tunge batchjobber og avhengigheter mellom systemer fører til lav oppdateringsfrekvens og dårlig datakvalitet.
Ved å strømme endringer fortløpende i stedet for å behandle fulle datasett, vil data distribueres raskere, mer jevnt og med høyere kvalitet. Dette sikrer at brukerne alltid har tilgang til oppdaterte og konsistente data.
Kompleksiteten i en dataplattform øker med antall systemer og datatyper, og risikoen for å miste kontrollen øker over tid.
Derfor er det avgjørende å ha en standardisert, gjennomsiktig metodikk for håndtering av masterdata. Koding gir stor frihet i isolerte miljøer, men i en kompleks plattform blir hver enkelt kodebit en “svart boks” som reduserer transparens og gjør vedlikehold vanskelig.
En dataplattform må ha en deklarativ tilnærming til masterdatastyring, der all dataflyt og transformasjon er dokumentert og sporbar. Bare slik kan man sikre datakvalitet over tid.
Ulike tjenester har ulike behov for data. En stabil arkitektur tillater hver tjeneste å ha en optimalisert datakilde, uten avhengigheter til andre systemer.
I stedet for at rapporteringstjenester henter data direkte fra masterdatasett, bør de bruke dedikerte, optimaliserte datakilder. Dette gir bedre ytelse og øker robustheten i systemlandskapet.