Model drift (ook wel modelveroudering genoemd) verwijst naar het fenomeen waarbij de prestaties van een AI- of machine learning-model na verloop van tijd afnemen omdat de onderliggende data of omstandigheden veranderen.
Een model dat bij de start goed presteerde, kan later onnauwkeurige of inconsistente voorspellingen geven — niet omdat het slecht is getraind, maar omdat de realiteit is verschoven.
Het herkennen en beheren van model drift is essentieel voor betrouwbare en duurzame AI in productie.
Werking
Model drift ontstaat wanneer de data waarop een model in productie draait afwijkt van de data waarop het oorspronkelijk is getraind.
Er zijn drie hoofdtypen drift:
- Data drift (covariate shift): de distributie van inputvariabelen verandert, bijvoorbeeld doordat klantgedrag of marktomstandigheden evolueren.
- Voorbeeld: een model voor kredietrisico is getraind vóór een economische crisis en past daardoor niet meer bij nieuwe omstandigheden.
- Concept drift: de relatie tussen input en output verandert, waardoor de betekenis van patronen verschuift.
- Voorbeeld: hetzelfde klantgedrag leidt nu tot andere aankoopbeslissingen.
- Label drift (prior probability shift): de verdeling van klassen of uitkomsten verandert in de tijd.
- Voorbeeld: de verhouding tussen frauduleuze en legitieme transacties verandert structureel.
Detectie van drift gebeurt via monitoring en statistische vergelijking tussen trainingsdata en actuele data, bijvoorbeeld met Kullback–Leibler Divergence, Population Stability Index (PSI) of Kolmogorov–Smirnov-tests.
Kenmerken
- Geleidelijk of abrupt: drift kan langzaam ontstaan of plotseling optreden.
- Domeinspecifiek: sterk afhankelijk van externe factoren zoals seizoenen, trends of beleid.
- Onvermijdelijk: elk model veroudert na verloop van tijd.
- Meetbaar: prestatieafwijkingen kunnen kwantitatief worden gevolgd.
- Beheersbaar: via monitoring, retraining en model governance.
Toepassingen
Beheersing van model drift is essentieel in alle domeinen waar AI continu beslissingen neemt:
- Financiën: detectie van veranderende risicoprofielen of fraudevormen.
- Gezondheidszorg: aanpassing van diagnosemodellen bij nieuwe patiëntpopulaties.
- E-commerce: herkalibratie van aanbevelingsmodellen bij veranderend consumentengedrag.
- Industrie: aanpassen van voorspellend onderhoudsmodellen bij nieuwe machineconfiguraties.
- Marketing: updaten van klantsegmentatie na marktevoluties.
- Beleid en regelgeving: monitoring van maatschappelijke en juridische veranderingen die AI-beslissingen beïnvloeden.
Uitdagingen
- Vroege detectie: subtiele drifts kunnen onopgemerkt blijven.
- Dataverzameling: het verzamelen van actuele en representatieve feedback is niet altijd mogelijk.
- Scheidingsprobleem: moeilijk te onderscheiden of prestatieverlies komt door drift of door modelzwakte.
- Retraining-strategie: bepalen wanneer en hoe vaak hertraining plaatsvindt.
- Governance: documentatie en validatie bij modelupdates zijn cruciaal voor compliance.
- Resourceverbruik: frequente retraining kan kostbaar zijn in tijd en rekenkracht.
Samenvatting
Model drift treedt op wanneer de wereld verandert en het model niet meer overeenkomt met de actuele datarealiteit.
Het is een onvermijdelijk maar beheersbaar proces dat vraagt om continue monitoring, evaluatie en hertraining.
Door drift actief te detecteren en te corrigeren, kunnen organisaties de betrouwbaarheid, eerlijkheid en prestaties van hun AI-systemen duurzaam waarborgen.
Bron: Blackbirds.ai — AI & Data Consultancy