Site Overlay

Betrouwbare AI: waarom voorspelkracht alleen niet genoeg is

Estimated reading time: 8 minuten

De maatschappelijke discussie over kunstmatige intelligentie gaat steeds minder over de vraag óf modellen indrukwekkend zijn. De echte vraag is steeds vaker of ze betrouwbaar genoeg zijn voor echte besluitvorming en beslissingsondersteuning. Grote taalmodellen kunnen vloeiend schrijven, plausibel redeneren en overtuigend antwoorden. Maar juist daarin zit ook het risico. Een model kan sterk overkomen en toch onvoldoende waarheidsgetrouw zijn wanneer het antwoorden geeft zonder stevige basis in de data. Onafhankelijke tests laten zien dat recente frontier-modellen zonder webtoegang in moeilijke high-stakes settings nog steeds zeer vaak onjuist antwoorden. In HalluHard lag de hallucinatie rate bij de geteste topmodellen van OpenAI, Anthropic en Google zonder webtoegang boven de 50%.

Voor beleid, investeringen, risicomanagement en projectbeslissingen is daarom een andere vraag belangrijker dan alleen accuracy: hoe betrouwbaar is het model? NIST beschrijft betrouwbare AI dan ook breder dan voorspelprestatie alleen en noemt onder meer validiteit, betrouwbaarheid, reproduceerbaarheid, transparantie en risicobeheersing als kerneisen. In Europa zie je dezelfde beweging terug in de EU AI Act, die AI expliciet via een risicogebaseerd kader reguleert en aanvullende verplichtingen oplegt rond transparantie en high-risk toepassingen.

Wetenschappelijke validiteit en waarheidsgetrouwheid

Een wetenschappelijk sterk model wordt vaak gekenmerkt door hoge voorspellende waarde. De belangrijkste praktische maatstaf voor wetenschappelijke validiteit is daarom robuuste out-of-sample voorspelprestatie.

In omgevingen met grote beslissingsgevolgen, waar dataschaarsheid vaak een rol speelt, stuiten we echter op statistische valkuilen. In die situaties vereist waarheidsgetrouwheid de volgende eigenschappen:

  • Empirische verankering — het model blijft dicht bij waarneembare data.
  • Terughoudendheid buiten de data — blijf voorzichtig buiten de (historische) dataruimte. Voorspellingen buiten de trainingsdata hebben een andere epistemische status dan geïnterpoleerde voorspellingen, en dat verschil moet expliciet zijn [Molnar, Interpretable Machine Learning].
  • Eerlijke onzekerheid — druk alleen zoveel vertrouwen uit als de data rechtvaardigen, in plaats van dat weg te optimaliseren in het streven naar puntvoorspellingen [Gelman et al., Bayesian Data Analysis].
  • Lage aannamenlast — leg zo weinig structuur op als de data ondersteunen. Complexe modellen met veel latente variabelen generaliseren slecht, zeker wanneer historische gevallen schaars zijn [Hastie, Tibshirani & Friedman, Elements of Statistical Learning].
  • Mechanisme-agnosticisme — vermijd het vooraf veronderstellen van welke drijfveren er toe doen. Expertgeselecteerde kenmerken en vaste causale aannames introduceren impliciete keuzes die de werkelijkheid mogelijk niet weerspiegelen — systematische kenmerkontdekking en out-of-sample validatie moeten bepalen wat de uitkomsten werkelijk aandrijft [Breiman, Statistical Modeling: The Two Cultures].
  • Verklaarbaarheid als controlemechanisme — een model dat niet bevraagd kan worden, kan ook niet worden uitgedaagd of gecorrigeerd. Daarmee is verklaarbaarheid een voorwaarde voor verantwoord gebruik, niet een cosmetische toevoeging [Molnar; Mitchell et al., Model Cards for Model Reporting].

Samen definiëren deze eigenschappen een waarheidsgetrouw model. We verwijzen naar dit geheel van principes als Evidence-Bound, Mechanism-Agnostic Reasoning (EBMAR). Samengevat is het kernidee eenvoudig:

  • De data vormen de grondwaarheid; alles daarbuiten is onzekerheid.
  • Modellen zijn daarom geen antwoorden, maar hypothesen die zich eerst op nieuwe data moeten bewijzen.
  • Afhankelijkheid van latente variabelen moet zoveel mogelijk worden geminimaliseerd en expliciet gemaakt.

Dit maakt ook duidelijk waarom niet alle modeltypen epistemisch even sterk zijn. Menselijke schattingen en veel rule-based modellen leunen vaak zwaar op vooraf gekozen aannames, expertintuïtie en vaste beslisregels. Daardoor worden impliciet al keuzes gemaakt voor drivers die mogelijk niet de belangrijkste zijn. Welke kenmerken echt belangrijk zijn, wordt dan niet primair door data-gedreven feature engineering of systematische out-of-sample validatie bepaald, maar door vooraf gekozen veronderstellingen.

Deep learning-modellen zitten aan de andere kant van het spectrum. Zij kunnen sterk presteren, maar gebruiken veel verborgen representaties en latente lagen. Daardoor wordt de directe koppeling tussen inputdata, onderliggende drivers en voorspelling onduidelijker. Ook de onzekerheid is dan minder direct observeerbaar. Juist daarom is in high-stakes toepassingen niet alleen performance belangrijk, maar ook de vraag hoe dicht een model bij de data blijft, hoeveel verborgen structuur het toevoegt, en hoe eerlijk het zijn onzekerheid weergeeft.

Waarom diepe verborgen lagen een probleem kunnen zijn

Naarmate modellen meer gebruikmaken van diepe verborgen lagen, wordt de relatie tussen input, interne verwerking en output minder goed zichtbaar. Dat maakt het onduidelijker of een voorspelling nog stevig op echte data steunt en wanneer een model buiten zijn bekende gebied werkt.

Als een model daarnaast alleen wordt getraind op “de beste voorspelling”, gaat informatie over onzekerheid gemakkelijk verloren. Het leert dan vooral welk antwoord gemiddeld de fout verlaagt, niet vanzelf wanneer het eigenlijk onvoldoende basis heeft om stellig te zijn.

Het alternatief: een AI-architectuur met een empirische kern

Als pure modelcomplexiteit niet genoeg is, wat is dan wel nodig? Het antwoord ligt niet in minder AI, maar in een andere opbouw van AI. Een betrouwbare AI voor besluitvorming heeft idealiter:

  • een empirisch gevalideerde kern,
  • een uitlegbare besluitlaag,
  • en pas daarna eventueel een context- of regime-afhankelijke verrijking.

Dat is precies waar een aanpak als RCF-AI interessant wordt. In de Asset Mechanics-toepassing voor dijk-kostenramingen wordt AI niet neergezet als vervanging van de werkelijkheid. Het wordt gebruikt als versterking van drie perspectieven: predictive modelling, explainability en reference class benchmarking. De tool gebruikt meer dan 50 projectfeatures, laat voorspelde versus gerealiseerde kosten voor afgeronde projecten zien en identificeert automatisch vergelijkbare historische projecten op basis van multidimensionale similariteit.

Dat is inhoudelijk sterker dan een model dat alleen een puntvoorspelling geeft. De vraag is dan niet alleen: wat voorspelt het model? De vraag is ook: wat kostten vergelijkbare gevallen daadwerkelijk? Daarmee blijft het model verankerd in gerealiseerde gevallen, terwijl de bijdrage van features en featurecombinaties direct inzichtelijk blijft.

Reference Class Forecasting: sterktes en zwaktes

Reference Class Forecasting (RCF) vertrekt vanuit de werkelijkheid, niet vanuit aannames. In plaats van te modelleren hoe dingen zouden moeten werken, stelt het de vraag: wat is er in vergelijkbare gevallen daadwerkelijk gebeurd?

Door voorspellingen te verankeren in werkelijke uitkomsten is RCF vaak betrouwbaarder dan puur theoretische of aanname-gedreven modellen.

In de praktijk wordt de referentieklasse doorgaans handmatig geselecteerd. Dit betekent dat experts bepalen welke gevallen “vergelijkbaar” zijn — vaak op basis van impliciete oordeelsvorming. Dat introduceert verborgen aannames over wat de uitkomsten werkelijk aandrijft.

En juist hier kan AI RCF versterken. Het kan helpen de referentieklasse:

  • systematischer te maken (datagedreven selectie)
  • nauwkeuriger te maken (betere matching van vergelijkbare gevallen)
  • transparanter te maken (duidelijker waarom gevallen worden opgenomen)
  • toetsbaarder te maken (gevalideerd aan de hand van historische data)

Zo behoudt men wel de empirische kracht van RCF, terwijl tegelijkertijd de subjectiviteit afneemt. Het resultaat is een voorspel-aanpak die consistenter, transparanter en beter in data verankerd is.

Waarom uitlegbaarheid hier niet cosmetisch is

In veel AI-toepassingen wordt explainability als iets extra’s gepresenteerd. In een waarheidsgetrouw kader is dat onvoldoende. Uitlegbaarheid is niet cosmetisch, maar een controlemechanisme. Modellen in toepassingen met grote gevolgen moeten niet alleen nauwkeurig zijn. Ze moeten ook transparant genoeg zijn zodat aannames, gevoeligheden en fouten kunnen worden geïdentificeerd en gecorrigeerd..

Dat sluit aan bij de RCF-AI-opzet. De dijkkostentoepassing bevat expliciet een explainability-laag met een watervaldiagram en de belangrijkste bijdragende factoren. Gebruikers kunnen daardoor zien welke kenmerken een voorspelling omhoog of omlaag duwen. Daarmee blijft het model niet steken bij black-box output. Het wordt een toetsbaar systeem voor beslissingsondersteuning.

Context is belangrijk — maar alleen als die zichzelf eerst bewijst

Een tweede fout in veel AI- en modeldiscussies is dat “meer context” automatisch als beter wordt gezien. Dat is niet altijd zo. Contextmodellen zijn nuttig, maar alleen als zij iets toevoegen bovenop de empirische kern. Die meerwaarde moet ook in validatie zichtbaar worden.

Dat is precies waarom de regime-benadering in het grondprijsrisico inhoudelijk relevant is. Daar wordt context niet alleen theoretisch toegevoegd. Er wordt expliciet gewerkt met een regime-based approach en de toegevoegde waarde wordt via out-of-sample backtests beoordeeld. Dat is de juiste volgorde: eerst een empirische kern, daarna context toevoegen voor zover die daadwerkelijk standhoudt.

De juiste tool voor het juiste probleem

Publieke twijfel over LLM’s in omgevingen met grote beslissingsgevolgen gaat niet alleen over geïsoleerde fouten. Het weerspiegelt een fundamentelere mismatch: deze modellen zijn geoptimaliseerd voor taalvloeiendheid en brede generalisatie over enorme hoeveelheden data, niet voor de gekalibreerde, controleerbare redenering die ingrijpende beslissingen vereisen. HalluHard maakt het prestatieverschil concreet, maar het meer fundamentele probleem ligt in het ontwerp — algemene taalmodellen zijn simpelweg niet ontworpen voor omgevingen met relatief beperkt hoeveelheid beschikbare data met grote beslissingsgevolgen.

De les is dan ook niet dat AI onbruikbaar is. Het is dat verschillende problemen verschillende tools vereisen. Voor beleid, investeringen, risicobeheer en projectbeslissingen — waar historische gevallen relatief beperkt zijn, onzekerheid eerlijk moet worden weergegeven en aannames betwistbaar moeten zijn — is de juiste architectuur er een die is gebaseerd op maximale empirische verankering, expliciete onzekerheid, transparante vergelijkbaarheid en contextstructuur die zichzelf eerst via data moet bewijzen. En niet een architectuur die is opgezet vanuit een paradigma wat is geoptimaliseerd op een overvloed aan data.

In dat licht is een systeem als RCF-AI interessant. Het combineert de sterkste onderdelen van AI met een empirisch anker. Het vervangt Reference Class Forecasting niet door black-box AI, maar versterkt het met betere vergelijkbaarheid, uitlegbaarheid en gevalideerde contextmodellering.

Conclusie

De toekomst van betrouwbare AI ligt niet in steeds grotere modellen alleen. Zij ligt in modellen die beter onderscheiden tussen:

  • wat zij weten,
  • wat zij waarschijnlijk kunnen schatten,
  • en wat zij niet met voldoende zekerheid kunnen claimen.

Dat vraagt om een verschuiving van performance-denken naar waarheidsgetrouw denken. Voor besluitvorming betekent dat: begin met een empirisch gevalideerde kern, voeg uitlegbaarheid toe, en laat context alleen toe waar die zich robuust out-of-sample laat valideren. In dat opzicht is RCF-AI niet slechts een AI-toepassing. Het is een voorbeeld van een sterker ontwerpprincipe voor betrouwbare besluitondersteuning.

Bronnen