Betrouwbare AI: waarom voorspelkracht alleen niet genoeg is

Estimated reading time: 7 minuten

De maatschappelijke discussie over kunstmatige intelligentie gaat steeds minder over de vraag óf modellen indrukwekkend zijn. De echte vraag is steeds vaker of ze betrouwbaar genoeg zijn voor echte besluitvorming en beslissingsondersteuning. Grote taalmodellen kunnen vloeiend schrijven, plausibel redeneren en overtuigend antwoorden. Maar juist daarin zit ook het risico. Een model kan sterk overkomen en toch onvoldoende waarheidstrouw zijn wanneer het antwoorden geeft zonder stevige basis in de data. Onafhankelijke tests laten zien dat recente frontier-modellen zonder webtoegang in moeilijke high-stakes settings nog steeds zeer vaak onjuist antwoorden. In HalluHard lag de hallucination rate zonder webtoegang bij de geteste topmodellen van OpenAI, Anthropic en Google boven de 50%.

Voor beleid, investeringen, risicomanagement en projectbeslissingen is daarom een andere vraag belangrijker dan alleen accuracy: hoe betrouwbaar is het model? NIST beschrijft betrouwbare AI dan ook breder dan voorspelprestatie alleen en noemt onder meer validiteit, betrouwbaarheid, reproduceerbaarheid, transparantie en risicobeheersing als kerneisen. In Europa zie je dezelfde beweging terug in de EU AI Act, die AI expliciet via een risicogebaseerd kader reguleert en aanvullende verplichtingen oplegt rond transparantie en high-risk toepassingen.

Wat is waarheidstrouw?

Voor serieuze besluitvorming is waarheidstrouw het best te begrijpen als een combinatie van vijf eigenschappen:

Empirische binding — het model blijft dicht bij observeerbare data.
Lage aannamelast — het legt zo weinig mogelijk extra structuur op.
Uitlegbaarheid en controleerbaarheid — het is begrijpelijk waarom een voorspelling ontstaat.
Eerlijke onzekerheid — het model doet niet zekerder alsof dan verantwoord is.
Terughoudendheid buiten de data — het blijft voorzichtig buiten de historische dataruimte.

Deze definitie past goed bij de bredere literatuur over interpreteerbare machine learning. Daarin is uitlegbaarheid geen extraatje, maar een noodzakelijke eigenschap voor verantwoord gebruik in toepassingen met grote gevolgen.

Wetenschappelijke validiteit en EBMAR

Een wetenschappelijk sterk model kenmerkt zich door hoge voorspelwaarde, weinig aannames, weinig extrapolatie en beperkte afhankelijkheid van latente variabelen. De belangrijkste praktische maat voor wetenschappelijke validiteit is daarom robuuste out-of-sample voorspelbaarheid. In high-stakes omgevingen is daarnaast ook waarheidstrouw nodig. Die beoordelen we hier met het EBMAR-kader.

EBMAR staat voor Evidence-Bound, Mechanism-Agnostic Reasoning. De kern hiervan is eenvoudig: de data leveren de grondwaarheid, alles daarbuiten is onzekerheid. Modellen zijn dus geen antwoorden, maar hypotheses die zich eerst op nieuwe data moeten bewijzen. De afhankelijkheid van latente variabelen moet zo veel mogelijk worden beperkt en expliciet worden gemaakt. Extrapolatie buiten de dataruimte moet expliciet worden begrensd.

Dit maakt ook duidelijk waarom niet alle modeltypen epistemisch even sterk zijn. Menselijke schattingen en veel rule-based modellen leunen vaak zwaar op vooraf gekozen aannames, expertintuïtie en vaste beslisregels. Daardoor worden impliciet al keuzes gemaakt voor drivers die mogelijk niet de belangrijkste zijn. Welke kenmerken echt belangrijk zijn, wordt dan niet primair door data-gedreven feature engineering of systematische out-of-sample validatie bepaald, maar door vooraf gekozen veronderstellingen.

Deep learning-modellen zitten aan de andere kant van het spectrum. Zij kunnen sterk presteren, maar gebruiken veel verborgen representaties en latente lagen. Daardoor wordt de directe koppeling tussen inputdata, onderliggende drivers en voorspelling onduidelijker. Ook de onzekerheid is dan minder direct observeerbaar. Juist daarom is in high-stakes toepassingen niet alleen performance belangrijk, maar ook de vraag hoe dicht een model bij de data blijft, hoeveel verborgen structuur het toevoegt, en hoe eerlijk het zijn onzekerheid weergeeft.

Waarom diepe verborgen lagen een probleem kunnen zijn

Naarmate modellen meer gebruikmaken van diepe verborgen lagen, wordt de relatie tussen input, interne verwerking en output minder goed zichtbaar. Dat maakt het onduidelijker of een voorspelling nog stevig op echte data steunt en wanneer een model buiten zijn bekende gebied werkt. Als een model daarnaast alleen wordt getraind op “de beste voorspelling”, gaat informatie over onzekerheid gemakkelijk verloren. Het leert dan vooral welk antwoord gemiddeld de fout verlaagt, niet vanzelf wanneer het eigenlijk onvoldoende basis heeft om stellig te zijn.

Het alternatief: een AI-architectuur met een empirische kern

Als pure modelcomplexiteit niet genoeg is, wat is dan wel nodig? Het antwoord ligt niet in minder AI, maar in een andere opbouw van AI. Een betrouwbare AI voor besluitvorming heeft idealiter:

een empirisch gevalideerde kern,
een uitlegbare besluitlaag,
en pas daarna eventueel een context- of regime-afhankelijke verrijking.

Dat is precies waar een aanpak als RCF-AI interessant wordt. In de Asset Mechanics-toepassing voor dijkenkosten wordt AI niet neergezet als vervanging van de werkelijkheid. Het wordt gebruikt als versterking van drie perspectieven: predictive modelling, explainability en reference class benchmarking. De tool gebruikt meer dan 50 projectfeatures, laat voorspelde versus gerealiseerde kosten voor afgeronde projecten zien en identificeert automatisch vergelijkbare historische projecten op basis van multidimensionale similariteit.

Dat is inhoudelijk sterker dan een model dat alleen een puntvoorspelling geeft. De vraag is dan niet alleen: wat voorspelt het model? De vraag is ook: wat kostten vergelijkbare gevallen daadwerkelijk? Daarmee blijft het model verankerd in gerealiseerde gevallen, terwijl de bijdrage van features en featurecombinaties direct inzichtelijk blijft.

Waarom Reference Class Forecasting sterk is — en waar klassieke RCF tekortschiet

Reference Class Forecasting is sterk omdat het niet begint met een theorie over hoe de wereld zou moeten werken. Het begint met de vraag welke vergelijkbare gevallen zich al hebben voorgedaan en wat daar werkelijk gebeurde. Die empirische oriëntatie maakt het methodologisch sterker dan veel puur mechanistische of speculatieve modellen.

Maar klassieke RCF heeft ook een zwakte. De referentieklasse wordt vaak handmatig gekozen. Daarmee maken experts impliciet al aannames over welke kenmerken de echte drivers zijn. Dat is precies waar AI een legitieme meerwaarde kan hebben. Niet door de reference class-logica te vervangen, maar door haar systematischer, scherper en beter toetsbaar te maken. In de RCF-AI-opzet gebeurt dat via een combinatie van systematische feature-discovery, explainability, validatie en historisch vergelijkbare projecten.

Waarom uitlegbaarheid hier niet cosmetisch is

In veel AI-toepassingen wordt explainability als iets extra’s gepresenteerd. In een waarheidstrouw kader is dat te zwak. Uitlegbaarheid is niet cosmetisch, maar een controlemiddel. Modellen in toepassingen met grote gevolgen moeten niet alleen accuraat zijn. Ze moeten ook inzichtelijk genoeg zijn om aannames, gevoeligheden en fouten te kunnen bespreken en controleren.

Dat sluit aan op de RCF-AI-opzet. De dijkkosten-toepassing bevat expliciet een explainability-laag met een waterfall en top contributing factors. Gebruikers kunnen daardoor zien welke kenmerken een voorspelling omhoog of omlaag duwen. Daarmee blijft het model niet steken in black-box output. Het wordt een toetsbaar systeem voor besluitondersteuning.

Context is belangrijk — maar alleen als die zichzelf eerst bewijst

Een tweede fout in veel AI- en modeldiscussies is dat “meer context” automatisch als beter wordt gezien. Dat is niet altijd zo. Contextmodellen zijn nuttig, maar alleen als zij iets toevoegen bovenop de empirische kern. Die meerwaarde moet ook in validatie zichtbaar worden.

Dat is precies waarom de regime-benadering in de landprijsrisk tool inhoudelijk relevant is. Daar wordt context niet alleen theoretisch toegevoegd. Er wordt expliciet gewerkt met een regime-based approach en de toegevoegde waarde wordt via out-of-sample backtests beoordeeld. Dat is de juiste volgorde: eerst een empirische kern, daarna context toevoegen voor zover die daadwerkelijk standhoudt.

De juiste les uit de LLM-discussie

De maatschappelijke twijfel over LLM’s gaat niet alleen over losse fouten, maar over de vraag wanneer een model zonder voldoende empirische basis toch stellig antwoord geeft. HalluHard maakt dat concreet: zonder webtoegang waren in moeilijke high-stakes settings meer dan de helft van de geteste antwoorden onjuist. Dat maakt duidelijk dat hoge taalvaardigheid nog niet hetzelfde is als betrouwbare besluitondersteuning.

De les is dan ook niet dat AI onbruikbaar is. De les is dat andere AI-architecturen nodig zijn: met maximale empirische verankering, expliciete onzekerheid, transparante vergelijkbaarheid en contextstructuur die zichzelf eerst via data moet bewijzen.

In dat licht is een systeem als RCF-AI interessant. Het combineert de sterkste onderdelen van AI met een empirisch anker. Het vervangt Reference Class Forecasting niet door black-box AI, maar versterkt het met betere vergelijkbaarheid, uitlegbaarheid en gevalideerde contextmodellering.

Conclusie

De toekomst van betrouwbare AI ligt niet in steeds grotere modellen alleen. Zij ligt in modellen die beter onderscheiden tussen:

wat zij weten,
wat zij waarschijnlijk kunnen schatten,
en wat zij niet met voldoende zekerheid kunnen claimen.

Dat vraagt om een verschuiving van performance-denken naar waarheidstrouw denken. Voor besluitvorming betekent dat: begin met een empirisch gevalideerde kern, voeg uitlegbaarheid toe, en laat context alleen toe waar die zich robuust out-of-sample laat valideren. In dat opzicht is RCF-AI niet slechts een AI-toepassing. Het is een voorbeeld van een sterker ontwerpprincipe voor betrouwbare besluitondersteuning.

RCF-AI Tool

Systeemkaart RCf-AI