Asset Mechanics
RCF-AI Platform
Systeemkaart & Model-evaluatierapport
#Doel van dit document
Dit document beschrijft wat het RCF-AI-platform doet, hoe de prestaties zijn gevalideerd, wat het bewijs laat zien en waar de momenteel gevalideerde grenzen van het systeem liggen. Het volgt de system-card-conventie voor AI-systeemdocumentatie, aangepast aan infrastructuur-kostenraming, waarbij relevante prestatie-indicatoren afkomstig zijn uit de literatuur over cost engineering en forecasting.
De tekst is geschreven voor technisch onderlegde lezers zonder specialistische machine-learningkennis. Een inkoper of technisch adviseur moet dit document kunnen lezen, begrijpen wat is gevalideerd en hoe, en zelfstandig kunnen beoordelen of het bewijs geloofwaardig is.
#1. Systeembeschrijving
#1.1 Wat het systeem doet
Het RCF-AI-platform - de AI-gedreven Reference Class Forecasting-engine van Asset Mechanics - maakt kostenramingen in een vroege fase voor dijkversterkingsprojecten. Het combineert interne projectdata met externe geo-indicatoren en door GenAI afgeleide kenmerken om contextafhankelijke kostenramingen te genereren, inclusief gekwantificeerde onzekerheidsbanden.
Het systeem heeft twee kerncomponenten. De eerste is een machine-learningmodel dat is getraind op afgeronde projecten binnen het HWBP-programma. Dit model identificeert welke kenmerken het meest relevant zijn voor kostenvariatie en genereert verwachte kosten per kilometer met dynamische, contextspecifieke onzekerheidsbanden. De tweede component is een algoritme voor vergelijkbare projecten dat voor elke nieuwe beoordeling de tien meest vergelijkbare historische projecten selecteert, zodat naast de statistische raming ook een transparante referentiebasis beschikbaar is.
De output wordt getoond in een webdashboard met de belangrijkste kostendrijvers, verwachte kosten per kilometer, de tien meest vergelijkbare projecten, onzekerheidskwantificatie en een custom Dike Price Index op basis van materiaalgewichten. Deze materiaalgewogen Dike Price Index maakt inflatiecorrectie mogelijk die aansluit op de specifieke samenstelling van een dijkvak, in plaats van het toepassen van een generieke bouwkostenindex.
#1.2 Beoogd gebruik
RCF-AI is ontworpen voor gebruik in de voorverkenning, verkenning en vroege planuitwerkingsfase van de HWBP-projectlevenscyclus, overeenkomend met AACE International ramingklasse 5, klasse 4 en klasse 3. In deze fasen ondersteunt een vroege kostenraming budgetvorming, scope-afbakening en governancebesluiten, terwijl ontwerp en scope nog iteratief worden uitgewerkt. RCF-AI kan aanvullend zo geconfigureerd worden dat het ondersteunt bij het afwegen van de kostenconsequenties van ontwerpvarianten binnen dezelfde projectdoelstelling.
RCF-AI levert hiervoor een statistische kostenbandbreedte op basis van vergelijkbare historische projecten en rapporteert onzekerheid expliciet. De prioritering van dijkversterkingen wordt bepaald door het veiligheidsoordeel zoals vastgelegd in het Waterveiligheidsportaal, niet door kostenramingen. De uiteindelijke budgetvaststelling blijft een menselijke verantwoordelijkheid en RCF-AI is bedoeld als input voor deskundige kostentoetsing, niet als vervanging daarvan.
Binnen gevalideerde scope: Nederlandse dijkversterking binnen de HWBP-programmatypologie. Dijktrajecten met een scope van minimaal 1 km. Projecten met geotechnische en locatiecomplexiteitsprofielen die zijn vertegenwoordigd in de trainingsdataset. Gebruik als input voor deskundige kostenbeoordeling, niet als vervanging daarvan.
Buiten gevalideerde scope: Kostenraming na aanbesteding. Projecten buiten het bereik van de trainingsdata. Gebruik als enige basis voor budgetcommitments zonder deskundige beoordeling. Voor toepassingen buiten dijkversterking en buiten Nederland kan contact worden opgenomen met Asset Mechanics om de status van lopende validatie te bespreken.
#1.3 Wat het systeem niet doet
Het systeem vervangt geen engineering judgment. Het produceert geen juridisch bindende ramingen.
#2. Validatiemethodologie
#2.1 Holdout-methodologie
Alle primaire prestatie-indicatoren in dit document zijn berekend op out-of-sample data. Metrics gerapporteerd op trainingsdata hebben in de praktijk geen waarde in het gebruik als prestatieclaim. Dat onderscheid is fundamenteel: in-sample fit laat zien hoe goed het model de data beschrijft waarop het is getraind. Out-of-sample prestaties laten zien hoe goed het model uitkomsten voorspelt die het tijdens training nooit heeft gezien - en dat is de enige geloofwaardige basis voor beoordeling van een kostenramingsmodel dat op nieuwe projecten wordt ingezet. Waar in dit document toch in-sample cijfers worden getoond, gebeurt dit uitsluitend ter indicatie/diagnostiek en niet als primaire prestatie-indicator.
De validatiemethodologie gebruikte leave-one-project-out (LOPO) cross-validatie als primair schema. Het model wordt telkens opnieuw getraind op alle projecten behalve een, waarna het achtergehouden project als testcase dient. Dit wordt voor elk project in de dataset herhaald. LOPO is voor datasets van deze omvang het meest conservatieve cross-validatieschema, omdat het de trainingsdata maximaliseert en tegelijk garandeert dat elke testvoorspelling echt out-of-sample is.
Naast LOPO is een last-holdout-validatie voorzien op een recente set afgeronde projecten die niet beschikbaar was tijdens de oorspronkelijke modeltraining. Deze toets is bedoeld als prospectieve check: het model wordt getraind op historische data en beoordeeld op daadwerkelijk latere projecten die het niet heeft gezien.
De last-holdout-toets op een afzonderlijke recente projectset valt buiten de scope van deze pilot en wordt in deze versie nog niet gerapporteerd. De overlapprojecten waarop de vergelijking met eerste expert-ramingen is gebaseerd, zijn voor de betreffende modelvoorspellingen niet gebruikt in het trainingsproces en zijn daarmee werkelijk out-of-sample.
In een volgende versie wordt de formele out-of-sample rapportage verbreed naar de volledige projectset, waarbij de modellen successievelijk opnieuw worden getraind met telkens één project buiten de training (LOPO). Zodra daarnaast ook een afzonderlijke recente last-holdout-set voldoet aan vooraf vastgelegde eisen voor minimale omvang, datakwaliteit en representativiteit (waaronder spreiding over relevante dijktypen/projectprofielen), worden ook die prospectieve resultaten gerapporteerd.
De menselijke expertinschattingen die als benchmark zijn gebruikt, zijn ontleend aan de eerste in het systeem geregistreerde expert-ramingen uit de projecthistorie (waar beschikbaar). Deze ramingen zijn opgesteld in de reguliere projectpraktijk volgens het HWBP-referentiekader en niet specifiek opgevraagd in het kader van de pilot of modelvalidatie. De betreffende experts waren niet betrokken bij de modelontwikkeling. De benchmarkvergelijking gebruikt deze eerste geregistreerde expert-ramingen als onafhankelijke referentie ten opzichte van de modeluitkomsten.
Voor vergelijkingen met benchmarks (zoals expert-ramingen, het HWBP-referentiekader en de GWW-indexbaseline) worden metrics berekend op de overlapset waarvoor zowel de modeloutput als de betreffende benchmarkwaarde beschikbaar is. Projecten zonder beschikbare benchmarkwaarde worden niet meegenomen in de betreffende vergelijkingsmetric.
#2.2 Dataset
| Parameter | Beschrijving |
|---|---|
| Programmascope | HWBP-programma - Nederlandse dijkversterkingsprojecten binnen het nationale hoogwaterbeschermingsprogramma met bevestigde eindkosten |
| Projectomvang | Dekking van het bereik aan contractwaarden dat representatief is voor typische HWBP-projectdelen - zie sectie 4 voor scopegrenzen |
| Dijktypologie | Rivierdijk, Harde Zeedijk, Zachte Zeedijk, Meerdijk en Regionale Kering |
| Geografische scope | Nederland - projecten verspreid over meerdere waterschapsjurisdicties |
| Datasetdekking | HWBP2 en HWBP-programmacycli - voldoende om variatie in marktomstandigheden, geotechnische omgevingen en complexiteitsprofielen te vangen |
| Expertbenchmark | Onafhankelijke senior kostendeskundigen met ruime HWBP-ervaring |
Datagovernance: Projectkostendata wordt verkregen via data sharing agreements met deelnemende waterschappen, in overeenstemming met de AVG/GDPR en toepasselijk Nederlands privacyrecht. Alle data wordt op projectdeelniveau geanonimiseerd voordat deze wordt gebruikt voor modeltraining. Project-ID en exacte locatie worden niet als directe model-features gebruikt. Deze velden kunnen wel worden gebruikt om afgeleide, functionele kenmerken te construeren (bijvoorbeeld gebieds- en contextkenmerken). Individuele project- en aannemeridentiteiten worden niet op individueel niveau gerapporteerd in validatie- of publieke documentatie. Rechten op data voor doorlopende modelverbetering zijn opgenomen in de platformabonnementsvoorwaarden.
#2.3 Vergelijkingsbasis en beperkingen van complexiteit als benchmark
In de huidige praktijk wordt projectcomplexiteit in de vroege fase niet altijd objectief, uniform en reproduceerbaar vastgelegd in Project Initiatie-/Initialisatiedocumenten. Complexiteitsduiding wordt in de praktijk vaak pas later in het traject scherper vastgesteld, op basis van nadere uitwerking van scope, ontwerpkeuzes en projectspecifieke omstandigheden. Daardoor is complexiteit in de verkennings- en vroege planuitwerkingsfase beperkt bruikbaar als primaire, objectieve benchmarkvariabele voor validatie van vroege kostenramingen.
Om die reden baseert deze systeemkaart de primaire prestatiebeoordeling op out-of-sample validatiemetrics (zoals LOPO) en vergelijking met bestaande ramingspraktijk op dezelfde projecten, en niet op een ex-ante complexiteitsclassificatie als hoofdbenchmark. Waar prestaties worden uitgesplitst, gebeurt dit op variabelen die in de vroege fase beter reproduceerbaar en eenduidig beschikbaar zijn (zoals dijktype).
Aanvullend wordt een GWW-indexgebaseerde baseline-raming (CBS GWW-index) gerapporteerd als externe, objectieve en reproduceerbare vergelijkingsbasis. Deze baseline dient als referentie voor prijsontwikkeling in de tijd en als eenvoudige index-gebaseerde benchmark.
#3. Prestatie-indicatoren
De onderstaande metrics volgen de conventies uit de literatuur over cost engineering en forecasting. Voor prestatiemetrics (zoals MAPE, MPE en r²) sluit de rapportage aan op gangbare cost-engineering- en forecastingconventies; voor klassegebonden onzekerheidsbandbreedtes wordt in deze systeemkaart expliciet aangesloten op AACE International Recommended Practice No. 69R-12 (hydropower industries), zoals uitgewerkt in sectie 3.5. Alle metrics zijn berekend op de (LOPO-) holdout-validatiesets zoals beschreven in sectie 2 - niet op trainingsdata.
#3.1 Verklaarde variantie (r²)
r² meet welk deel van de kostenvariatie tussen projecten door het model wordt verklaard. Een r² van 1,0 betekent perfecte voorspelling; 0,0 betekent geen verklarende kracht boven het datagemiddelde. Waar beschikbaar wordt de eerste expert-raming volgens het HWBP-referentiekader uit de geregistreerde projecthistorie gebruikt als baselinevergelijking. De r² van de GWW-index wordt ter referentie getoond.
| Metric | RCF-AI-model | HWBP-referentiekader (baseline) | GWW-index |
|---|---|---|---|
| r² - in-sample | 0.76 | n.a. | 0.02 |
| r² - out-of-sample (LOPO) | 0.37 | n.a. | 0.02 |
Interpretatie: Het model verklaart 37% van de kostenvariatie in de LOPO-holdout-validatieset. De resterende 63% is toe te schrijven aan factoren die niet in het huidige RCF-AI platform zijn opgenomen - de resterende variatie wordt nader geanalyseerd (zie sectie 5).
#3.2 Mean Absolute Percentage Error (MAPE)
MAPE meet de gemiddelde procentuele afwijking tussen de modelraming en de gerealiseerde eindkosten, uitgedrukt als percentage van de eindkosten. De modelafstelling is hierbij LOPO-gestuurd en niet uitsluitend geoptimaliseerd op maximale in-sample fit. Een MAPE van 23% betekent dat de ramingen van het model gemiddeld 23% van de werkelijke eindkosten afliggen. In deze sectie wordt MAPE gerapporteerd op de overlapset van projecten waarvoor zowel modeluitkomsten als eerste expert-ramingen beschikbaar waren uit de (voor)verkenning en de aanvang van de planuitwerkingsfase (zie sectie 2.1). De RCF-AI-voorspellingen voor deze vergelijking zijn out-of-sample bepaald via LOPO-validatie.
| Ramer | MAPE | Validatieset | Toelichting |
|---|---|---|---|
| Menselijke expertinschattingen | 46% | Zelfde projecten als model | Eerste geregistreerde raming uit projecthistorie |
| RCF-AI-model (LOPO) | 23% | LOPO out-of-sample (overlap) | Primaire prestatie-indicator |
Belangrijkste bevinding: Op deze overlapset lag de gemiddelde procentuele fout van RCF-AI met 23% duidelijk lager dan die van de eerste beschikbare expertraming met 46%. De modelramingen zijn hiermee gemiddeld ongeveer de helft nauwkeuriger dan de corresponderende vroege expertramingen in deze set.
#3.3 Richtingsbias
Mean Percentage Error (MPE) is de getekende variant van MAPE en laat zien of het model kosten systematisch over- of onderschat. Een positieve MPE wijst op structurele overschatting; een negatieve MPE op structurele onderschatting. Systematische bias is vaak relevanter dan willekeurige fout, omdat die zich opstapelt over een projectportfolio.
Bias wordt gerapporteerd per dijktype, omdat uitgesplitste bias laat zien waar het model systematische neigingen heeft die in geaggregeerde cijfers verborgen kunnen blijven.
| Segment | MPE (getekende bias) | Beoordeling |
|---|---|---|
| Alle projecten (totaal) | 18% | Lichte overschatting |
| Rivierdijk | 11% | Lichte overschatting |
| Meerdijk | -6% | Gebalanceerd |
| Harde Zeedijk | 58% | Sterke overschatting |
| Zachte Zeedijk | -34% | Onderschatting |
| Regionale Kering | 4% | Gebalanceerd |
Opmerking: Rivier- en meerdijken laten een lage overschatting zien en zijn goed bruikbaar. Voor de andere dijktypen is de sample-size nog te laag en het model nog niet bruikbaar. Gebruikers kunnen extra contingency overwegen in projectsegmenten waar het model systematisch onderschat. De biascijfers hierboven zijn gebaseerd op LOPO-validatie; een aanvullende vergelijking voor temporele interpretatie is opgenomen in sectie 3.4.
#3.4 Temporele stabiliteit
Ter context wordt een vergelijking met de GWW-indexgebaseerde baseline (CBS GWW-index) gerapporteerd als externe referentie voor prijsontwikkeling in de tijd. Deze sectie heeft een andere doelstelling dan sectie 3.2: hier gaat het om temporele interpretatie en aanvullende duiding, niet om de overlapset met beschikbare expert-ramingen alleen.
De onderstaande vergelijking is daarmee een benchmark voor temporele interpretatie binnen de pilot en geen formele prospectieve validatie. De eerste regel toont het volledig getrainde model na LOPO-gestuurde modelafstelling en wordt uitsluitend ter indicatie/diagnostiek getoond. Een afzonderlijke last-holdout-toets wordt in een vervolgfase toegevoegd (zie sectie 8.1).
| Methode / benchmark | MAPE | r² | Toelichting |
|---|---|---|---|
| RCF-AI-model (LOPO-gestuurde modelafstelling) | 25% | 0.76 | Diagnostische prestatie op het volledig getrainde model; geen primaire claimbasis |
| RCF-AI-model (LOPO-overlap met eerste expert-ramingen) | 23% | n.v.t. | Overlapset uit de (voor)verkenning en aanvang planuitwerkingsfase; out-of-sample op ongeziene data, zie sectie 3.2 |
| GWW-indexgebaseerde baseline (CBS GWW) - zelfde LOPO-projectset | n.v.t. | 0.02 | Externe benchmark voor prijsontwikkeling; index-gebaseerde referentieraming |
Interpretatie: Deze vergelijking ondersteunt de beoordeling of de modelprestatie robuuster is dan een eenvoudige index-gebaseerde referentieraming onder veranderende kostencondities.
#3.5 Vergelijking met AACE-ramingsclassificatie (69R-12)
Voor de interpretatie van vroege-fase ramingsonzekerheid hanteert deze systeemkaart de maximale bandbreedtes per ramingsklasse uit AACE 69R-12 (hydropower industries) als richtinggevend referentiekader voor dijkversterkingsprojecten.
Op basis van AACE 69R-12 (hydropower industries) worden de maximale bandbreedtes per ramingsklasse gehanteerd als richtinggevende bandbreedte voor dijkversterkingsprojecten. Dit is gerechtvaardigd omdat dijkversterkingsprojecten structureel scoren op de risicofactoren die 69R-12 expliciet benoemt als reden om de hoge kant van de range aan te houden: lange projectduur, geotechnische onzekerheid, hydrologische complexiteit en ambigu omgevingsrecht.
| HWBP fase | Dijkprofiel | AACE klasse | Maximale bandbreedte 69R-12 | Expert MAPE | RCF-AI MAPE (LOPO-overlap) |
|---|---|---|---|---|---|
| Voorverkenning | Huidig | Klasse 5 | -50% tot +100% | 46%* | 23%* |
| Verkenning | VKA | Klasse 4 | -30% tot +50% | n.v.t. | n.v.t. |
| Planuitwerking | Ontwerpprofiel | Klasse 3 | -20% tot +30% | n.v.t. | n.v.t. |
| Realisatie | Uitvoeringsontwerp | Klasse 2 | -15% tot +20% | n.v.t. | n.v.t. |
| Werkelijk | Gerealiseerd project | n.v.t. | 0% | n.v.t. | n.v.t. |
De met * gemarkeerde MAPE-waarden zijn out-of-sample validatiemetrics op de overlapset met beschikbare vroege expert-ramingen uit de (voor)verkenning en de aanvang van de planuitwerkingsfase (zie sectie 2.1 en 3.2). De AACE-bandbreedtes blijven een klasse-gebaseerde referentie voor onzekerheidsduiding en vervangen de modelvalidatiemetrics niet.
#4. Gevalideerde scope
#4.1 Binnen gevalideerde scope
De prestatiecijfers in sectie 3 gelden binnen de hieronder beschreven gevalideerde scope. Binnen deze scope kunnen gebruikers de gerapporteerde prestatiecijfers gebruiken als uitgangspunt, met dien verstande dat segmenten met lage n extra voorzichtigheid en deskundige beoordeling vereisen.
- Nederlandse dijkversterkingsprojecten binnen de HWBP-programmatypologie
- Projecten in de voorverkenning, verkennings- en vroege planuitwerkingsfase (AACE klasse 5, klasse 4 en klasse 3)
- Geotechnische en locatiecomplexiteitsprofielen die in de trainingsdataset zijn vertegenwoordigd
- Rivierdijk, Harde Zeedijk, Zachte Zeedijk, Meerdijk en Regionale Kering
- Projecten verspreid over meerdere waterschapsjurisdicties
#4.2 Buiten gevalideerde scope
Het volgende valt buiten de gevalideerde scope. Het model kan voor deze gevallen wel output genereren, maar de prestatiecijfers uit sectie 3 zijn dan niet van toepassing en de output moet met passende voorzichtigheid worden gebruikt. - Projecten met een scope < 1 km of innovatieprojecten - Projecten met extreme complexiteitsprofielen aan de rand van het trainingsdatabereik - zie sectie 5.2 - Projecten waarvoor de datakwaliteit van de belangrijkste features onbetrouwbaar is en de geregistreerde waarde substantieel afwijkt van de werkelijke waarde. - Kostenraming na aanbesteding (AACE klasse 1 en 2) - Gebruik als enige basis voor een bindende budgetbeslissing zonder deskundige engineering review
Voor infrastructuurtypen buiten dijkversterking en geografieën buiten Nederland loopt validatiewerk nog. De scope wordt bijgewerkt zodra validatie is afgerond. Gebruikers die geïnteresseerd zijn in andere infrastructuurtypen of geografieën kunnen contact opnemen met Asset Mechanics om de actuele validatiestatus te bespreken.
#4.3 Gevallen die extra deskundige beoordeling vereisen
Bepaalde projecten kunnen binnen de toepassingsscope vallen maar in de huidige dataset en validatie verhoogde onzekerheid tonen, met name wanneer projectkenmerken of contextfactoren beperkt vertegenwoordigd zijn in de trainingsdata. In deze gevallen wordt aanvullende deskundige beoordeling aanbevolen voordat modelramingen als primaire basis voor budgetbesluiten worden gebruikt.
#5. Bekende beperkingen
Transparantie over beperkingen is een kenmerk van dit document. Gebruikers die begrijpen waar het model minder betrouwbaar is, kunnen beter professioneel oordeel en aanvullende beoordeling toepassen. Asset Mechanics ziet eerlijke disclosure van bekende beperkingen als essentieel voor verantwoorde inzet van AI-hulpmiddelen in infrastructuurinkoop.
#5.1 Onvermijdbare onzekerheid
Het model verklaart 37% van de kostenvariatie in de LOPO-validatieset. De resterende 63% wordt in de huidige modelversie en dataset nog niet volledig verklaard. Asset Mechanics gebruikt uitbreiding van de trainingsdata en aanvullende analyse om de belangrijkste drivers van deze resterende variatie stapsgewijs beter te identificeren en in volgende modelversies te verwerken. De gerapporteerde onzekerheidsbanden nemen deze resterende onzekerheid expliciet mee.
#5.2 Dekkingsgraad van de trainingsdata
De toepasbaarheid van het model hangt mede af van de mate waarin het te beoordelen project aansluit bij de projecttypen in de huidige dataset. Bij sterk afwijkende of beperkt vertegenwoordigde dijktypen of projectprofielen kunnen de modelprestaties meer spreiding laten zien en lager uitvallen dan de gerapporteerde geaggregeerde metrics.
Daarnaast kunnen projectspecifieke omstandigheden ertoe leiden dat een project duurder uitvalt dan op basis van historische vergelijkbare projecten verwacht mag worden, bijvoorbeeld door lokale uitvoeringsbeperkingen, bijzondere technische eisen, vergunningvoorwaarden, fasering of marktomstandigheden die nog niet voorkomen in de trainingsdata. In dergelijke gevallen is aanvullende deskundige beoordeling en, waar passend, extra contingency aanbevolen.
Asset Mechanics breidt de dekking van de trainingsdata voor dergelijke projecten stapsgewijs uit via lopende klantpartnerschappen en nieuwe data-inname.
#5.3 Inflatie en temporele drift
Asset Mechanics corrigeert kostenontwikkelingen met een dijktype-afhankelijke inflatiecorrectie. Het belangrijkste restrisico voor modelprestaties zit daardoor niet primair in algemene kostenbewegingen, maar in projecten met sterk afwijkende of beperkt vertegenwoordigde dijktypen. In zulke gevallen kunnen prestaties lager zijn dan gerapporteerd en is aanvullende deskundige beoordeling aangewezen.
#5.4 Toepassingen waarvoor dit model niet geschikt is
- Als enige basis voor een bindende budgetbeslissing zonder deskundige engineering review
- Voor juridische procedures of geschilbeslechting
- Als vervanging van terrein- of bodemonderzoek - het model gebruikt onderzoeksdata als input en vervangt het onderzoek zelf niet
- Voor projecttypen buiten de gevalideerde scope in sectie 4, zonder overleg met Asset Mechanics over de actuele validatiestatus
#6. Datagovernance
#6.1 Databronnen en overeenkomsten
Het RCF-AI-model is getraind op eindkostendata van afgeronde projecten binnen het HWBP-programma. Data wordt verkregen onder data sharing agreements met deelnemende waterschappen, in overeenstemming met de AVG/GDPR en toepasselijk Nederlands privacyrecht. Alle projectdata wordt op projectdeelniveau geanonimiseerd voordat deze wordt gebruikt voor modeltraining. Project-ID en exacte locatie worden niet als directe model-features gebruikt. Deze velden kunnen wel worden gebruikt om afgeleide, functionele kenmerken te construeren (bijvoorbeeld gebieds- en contextkenmerken). Individuele project- en aannemeridentiteiten worden niet op individueel niveau gerapporteerd in validatie- of publieke documentatie.
#6.2 Wat wel en niet wordt gedeeld
Asset Mechanics biedt transparantie over gebruikte featurecategorieën, validatieresultaten, aannames en beperkingen, met een passende mate van detail afgestemd op de rol van de ontvanger en het gebruiksdoel. Het model wordt periodiek verbeterd, inclusief uitbreiding of verfijning van features, onder versiebeheer en validatie. Bedrijfsgeheime implementatiedetails (zoals modelgewichten, broncode en volledige feature-engineering) worden niet gedeeld. Onafhankelijke beoordeling vindt plaats via een vooraf vastgelegd validatieprotocol op basis van modeloutput, evaluatieresultaten en ondersteunende documentatie.
Onderliggende projectdetails van individuele abonnees worden niet gedeeld met andere abonnees of derden buiten de Alliantie. Voor verbetering van het gedeelde model kunnen wel afgeleide, functionele kenmerken uit projecten van deelnemende partijen worden gebruikt. In het overzicht met vergelijkbare projecten kunnen projectnamen van referentieprojecten zichtbaar zijn voor geautoriseerde gebruikers, voor zover contractueel toegestaan binnen de samenwerkingscontext. Onderliggende projectkenmerken, aannemerinformatie en andere niet-noodzakelijke detailgegevens van andere waterschappen worden daarbij niet zichtbaar gemaakt aan gebruikers.
De specifieke voorwaarden voor datagebruik en bijdragen aan modelverbetering zijn opgenomen in de platformabonnementsovereenkomst.
#6.3 Modelverbetering in de tijd
De modelprestaties verbeteren naarmate eindkostendata van platformabonnees onder abonnementsvoorwaarden bijdraagt aan de trainingsdataset en wordt meegenomen in de herijkingscyclus. Dat betekent dat de gevalideerde scope en prestatie-indicatoren kunnen verbeteren naarmate de dataset groeit. Prestatie-updates worden gepubliceerd bij elke nieuwe versie van deze systeemkaart.
#6.4 Data die niet wordt verzameld
Het platform verzamelt geen persoonsgegevens over individuele calculators of engineers. Het verzamelt geen commercieel gevoelige aanbestedingsinformatie buiten de projectkenmerken en kostenuitkomst die nodig zijn voor modelverbetering. Het deelt geen individuele projectdata tussen waterschap-abonnees.
#7. Versiehistorie en updatefrequentie
#7.1 Herijkingsschema
Het model wordt jaarlijks herijkt met eindkostendata van projecten die in het voorafgaande jaar zijn afgerond. Elke herijking levert een bijgewerkte systeemkaart op met herziene prestatie-indicatoren, berekend op een geactualiseerde holdout-validatieset. Het herijkingsschema en wijzigingen in metrics worden na afronding van de herijking gepubliceerd op de website van Asset Mechanics.
#7.2 Versiehistorie
| Versie | Datum | Scope | r² | MAPE (diagnostisch) | MAPE (overlap, out-of-sample) |
|---|---|---|---|---|---|
| 1.0 | Feb 2026 | Eerste publicatie. LOPO-validatie op HWBP-programmadataset. | r² = 37% | MAPE = 25% | MAPE (overlap) = 23% |
#8. Assurance, audit en compliance
#8.1 Geplande validatie-uitbreidingen (buiten scope pilot)
Twee validatie-uitbreidingen vallen buiten de scope van deze pilot en worden in deze versie niet gerapporteerd: (1) validatie van de dekking van voorspellingsintervallen en dekkingsfout, en (2) een prospectieve out-of-sample toets op een nieuwe set afgeronde projecten (last holdout).
De validatie wordt in vervolgversies stapsgewijs uitgebreid met aanvullende out-of-sample toetsen op nieuwe sets afgeronde projecten, naarmate nieuwe data beschikbaar komt. Daarbinnen worden de hierboven genoemde uitbreidingen toegevoegd. Resultaten uit deze uitbreidingen worden in een volgende versie van de systeemkaart opgenomen. Herijkingsmomenten en veranderingen in metrics worden vastgelegd in de versiehistorie (sectie 7).
#8.2 Onafhankelijke audit
Deze versie van de systeemkaart (v1.0) is door Asset Mechanics zelf gerapporteerd. In een volgende fase kan een onafhankelijke auditor het model toetsen op een afgesproken set projecten volgens een vooraf vastgelegd validatieprotocol en de prestatie-indicatoren reproduceren op basis van modeloutput en evaluatieresultaten. Bevindingen kunnen in samengevatte vorm worden opgenomen in een volgende update van de systeemkaart.
#8.3 Relatie tot EU AI Act-documentatie
Deze systeemkaart is een publiek transparantie- en verantwoordingsdocument voor klanten, partners en andere stakeholders. De onderstaande beschrijving geeft een contextgebonden classificatiebeoordeling op basis van het in dit document beschreven beoogde gebruik en de huidige inzetcontext, en is niet bedoeld als juridisch advies.
RCF-AI wordt ingezet als ondersteunend hulpmiddel voor voorbereidende kostenraming binnen projecten (voorverkenning, verkenning en vroege planuitwerkingsfase). Het systeem levert een statistische kostenbandbreedte met onzekerheidsinschatting en ondersteunt deskundige beoordeling. Het systeem wordt niet gebruikt voor prioritering of portfolio-keuzes (die volgen uit het veiligheidsoordeel), neemt geen besluiten of maatregelen automatisch, en de output ziet op projectkosten. De output omvat geen beoordeling of profiling van natuurlijke personen.
Op basis van het huidige beoogde gebruik en de huidige inzetcontext kwalificeert RCF-AI naar huidige inzichten als een niet-hoog-risico AI-systeem onder de EU AI Act. Deze kwalificatie is voorlopig en afhankelijk van het beoogde gebruik, de inzetcontext, de interpretatie van Annex III en artikel 6, en toepasselijke (toezichts)guidance.
Formele technische documentatie en classificatieonderbouwing worden intern bijgehouden voor compliance-, audit- en toezichtdoeleinden. Waar AI Act-verplichtingen dat vereisen, worden de relevante registratie- en informatieverplichtingen via de aangewezen EU-processen uitgevoerd. Deze systeemkaart is een publiek transparantiedocument en vervangt formele compliance-documentatie niet.
AI-literacy-maatregelen (EU AI Act, artikel 4) zijn intern vastgelegd in de governance-documentatie, inclusief rolgebonden instructie/training en bewijsregistratie.
Indien het gebruiksdoel, de inzetcontext, de functionaliteit of relevante regelgeving/guidance wezenlijk verandert, wordt de classificatie en bijbehorende documentatie opnieuw beoordeeld.
#9. Referenties en standaarden
#9.1 Standaarden
- AACE International Recommended Practice No. 18R-97: Cost Estimate Classification System. Revised 2020.
- AACE International Recommended Practice No. 69R-12: Hydropower Cost Estimate Classification System.
- AACE International Recommended Practice No. 10S-90: Cost Engineering Terminology. Revised 2023.
- HWBP Toetsspoor Kostenraming: Referentiekader voor kostenramingen binnen het Hoogwaterbeschermingsprogramma. Huidige editie.
- CBS Prijsindexcijfers: Indices gebruikt voor monitoring van temporele drift.
- NEN-ISO 31000:2018: Risicomanagement - Richtlijnen (toegepast op het kader voor onzekerheidskwantificatie in kostenraming).
#9.2 Literatuur
- Flyvbjerg, B., Holm, M.S.K., Buhl, S.L. (2004). What causes cost overrun in transport infrastructure projects? Transport Reviews, 24(1), 3-18.
- Cantarelli, C.C., Flyvbjerg, B., et al. (2010). Cost overruns in large-scale transportation infrastructure projects. European Journal of Transport and Infrastructure Research, 10(1), 5-18.
- Makridakis, S., Spiliotis, E., Assimakopoulos, V. (2020). The M4 competition: 100,000 time series and 61 forecasting methods. International Journal of Forecasting, 36(1), 54-74.
- Mitchell, M. et al. (2019). Model Cards for Model Reporting. ACM FAccT 2019.
#Appendix A. RCF-AI-featurecategorieen
Het RCF-AI-model gebruikt features uit verschillende broncategorieen om kostenramingen te genereren. Het machine-learningmodel bepaalt welke features het meest relevant zijn voor kostenvariatie. Featuregewichten kunnen bij herijking wijzigen naarmate de trainingsdataset groeit.
| Featurecategorie | Voorbeelden | Bron |
|---|---|---|
| Interne projectkenmerken | Projecttiming, scopedefinitie, contractstructuur, fasering | HWBP-projectdatabase |
| Door GenAI afgeleide publieke kenmerken | Dijktype, primaire faalmechanismen, indicatoren voor uitvoeringsmethode | Publieke technische documentatie, verwerkt door GenAI-pipeline |
| Geo-indicatoren | Bevolkingsdichtheid, overstromingsrisicoclassificatie, nabijheid van Natura 2000-gebieden, landgebruik | Publieke geodatasets, verrijkt voor een subset van projecten |
#Appendix B. Begrippenlijst
| Term | Definitie |
|---|---|
| AACE | Association for the Advancement of Cost Engineering International |
| CBS GWW-index | CBS Prijsindexcijfers Grond-, Water- en Wegenbouw - Nederlandse bouwkostenprijsindex |
| Dekkingsfout | Getekend verschil tussen opgegeven en werkelijke dekking van voorspellingsintervallen in procentpunten. Negatief = overmoedig. |
| HWBP | Hoogwaterbeschermingsprogramma - Nederlands nationaal programma voor hoogwaterbescherming |
| Last holdout | Validatie op de meest recente groep afgeronde projecten, niet gezien in enige trainingsfold - een prospectieve prestatie-inschatting |
| LOPO | Leave-one-project-out cross-validatie - elk project wordt een keer als testcase achtergehouden; het meest conservatieve cross-validatieschema voor deze datasetomvang |
| MAPE | Mean Absolute Percentage Error - gemiddelde procentuele afwijking tussen raming en gerealiseerde eindkosten; altijd positief |
| MPE | Mean Percentage Error - getekende variant van MAPE; positief = systematische overschatting, negatief = systematische onderschatting |
| Outturn cost | Definitieve bevestigde projectkosten bij praktische oplevering |
| Planuitwerking | Planuitwerkingsfase - AACE klasse 3-ramingsniveau |
| Prediction interval | Bereik waarbinnen het model aangeeft dat de werkelijke kosten met een bepaalde kans zullen vallen |
| r² | Coefficient of determination - deel van de kostenvariatie tussen projecten dat door het model wordt verklaard. 0 = geen verklarende kracht; 1 = perfect |
| RCF-AI | AI-gedreven Reference Class Forecasting-engine - het Asset Mechanics-platform dat machine-learning-kostenraming combineert met identificatie van vergelijkbare projecten |
| RWS | Rijkswaterstaat - Nederlandse nationale waterbeheerautoriteit |
| Verkenning | Verkennings-/haalbaarheidsfase - AACE klasse 4-ramingsniveau |
| Waterschap | Nederlands regionaal waterbestuur - een van 21 publieke organisaties verantwoordelijk voor regionaal waterbeheer |
Asset Mechanics | Systeemkaart & Model-evaluatierapport | v1.0 | 2026 | Public