Wat we leren van evalueren

De Praktijkproef Amsterdam is uitentreuren geëvalueerd. Ex-ante, ex-post, verkeerskundig, organisatorisch, kortcyclisch binnen een proef, onafhankelijk na een proef: alle soorten evaluaties zijn de revue gepasseerd. Hoe heeft de Praktijkproef dat aangepakt? En waar liepen ze tegenaan bij het evalueren? Oftewel: wat leren die evaluaties over het evalueren zelf?


Een project zonder evaluatie is een project zonder resultaat. Binnen de Praktijkproef Amsterdam is er dan ook veel aandacht besteed aan het terugblikken en leren: wat ging er goed en wat ging er niet goed? De eerste evaluaties zijn in 2014 gepubliceerd, toen er ‘op straat’ kon worden getest. Inmiddels hebben partijen als MuConsult, AT Osborne, Arcadis, TNO, Panteia en Twynstra Gudde ruim veertig evaluatierapporten opgeleverd.

Al dat evalueren heeft natuurlijk ook de nodige lessen opgeleverd over het evalueren zelf. In deze bijdrage zetten we de belangrijkste ervaringen op een rij.

> Raamwerk
Fase 1 was wat evalueren betreft nog redelijk overzichtelijk, omdat er in feite maar één deelproject, het wegkantspoor bij de A10 West, klaar was voor het testen op straat.

We wisten echter van tevoren dat er in fase 2 veel meer te evalueren zou zijn. De resultaten van het in-carspoor zouden beschikbaar komen, maar los daarvan kende fase 2 meerdere deelprojecten: PPA-West, -Noord en -Zuidoost.

Om de resultaten van deze verschillende projecten te kunnen vergelijken en bundelen, is voor fase 2 daarom een evaluatieraamwerk ontwikkeld: wat moet er geëvalueerd worden en hoe moet dat gebeuren (met welke aanpak, welke indicatoren en onder welke voorwaarden)? In elk onderzoek is aandacht besteed aan de technische werking van het beproefde systeem of product, de verkeerskundige effectiviteit, de kosteneffectiviteit, de integratie van wegkant en in-car, en aan de samenwerking tussen overheden, bedrijfsleven en wetenschap. Verder is in elke evaluatie stilgestaan bij de uitrol: in hoeverre is de kennis, aanpak of het product elders toepasbaar? Uiteraard bood het raamwerk ook ruimte voor (project-) specifieke onderzoeksvragen.

> Evaluatie leidend in de planning
Bij een ontwikkelproject als Praktijkproef Amsterdam is het evalueren vaak pas aan het einde van een (deel)project mogelijk. Denk aan het in-carspoor: voordat een nieuwe dienst beproefd en geëvalueerd kan worden, moeten er eerst apps worden ontwikkeld, werkend worden gemaakt en getest en moeten de partijen gebruikers zien te werven.

Nu zal de projectorganisatie normaliter voldoende tijd inplannen voor de fase van ontwikkelen en in gebruik nemen, maar de praktijk is vaak weerbarstig. Dat zet druk op de evaluatie: het uitlopen van de ontwikkelfase kort de tijd om data in te winnen en analyses te doen soms behoorlijk in. Of het zorgt ervoor dat data (deels) niet meer bruikbaar zijn en opnieuw ingewonnen moeten worden.

Binnen fase 1 van de Praktijkproef is dit ‘planningsgevaar’ deels opgevangen door de evaluatie meer leidend te maken in de planning. Zo is vooraf bepaald op welk moment nul- en éénmetingen zouden worden gedaan – en dat gold dan als harde deadline voor de ontwikkelfase. Ook is ervoor gekozen de deelsystemen alvast te evalueren en om dus niet te wachten tot het complete systeem gereed was.

In fase 2 is in het project PPA-West gekozen voor een scrum-aanpak, waar het project steeds een stukje verder werd gebracht. De evaluatie is onderdeel gemaakt van het ‘agile werken’. De verkeerskundigen in de proef en zij die belast waren met de evaluatie, zijn in dit deelproject van begin tot eind samen opgetrokken.

> Data-uitdagingen
Voor een goede evaluatie heb je goede data nodig. Goede data vereisen weer goed werkende systemen en dus een goed beheer van die systemen. Dit alles bleek in de Praktijkproef Amsterdam geen eenvoudige zaak, omdat het geheel aan systemen door alle koppelingen en afhankelijkheden groot en complex is – en het beheer dus extra veel aandacht vraagt.

Om een voorbeeld te noemen: de technische beschikbaarheid van de systemen langs de weg was tijdens fase 1 (wegkant) ‘redelijk tot goed’, maar dat betekende nog altijd dat op ongeveer 15 procent van de dagen waarop is gemeten, er sprake was van een storing van een of meer toeritdoseerinstallaties. Op ongeveer dertig procent van de dagen waren er ook problemen met de data-uitwisseling. Data over actuele wachtrijen ontbraken dan bijvoorbeeld, vaak door een storing van de logging van een of meer verkeersregelinstallaties. De dagen waarop er een storing was, zijn niet gebruikt in de evaluatie van het wegkantspoor.

Dat betekende vanzelf dat we al tijdens de meetperiodes goed moesten monitoren of er wel voldoende bruikbare data werden verzameld voor de verschillende situaties (nul- of éénmeting). Waar nodig is ingegrepen. Zo zijn de systemen soms even uitgezet, om wat extra data voor nulmetingen (data over de situatie zonder gecoördineerd netwerkbreed verkeersmanagement) in te kunnen winnen. Dat vergt van de projectorganisatie en/of de wegbeheerders wel extra inzet – en daar horen goede afspraken bij.

De dataverzameling voor de in-carproef had ook zo z’n sores. Bij deze data speelde allereerst het punt dat de gegevens privacygevoelig zijn – en dat aspect moet strak op orde zijn. Maar daarnaast bleek het lastig om deelnemers aan de proeven te verleiden de apps zodanig te gebruiken dat héle ritten werden gelogd. Soms werden de apps alleen ‘pre trip’ gebruikt, of ze werden (te) vroeg uitgeschakeld tijdens een rit, de weggebruiker deed tussentijds andere bestemmingen aan enzovoort. Dit maakte het lastig om de opvolging van adviezen te bepalen. Aan de andere kant: het feitelijk gebruik van de apps kan ook weer als leerpunt worden gezien.

Verder bleek dat het meten van een direct verkeerskundig effect in een wegennetwerk niet realistisch is, ondanks het feit dat er een flinke groep deelnemers was gerekruteerd. Het probleem is dat gebruikers op verschillende tijden en op verschillende plekken rijden, dus de kans dat er voldoende deelnemers ‘samenkomen’ om een meetbaar effect te creëren, is verwaarloosbaar.

> Leerervaringen direct gebruiken
De leerervaringen uit fase 1 zijn meteen gebruikt in fase 2. Zo zijn de resultaten van de fase 1-evaluatie over het gecoördineerd netwerkbreed verkeersmanagement gebruikt om de systemen in fase 2 ‘fijn te stemmen’: eerst in PPA-West en vervolgens in PPA-Noord. Ook de in fase 1 gesignaleerde mogelijkheden op het gebied van de integratie van wegkant en in-car zijn meteen gebruikt in fase 2, in alle drie de deelprojecten.
Wat dat aangaat heeft het strak plannen en direct publiceren van de (tussentijdse) evaluaties z’n waarde bewezen.

> Ook samenwerking geëvalueerd
De Praktijkproef Amsterdam is geïnitieerd vanuit een verkeerskundig concept, maar al snel bleek dat het project ook belangrijke organisatorische componenten kent. De samenwerking tussen de overheidspartijen binnen de Metropoolregio Amsterdam en de samenwerking met en tussen marktpartijen en kennisinstellingen zijn daarom met name in de eerste fase uitgebreid tegen het licht gehouden in een procesevaluatie.

In fase 2 is meer aandacht besteed aan de vormgeving van de samenwerking. In PPA-West is de agile/scrum-aanpak gebruikt. Bij PPA-Zuidoost is de gelijkwaardige deelname als vertrekpunt gekozen en toegepast.

Tot slot
De Praktijkproef Amsterdam heeft het programma aan talrijke en verschillende typen evaluaties onderworpen. Daarbij hebben we ook een aantal waardevolle lessen geleerd over het evalueren zelf.

De belangrijkste les is dat het klassieke patroon van (verkeerskundige) evaluaties van effecten met voor- en nametingen in projecten als de Praktijkproef lastig is uit te voeren. Juist omdat leren van proeven onderdeel is van de opdracht, hebben we gekozen voor het gaandeweg evalueren van de proeven zelf. De opgeleverde evaluatierapporten laten zien dat dat prima gelukt is.

_____

De auteurs
Ir. Henk-Jan Kwakernaat en dr. ir. Henk Taale zijn beiden senior adviseur Verkeersmanagement bij Rijkswaterstaat. Taale is daarnaast universitair docent aan de TU Delft.