Big data in het mobiliteitsdomein – Big, bigger, biggest

Nieuw is het begrip niet, maar big data staat op het moment wel volop in de schijnwerpers – ook in onze wereld van verkeer en vervoer. Maar wat is big data eigenlijk? Wat kunnen we er op dit moment mee? En wat is in de nabije toekomst mogelijk?

Big data laat zich het beste omschrijven als werken met zeer grote databestanden, afkomstig uit meerdere databronnen. Ook een snelle verversing van de gegevensstromen is een belangrijk element. In het Engels laat zich dat samenvatten als volume, variety, velocity (Sommige specialisten onderscheiden ook andere kenmerken, zoals veracity en variability.). Hoe groot de databestanden precies moeten zijn om voor ‘big’ door te gaan, is overigens geen vast gegeven en verschilt per domein. In het ene vakgebied zijn gigabytes misschien al groot genoeg, terwijl in het andere werkveld petabytes (1.000 terabytes) pas tellen. Zolang processoren steeds sneller worden en geheugencapaciteit steeds goedkoper, zal het begrip ‘big’ binnen elk domein ook blijven verschuiven.

Big data in het mobiliteitsdomein
Het werken met grote databestanden is in ons vakgebied zeker niet nieuw. Het verkeerssignaleringssysteem MTM bijvoorbeeld werd in de jaren zeventig ontwikkeld en vanaf 1988 breed uitgerold. Sindsdien verwerkt het 24/7 grote hoeveelheden meetdata.
Toch spreken we pas sinds kort over ‘big data in verkeer en vervoer’. Dat heeft niet alleen te maken met de lichte hype die er rond het begrip is ontstaan. Feit is dat er dankzij nieuwe inwintechnieken en snelle processoren nu meer volume, variety en velocity is. De data die verzameld worden, zijn bovendien makkelijker beschikbaar. De Nationale Database Wegverkeersgegevens (NDW) bijvoorbeeld verwerkt en verzamelt zo’n 216 miljoen gegevens per dag – en al die data zijn voor geïnteresseerde partijen vrij te gebruiken. Wat ook meespeelt is dat het aantal gebruiksmogelijkheden is gegroeid. Waar veel data voorheen alleen interessant was voor de medewerkers in de verkeerscentrale, vinden datastromen nu steeds gemakkelijker hun weg naar (commerciële) apps en toepassingen gericht op logistieke bedrijven en weggebruikers.

De eerste big data-toepassingen…
Wat hebben de eerste big data-stappen ons vakgebied opgeleverd? Belangrijkste wapenfeit tot nu toe is dat ons beeld van het verkeer verbreed en verscherpt is. Lange tijd hadden we alleen zicht op de verkeerssituatie op het hoofdwegennet, omdat Rijkswaterstaat daar had geïnvesteerd in lussen. Maar dankzij gps- en gsm-data weten we nu ook wat er gebeurt op de duizenden kilometers aan provinciale en gemeentelijke wegen – en dat vrijwel real-time.
Iets soortgelijks geldt voor wát we precies weten. Inductielussen bijvoorbeeld meten de intensiteit, maar ze vertellen je niets over herkomst-bestemmingsrelaties. Met floating car data is het omgekeerd: je meet er geen intensiteit mee maar je kunt er wel herkomst-bestemmingsrelaties uit afleiden. Beide bronnen vullen elkaar dus aan. Een ander voorbeeld is dat het tot voor kort niet mogelijk was om het aandeel buitenlandse weggebruikers of bezoekers in beeld te brengen. Met gsm-data kan dat wel.
Het bredere en scherpere verkeersbeeld dat we dankzij de grotere en gevarieerdere stroom data hebben, staat aan de basis van vrijwel elke serieuze ontwikkeling die ons vakgebied de laatste tijd heeft doorgemaakt. Neem netwerkmanagement: zou je ooit regionaal kunnen ingrijpen als je niet weet hoe het verkeer zich over de verschillende wegennetwerken beweegt, waar het knelt en waar nog ruimte is? Onmogelijk. De data hebben ook onze verkeersmodellen nauwkeuriger en betrouwbaarder gemaakt. We zijn nu met een redelijke precisie in staat kortetermijnvoorspellingen te doen, wat proactief regelen mogelijk maakt. De verbeterde langetermijnvoorspellingen zijn weer een zegen voor beleidsvorming: je kunt de verschillende varianten van een bereikbaarheidsaanpak van tevoren goed doorrekenen. Het beleid is dankzij de beschikbare data sowieso transparanter geworden. Waar we ons voor evaluaties voorheen op (tijdrovende en soms weinig representatieve) enquêtes moesten verlaten, beschikken we nu over een enorme bak meetgegevens waaruit we kunnen destilleren hoe het verkeer écht gereageerd heeft op de gekozen aanpak. Ten slotte is er het grote aantal reizigersinformatiediensten dat nu het licht ziet – ook die hebben data als basis. Interessant is dat er voor die toepassingen steeds beter uit ‘small data’-bronnen wordt geput: PRIS-gegevens over de bezetting van garages, VRI-gegevens over de verkeerslichten van het komende kruispunt, actuele planningsgegevens van wegbeheerders over wegwerkzaamheden enzovoort (Tijdens het Grote Big Data Congres op 4 februari 2014 in Utrecht, georganiseerd door Verkeersnet.nl, zijn veel van die nieuwe datatoepassingen aan bod gekomen. Zie www.hetgrotebigdatacongres.nl.).

… maar het kan veel bigger!
Tegelijkertijd echter moeten we vaststellen dat de huidige toepassingen nog slechts het begin zijn. Zoals geïllustreerd in de figuur op deze bladzijde dijt het big data-universum continu uit. Op dit moment werken we een beetje in de tweede schil, die van de minuutgegevens en bronnen als lussen en floating car data. Zoals we hierboven opmerkten, hebben we er daarmee vooral voor gezorgd dat we meer weten over het verkeer: ons beeld is breder en scherper. Maar begrijpen we het verkeer ook beter? Of nog belangrijker: begrijpen we de reiziger? Dat nog niet. Maar juist het inzicht in menselijk gedrag is een van de interessantste beloften van big – of in ons geval: bigger – data.
Het sociale gedrag van de mens is altijd lastig te ‘meten’ geweest. Sociologen waren gebonden aan methodieken als enquêtes en interviews, waarin een kleine, ‘representatieve’ groep mensen hun voorkeuren konden aangeven of waarin ze achteraf moesten verklaren wat ze ook alweer waarom hadden gedaan. Big data kan hier echter drastisch verandering in brengen. Door in te haken op continue datastromen uit OV-chipkaarten, smartphones, navigatiesystemen, CAN-bussen, connected voertuigen en sociale media ontstaat een groeiende verzameling van data die inzicht biedt in het feitelijke gedrag van individuen. Sociologie wordt op die manier sociokunde, social physics. Alex Pentland, hoogleraar op de Massachusetts Institute of Technology en groot voorvechter van werken met big data, noemt de techniek om uit data beelden van onze sociale interacties te halen, treffend ‘reality mining’.
Wat zou zo’n revolutie voor de wereld van verkeer en vervoer kunnen betekenen? Bijvoorbeeld dat we beter begrijpen wat mensen drijft om zich te verplaatsen, wat hun motieven zijn om voor de auto of het openbaar vervoer te kiezen, welke routes hun voorkeur verdienen, wanneer ze haast hebben en in hoeverre ze hun rijgedrag in termen van snelheid of inhaalgedrag daarop aanpassen. We leren hoe groepen zich verplaatsen, welke herkomst-bestemmingsrelaties zich omzetten in verplaatsingen over de weg en hoe dat verandert door het jaar heen. We zullen ontdekken hoe prijsontwikkelingen en golven van economische voor- en tegenspoed doorwerken in het mobiliteitsgedrag van mensen. Rond evenementen worden de paden die mensen volgen zichtbaar, en de interacties tussen groepen met verschillende herkomsten. Eindelijk gaan we de ‘bewegende mens’ begrijpen!

Nieuwe bronnen…
Zo ver is het nog niet. Maar het zou verstandig zijn om deze beloften wel als de spreekwoordelijke punt op de horizon te zien, zodat er bewust die kant op gestuurd kan worden. Waar is het wachten op? En wat zijn de hindernissen die we daarbij tegen zullen komen?
Sociale media zullen voor een aanzienlijke verdieping kunnen zorgen, zeker als het gaat om het duiden van de mobiliteitsdata. Maar onze big data-pool zal zo ongeveer op z’n biggest punt belanden als er in groten getale extended floating car data beschikbaar komen (Extended floating cara data of xFCD is een uitbreiding van het FCD zoals we dat al kennen. Terwijl bij FCD eigenlijk alleen de positie van een voertuig wordt doorgegeven, gaat het bij xFCD ook om data uit de elektronische systemen in de auto, zoals ABS, TCS, ESP en de regensensor. Daarmee komt een enorme vloed aan data beschikbaar over rijgedrag en rijomstandigheden.). Dan zien we hoe mensen zich gedragen op de weg, welke snelheden en tussenafstanden ze aanhouden, hun rem- en optrekgedrag en de impact die dat heeft op de verkeersveiligheid en verkeersafwikkeling. Tot die tijd moeten we het maximale uit de beschikbare sensoren zien te halen – zie ook het kader op deze bladzijden over de gangbare databronnen – terwijl we ons in onderzoeken en proefprojecten alvast voorbereiden op de nieuwe data. Op het gebied van sociale media-duiding gebeurt daar al het nodige, getuige de diensten van bedrijven als Greencorn.

… en hindernissen
Eén hindernis die we op weg naar bigger en biggest data zeker zullen tegenkomen, is de openheid van de data. Veel bronnen hebben een slot op de deur om de privacy van de ‘dataleveranciers’, in ons vakgebied voornamelijk de reiziger, te waarborgen. Maar er spelen ook (volstrekt legitieme) commerciële overwegingen: big data is geld waard! Het gevolg is dat de commerciële inwinners van data – en die zijn verantwoordelijk voor zo’n beetje alle nieuwe databronnen – bij voorkeur op hun data blijven zitten. Als er al data aan derden worden geleverd, dan zijn dat bij voorkeur geabstraheerde data, zoals floating car data, en niet de ruwe data. Hoe waardevol en nuttig het abstraheren ook is voor de meer gangbare toepassingen, er gaat veel informatie over onderliggende patronen en structuren verloren. Snelheidsinformatie en reistijden op basis van floating car data zijn bijvoorbeeld buitengewoon nuttig voor netwerkmanagement, maar ze zeggen niets over herkomst-bestemmingsrelaties of over individueel rijgedrag.
Er wordt nog wel eens beweerd dat steeds meer data vanzelf open zullen worden, maar dan gaat het meestal om geabstraheerde, bewerkte data. Het vrij maken van ruwe data zal een beduidend complexer verhaal worden, waarbij issues als privacy én de commerciële waarde van de data serieuze aandacht verdienen.
Een andere hindernis op weg naar ‘bigger data’ is meer specifiek voor data die via wegkantsystemen worden ingewonnen, zoals de data uit inductielussen, kentekencamera’s en bluetooth-meetstations. Deze wegkantaanpak gaat voorbij aan het principe van de wederkerigheid die hoort bij het afstaan van data: mensen staan vrijwillig de data af met als tegenprestatie een dienst die ze kunnen gebruiken. Zie bekende big data-verzamelaars als Waze, Google Maps, Facebook of Twitter. Big data opbouwen uit metingen waar mensen niet vrijwillig hun medewerking aan verlenen, zal uiteindelijk op weerstand stuiten. Een treffend voorbeeld is de maatschappelijke discussie die er is over het dichte netwerk van kentekencamera’s zoals spitsmijden-projecten die gebruiken. Deze vorm van data inwinnen schuurt tegen de grenzen van wat nog maatschappelijk geaccepteerd wordt.
Hoe dit probleem te tackelen? Op dit moment hebben alleen grote internetbedrijven en serviceproviders de wederkerigheid goed ingebed. Zij bieden bijvoorbeeld navigatie aan als onderdeel van een brede visie op informatievoorziening, veelal gekoppeld aan een smartphone-app. Vanuit dit aanbod zijn zij als beste in staat een groeiende hoeveelheid big data te verwerven. Zij hebben echter geen ander belang dan het individu te helpen – en werken dus niet vanuit een collectief ‘netwerkbelang’.
Wegbeheerders hebben behoefte aan betere data om een nieuwe kwaliteitsstap in netwerkmanagement te kunnen maken. Zij hebben juist wel een netwerkbelang. Wat is de voelbare tegenprestatie die zij de reiziger kunnen bieden, zodat die bereid is data over zijn eigen gedrag af te geven? Op termijn kan voertuig-infrastructuurcommunicatie als onderdeel van coöperatieve systemen helpen. De tegenprestatie is dan een verhoogd gevoel van veiligheid en comfort.
Fundamenteler is wellicht dat wegbeheerders de individuele waarde van het borgen van de netwerkprestatie moeten leren communiceren: zij moeten weggebruikers leren binden aan de netwerkprestatie. Een andere optie is om deze uitdaging over te laten aan marktpartijen, de weg die is ingeslagen met de Routekaart van het actieprogramma Connecting Mobility (Zie het hoofdartikel in de vorige uitgave van NM Magazine, 2014 #1. Deze is als download beschikbaar op www.nm-magazine.nl/download.). In dat geval moeten ze minimaal leren de eigen regelingen en regelscenario’s en dan met name de motivatie erachter te communiceren met de serviceproviders.

Tot slot
Samenvattend kunnen we stellen dat het fenomeen big data allesbehalve een hype is. De toenemende stroom aan data heeft ons vakgebied al fors veranderd, vooral dankzij het feit dat we nu een veel scherper en breder beeld hebben van de situatie op de weg. Tegelijkertijd moeten we vaststellen dat de echte revolutie nog moet beginnen. Onze big data moet veel bigger worden, waarbij vooral de data over het gedrag van individuele weggebruikers van belang zijn. Daarvoor moeten we nog de nodige hindernissen nemen, zoals het ‘open’ maken van de (ruwe) data en het creëren van wederkerigheid bij de wegkantinwinning. Maar als we erin slagen die hindernissen te slechten en we uit de echt grote databronnen kunnen putten, dan zijn de beloften groot. De reiziger écht begrijpen – dat zal ons vakgebied revolutionair veranderen!

____

De auteurs
Ing. Paul van Koningsbruggen is programmamanager van Technolution.
Ir. Peter van der Mede is adviseur Big data bij DAT.Mobility, Goudappel.
Ir. Peter Verwaaijen is directeur Informatietechnologie & Mobiliteit bij Vialis.
Lic. iur. Philip Tailleu, MBA, is gedelegeerd bestuurder van FLOW nv.

De ‘variety’ aan data in verkeer en vervoer

Wat zijn de belangrijkste databronnen die we momenteel in het mobiliteitsdomein gebruiken? Wat bieden die bronnen ons – en wat zouden ze ons kunnen bieden? Een (onvolledig) overzicht.

Inductielussen (hoofdwegennet)
Rijkswaterstaat beschikt over ruim 16.000 inductielussen, die samen zo’n 2.600 km aan snelwegen dekken. De lussen worden gebruikt om tijdgemiddelde snelheden en intensiteiten te bepalen. Aanvullende informatie wordt geschat, zoals reistijden over trajecten, of splitfracties bij knooppunten en afritten. De Nationale Database Wegverkeersgegevens (NDW) biedt deze geaggregeerde data als minuutgegevens aan.
Idealiter zouden echter ook de ruwe data beschikbaar komen: individuele voertuigpassages, die instantaan op zodanige wijze binnenkomen dat voertuigen lokaal kunnen worden herkend en over de lussen heen kunnen worden gevolgd, waardoor splitfracties en reistijden worden gemeten en de ‘dode tijd’ tussen inwinnen en uitleveren tot een minimum wordt beperkt.

Verkeersregelinstallaties
In Nederland worden de data van ruim 60% van de verkeersregelinstallaties (VRI’s) uitgelezen. Het gaat om de data van de gekoppelde inductielussen, van de VRI zelf (groentijden) en van eventuele applicaties (zoals KAR, de groenvoorziening voor het openbaar vervoer). Op basis van deze gegevens worden onder meer intensiteiten, wachttijden, wachtrijlengtes, roodlichtnegatie en kruispuntbelasting bepaald.
Op dit moment worden VRI-data op beperkte schaal gepubliceerd via NDW. Het gaat dan om bewerkte data, maar in de toekomst komen de data mogelijk ook als ‘streaming VLOG’ beschikbaar.

Parkeersystemen, parkeersensoren
Informatie over de bezettingsgraad van garages en parkeerterreinen, normaliter gebruikt voor parkeerroute-informatiesystemen (PRIS), wordt steeds vaker als open data aangeboden. Via apps kan de informatie dan ook in-car kunnen worden gebracht. Naar verwachting verdubbelt dat de opvolgingsgraad van PRIS-informatie, tot 30%.
Parkeergarages en -terreinen vormen echter slechts een klein deel van het parkeerareaal. Om ook informatie over on-street parkeerplaatsen te ontsluiten, zijn parkeersensoren nodig. Het gebruik van deze nog vrij nieuwe databron beperkt zich in Nederland tot enkele gemeenten, zoals Winterswijk en Zoetermeer. Ervaringen in het buitenland zijn echter hoopgevend: in Los Angeles is het zoekverkeer dankzij 7.000 parkeersensoren en het gebruik van semi-dynamische parkeertarieven met 10% afgenomen.

Camera’s
Camera’s worden breed toegepast als data-inwinsysteem. Rijkswaterstaat heeft er zo’n 1800 staan voor kentekenherkenning. Die data worden gebruikt voor trajectcontroles, incidentmanagement en verkeersmanagement.
Maar het potentieel van ‘videodata’ is veel groter. Volgens één schatting hangen er momenteel meer dan 200.000 camera’s in de openbare ruimte – mogelijke extra ‘ogen’ voor verkeersmanagement. Interessant is ook dat bedrijven als Vinotion intelligente software ontwikkelen waarmee cameratellingen vanuit bewegende voertuigen mogelijk zijn.

Gsm
De nauwkeurigheid waarmee de locatie van een mobiele telefoon kan worden bepaald, ligt meestal in de range van honderden meters tot kilometers. Door triangulatie kan die nauwkeurigheid nog tot ca. 50 meter worden opgeschroefd. Deze mindere precisie wordt echter ruimschoots goedgemaakt door de grootte van de ‘steekproef’. Alle telecomoperators in Nederland hebben miljoenen klanten, en hierdoor wordt in principe de locatie van miljoenen mensen (ongeveer) vastgesteld telkens wanneer de telefoon met een mast contact maakt. Dankzij deze zeer rijke bron aan verplaatsingsgegevens kan inzichtelijk gemaakt worden waar het druk is, waar mensen vandaan komen, waar ze naartoe gaan en met welke frequentie ze dat doen. En dat 24/7!
Wel is het lastig om sec uit gsm-data af te leiden met welke vervoerwijze de verplaatsing werd gemaakt, vooral in stedelijke gebieden. En door de relatief onnauwkeurige plaatsbepaling is de bron ook niet direct geschikt om routes uit af te leiden. Voor andere toepassingen, bijvoorbeeld om de vervoerspotentie van openbaar vervoer tussen relaties te bepalen, is de bron echter uniek.

Gps
De gps-systemen in boordcomputers, losse navigatiesystemen en steeds vaker ook smartphones zenden elke 1 tot 3 minuten gps-locatiegegevens naar de centrale server van dienstverleners als HERE, TomTom of Be-Mobile. De server zorgt voor de validatie en aggregatie van de ruwe data tot verkeersgegevens.
Als een telecomprovider of navigatiedienstverlener maar voldoende ‘databronnen’ op de weg heeft, bieden deze floating car data (FCD) een goed zicht op de verkeersafwikkeling op het hoofdwegennet én op een groot deel van het onderliggende wegennet. Uit verschillende proeven blijkt dat als het gps-signaal van 3 tot 5% van de rijdende voertuigen opgepikt kan worden, er al significante verkeersgegevens kunnen worden geproduceerd. Het gaat dan om (traject)snelheden, (traject)reistijden, routes en herkomst-bestemmingsrelaties.
FCD wordt gezien als een van de beste technieken voor het genereren van reis- of verliestijden vanwege de nauwkeurige plaatsbepaling en de hoge meetfrequentie. Met FCD komen de reistijden ook sneller beschikbaar dan bij wegkantgebonden systemen als bluetooth en camera’s (waar de voertuigen eerst langs twee punten moeten rijden), zodat plotselinge vertragingen of versnellingen in het verkeer vrijwel direct worden geregistreerd.
FCD zou echter nog in waarde kunnen groeien als de herkomst-bestemmingsrelaties ook real-time inzichtelijk gemaakt konden worden.

Bluetooth
De Verkeersinformatiedienst heeft inmiddels een uitgebreid netwerk van bluetooth-sensoren langs de Nederlandse wegen geplaatst. Het systeem pikt de bluetooth-signalen van mobieltjes, headsets etc. op en genereert op basis daarvan actuele verkeersinformatie als de (traject)snelheid en reistijden. Als de sensoren op de juiste plaatsen staan, zijn de bluetooth-data ook bruikbaar om routes van automobilisten in het netwerk af te leiden.

Overige databronnen…
Uiteraard zijn er nog talloze andere bronnen van small dan wel big data. Het valt buiten het bestek van dit artikel om ze alle uitputtend te behandelen, maar dat wil zeker niet zeggen dat deze databronnen geen toegevoegde waarde (zullen) hebben. Met data over verkeersongevallen, wegwerkzaamheden, de inzet van verkeersmaatregelen (uit de verkeerscentrale) en openbaar vervoer (GOVI en OV-chipkaart) wordt al ervaring opgedaan. Maar wat te denken van de mogelijkheden die datastromen als wifi-meetsystemen, RFID-sensoren, coöperatieve voertuigen (extended floating car data) en ‘smart lighting’-sensorsystemen zullen bieden?
Een databron waar we in een latere uitgave nog op terug zullen komen, is die van de sociale media. Het is twijfelachtig of de sociale media ooit iets zullen betekenen voor zeg het real-time managen van verkeer op de weg. Maar als analyse- en duidingstool heeft die bron zeker zijn waarde: in een aantal pilots is al aangetoond dat uit een maand Twitter-berichten de structuur van de Europese weginfrastructuur kan worden ‘getoverd’. Vooral de geotags in een Twitter-bericht blijken een interessante databron.