Marco Puts, onderzoeker CBS: “Big data is eigenlijk vuile data”

______
Dit artikel hoort bij het thema-artikel ‘Big data in het mobiliteitsdomein’.
______

“Binnen het CBS onderzoeken we sinds 2009 big data. In die tijd noemden we het nog ‘nieuwe bronnen’: databronnen waarvan het verzameldoel zodanig afweek van het uiteindelijke statistische gebruik dat een andere manier van statistiek maken nodig was. Dit klonk in die tijd als alchemie, alsof we van een stuk lood goud moesten maken.

Big data is dan ook eigenlijk een vreemde term voor deze data. In plaats van big data zouden we beter kunnen spreken van ‘wilde data’ of vuile data. Een belangrijke eigenschap van dergelijke data is dat het ruisaandeel zo hoog is dat we de informatie (het signaal) eruit moeten filteren. Het is niet voor niets dat de bestseller van Nate Silver ‘The Signal and the Noise’ heet. Onderzoekers naar big data zijn als goudzoekers die met grote zeven in rivierbeddingen staan om uit het zand (de ruis) minuscuul kleine goudklompjes (de informatie) te halen. De grote uitdaging waarvoor we ons gesteld zien is dan ook technieken te vinden waarmee we het signaal van de ruis kunnen scheiden, zodat we zo goed mogelijk aan de informatiebehoefte voldoen.

Terwijl de drie V’s heel vaak als absolute grootheden worden gezien, zijn ze feitelijk de consequenties van het feit dat de data zo wild en smerig zijn. Volume refereert niet alleen aan de absolute omvang van de data maar ook aan de omvang van de ruis die de informatie verhuld. Variety – en trouwens ook veracity of variability – ontstaat door de grote mate van onzekerheid over wat de data betekent. Vaak ontbreekt een eenduidige omschrijving van de data en weten we niet wat signaal en wat ruis is. Velocity is het gevolg van het feit dat de data continu gegenereerd wordt en dat de grote hoeveelheid data ook over een communicatielijn moet worden gestuurd.
Het moge duidelijk zijn dat dit relatieve termen zijn. Afhankelijk van de informatiebehoefte hebben we bijvoorbeeld meer of minder volume nodig. Big data kan dus enerzijds gaan over petabytes aan data, maar ook over terabytes. Het kan gaan over miljarden records of over duizendvouden hiervan.

Het CBS is van oudsher een bureau dat zijn publicaties baseert op enquêtes. Door geavanceerde steekproefmethoden zijn we in staat om met een minimale steekproefomvang een nauwkeurige statistiek te maken. Een belangrijke voorwaarde bij deze aanpak is dat we de populatie kennen en dat we precies weten hoe de steekproef zich verhoudt ten opzichte van de populatie. Dit wordt representativiteit genoemd. Wat het gebruik van big data voor de officiële statistiek betreft, is een van de belangrijkste onderzoeksvragen dan ook hoe we tot een nauwkeurige statistiek kunnen komen, ondanks het feit dat we bij big data heel vaak te maken hebben met een selectieve en onbekende groep. Hiervoor hebben we andere methoden nodig dan die we voor onze traditionele, op steekproeven gebaseerde aanpak nodig hadden. Voor het CBS betekent big data dan ook een zoektocht naar nieuwe manieren van statistiek maken, waarbij het scheiden van het signaal van de ruis en onderzoek naar de selectiviteit van big data voorop staan.”