Belgische statistiekprijs bekroont makers softwareprogramma R
De Rousseeuw Prize for Statistics, een tweejaarlijkse wetenschapsprijs ter waarde van een miljoen dollar, gaat dit jaar naar het internationale vrijwilligersteam achter de gratis open source software R. De software wordt wereldwijd ingezet door onderzoekers, ziekenhuizen, universiteiten, overheden en bedrijven.
De derde editie van de Belgische onderscheiding, die geldt als de Nobelprijs voor de statistiek, bekroont bijna dertig jaar werk van het R Core Team achter The R Project. De Rousseeuw Prize for Statistics bekroont de internationale groep vrijwilligers die het programma onderhoudt en verder ontwikkelt. Volgens de jury heeft R statistische analyse toegankelijk gemaakt voor een breed publiek door geavanceerde methodes gratis beschikbaar te stellen.
R wordt wereldwijd gebruikt
R is een van de meest gebruikte programmeertalen voor statistiek en data-analyse ter wereld. De software wordt wereldwijd ingezet door onderzoekers, overheden, ziekenhuizen, universiteiten en bedrijven.
Tijdens de coronapandemie werd R onder meer gebruikt voor de analyse van besmettingscijfers en voor de ontwikkeling van epidemiologische modellen. Vandaag wordt R onder meer gebruikt in farmaceutisch onderzoek, economische modellering, genomica en datajournalistiek. Het centrale archief van de software telt inmiddels meer dan 23.000 pakketten met statistische toepassingen.
Volgens de organisatie speelt R voor de datawereld een vergelijkbare rol als Wikipedia voor de encyclopedie. Doordat de software gratis beschikbaar en open source is, verdwijnen financiële drempels. Wie een nieuwe statistische methode ontwikkelt, deelt die als een pakket met code en documentatie, waardoor nieuwe inzichten en geavanceerde methodes meteen wereldwijd beschikbaar zijn.
De impact van R reikt volgens de jury tot ver buiten de academische wereld. In de farmaceutische sector wordt het programma steeds vaker gebruikt voor de analyse van klinische studies. En wint het terrein op de dure SAS-software: de Amerikaanse geneesmiddelenautoriteit FDA beoordeelde sinds 2022 met succes verschillende op R-gebaseerde indieningen, en farmareus Roche behoorde tot de eersten die er opensource-pakketten voor inzetten.
Ook centrale banken, waaronder de Europese Centrale Bank en de Bank of England gebruiken R voor officiële statistiek en macro-economische modellering. De software geldt daarbij als betrouwbaar omdat analyses controleerbaar en reproduceerbaar zijn.
Daarnaast vormt R de basis voor Bioconductor, een veelgebruikt platform voor DNA- en kankeronderzoek. Tijdens de coronapandemie ondersteunde de software onder meer het wereldwijd gevolgde COVID-19-dashboard van Johns Hopkins University en modellen van Imperial College London die door overheden werden gebruikt. Ook media zoals de BBC, The New York Times en de Financial Times gebruiken R voor datajournalistiek en het maken van grafieken.
Prijsstichter Peter Rousseeuw omschrijft de maatschappelijke betekenis van R als volgt: "Achter elke betrouwbare grafiek over de economie, het klimaat of de volksgezondheid zitten statistische algoritmes. Het R-project heeft die kennis vrij en voor iedereen toegankelijk gemaakt. Dat is precies het soort innovatie dat deze prijs wil eren."
Rousseeuw, die naar eigen zeggen elke dag R gebruikt, ziet in de bekroning ook een persoonlijke verbondenheid: zijn eigen clustermethodes zitten in een veelgebruikt R-pakket, en de Benjamini-Hochberg-procedure, het werk dat in 2024 met de Rousseeuw Prize werd bekroond, is standaard in R ingebouwd.
De Rousseeuw Prize wordt op 4 november uitgereikt in Leuven. De helft van het prijzengeld gaat naar vijf kernleden van het team: professor Brian Ripley (University of Oxford), professor Martin Maechler (ETH Zürich), professor Kurt Hornik (Wirtschaftsuniversität Wien), professor Peter Dalgaard (Copenhagen Business School) en professor Luke Tierney (University of Iowa).
De overige 500.000 dollar is bestemd voor de andere leden van het R Core Team, onder wie Robert Gentleman en Ross Ihaka, die het programma in het begin van de jaren negentig opstartten — de naam R verwijst naar hun voornamen — en John Chambers, grondlegger van de programmeertaal S waarop R verder bouwt.
IJsjes en kwallenbeten
De eerste editie van de Rousseeuw-prijs in 2022 bekroonde een studie over “causal inference in medicine and public health”, uitgevoerd door James Robins en Miguel Hernán (Harvard), bijgestaan door Thomas Richardson (Washington), Andrea Rotnitzky (Argentinië) en Eric Tchetgen Tchetgen (Pennsylvania).
Met de term ‘causal inference’ wordt het bepalen van enerzijds de oorzaken en anderzijds de gevolgen bedoeld. Dat kan veel ingewikkelder zijn dan het klinkt, vooral wanneer verschillende factoren samenkomen.
Een eenvoudig voorbeeld: het aantal kwallensteken op een dag aan zee stijgt parallel met de verkoop van ijsjes. Er is met andere woorden een correlatie: op dagen dat er meer ijs wordt geconsumeerd, zijn er ook meer kwallenbeten. Correlatie is echter geen causatie: ijsjes eten veroorzaakt geen kwallensteken. Het aantal kwallenbeten hangt ook samen met de omgevingstemperatuur, en met het aantal zwemmers in zee.
De Rousseau-prijs 2024 bekroonde het onderzoek van Yoav Benjamini, Daniel Yekutieli en Ruth Heller van de Universiteit van Tel Aviv naar de False Discovery Rate (FDR) en methoden om deze te beheersen. Aan de basis van FDR ligt de vaststelling dat onderzoek vaak gebaseerd is op een zeer groot aantal potentiële resultaten, waardoor het risico op valse ontdekkingen toeneemt en er dus verklaringen worden gepubliceerd die in werkelijkheid onbetrouwbaar zijn. Bij onderzoek naar een genetische marker worden vaak meer dan 20.000 genen onderzocht. Bij zo’n groot aantal potentiële verklaringen kan een schijnbaar verband gewoon toeval zijn.
Maar aan de andere kant, als je het aantal onderzochte verbanden beperkt, zul je nauwelijks ontdekkingen doen. Om deze valkuil te omzeilen, is er de de Benjamini-Hochberg (BH) methode. Deze is gebaseerd op de verhouding tussen het aantal valse ontdekkingen en het totale aantal ontdekkingen, waarbij de aldus verkregen FDR onder een gedefinieerde drempelwaarde moet blijven. Deze drempelwaarde wordt gedefinieerd door de p-waarden aan te passen aan het aantal geteste hypothesen, zodat de waarde afhangt van de gegevens zelf.