Wetenschap - 6 februari 2013

Orde in de statistische chaos

Statisch analysemodel uit Wageningen veroverde de wereld.
Nieuwe, gebruiksvriendelijke versie maakt Canoco ook voor leken bereikbaar.

‘Grootvader’Cajo ter Braak is dankzij Canoco één van Wagenings meest geciteerde wetenschappers.
Duizenden ecologen in de wereld gebruiken bij de verwerking van hun onderzoekdata het statistisch analysemodel Canoco van Cajo ter Braak. Eind januari presenteerde hij de nieuwe versie van deze software: Canoco 5. Ook onderzoekers met weinig statistiekkennis kunnen er nu mee werken.
Wat doet Canoco precies? Een voorbeeld. Als je de nadelige invloed van bestrijdingsmiddelen op het aquatisch milieu wilt bestuderen heb je vaak met een ecosysteem van zeker tweehonderd soorten te maken. Dat betekent tweehonderd grafieken die de invloed van het gif op alle waterbeestjes weergeven. Maar dat wil je helemaal niet, je wilt de respons van alle beestjes in één overzicht. Dat kan alleen met Canoco, zegt ecotoxicoloog Paul van den Brink. Hij is gebruiker en mede-ontwikkelaar van de betreffende methode in Canoco en werkt al jaren met Cajo ter Braak samen.
27.000 citaties
Ter Braak, werkzaam bij PRI Biometris, legde de basis voor dit softwarepakket al in de jaren negentig. Zijn publicatie uit 1986, waarin hij meerdere statistische analysemethoden combineert tot het prototype van Canoco, betekende een revolutie in de behandeling van onderzoekdata. Daarna ontwikkelde hij samen met de Tsjechische onderzoeker Petr Šmilauer steeds betere en geavanceerdere versies van Canoco. Duizenden andere wetenschappers maken gebruik van de software van Ter Braak, getuige de vierduizend licenties die ervan zijn verkocht. In de EU is Canoco inmiddels verplichte kost voor de analyse van sommige complexe datasets. Voortdurend duikt het analysemodel op in wetenschappelijke artikelen, waardoor Ter Braak met zo'n 27.000(!) citaties de op één na meest geciteerde Wageninger is.
Toch waren de vorige versies, tot en met Canoco 4.5, geen eenvoudige kost. Voor de liefhebbers: het begin was canonische correspondentie-analyse - vandaar Canoco - die Ter Braak combineerde met een handvol andere statistische methoden.  'Dat leer je niet op een maandagmiddag, pas na een week snap je de beginselen van Canoco', zegt Van den Brink. 'Maar daarna kun je iets wat andere mensen niet kunnen.'
Gebruiksvriendelijker
Dat voordeel is Van den Brink nu kwijt, want Canoco 5 is een stuk gebruiksvriendelijker. Moest de onderzoeker vroeger geregeld Ter Braak te hulp roepen voor advies, nu doet de Canoco Adviser dat. De digitale adviseur beoordeelt de onderzoekdata, kiest de geschikte analysemethoden en test de uitkomsten van het onderzoek, compleet met betrouwbaarheidscheck. 'Je hoeft geen expert meer te zijn om de software te kunnen gebruiken', zegt Ter Braak. Canoco is volwassen, 'en ik ben nu de grootvader'. Het programmeerwerk is de afgelopen jaren gedaan door Šmilauer, Ter Braak checkte diens werk en schreef mee met de nieuwe handleiding. En wat doet de opa van Canoco nu; kruiswoordraadsels oplossen? Nee, hij houdt zich al jaren bezig met genetische algoritmen, om informatie uit enorme en complexe datasets te halen. Maar dan wel met de Markov Chain Monte Carlo versie van zo'n algoritme met behulp van de Bayesiaanse theorie - juist ja. 
 

Re:ageer