Wetenschap - 14 januari 2016

Data zijn ‘overal en nergens’

tekst:
Roelof Kleis

Onderzoekers moeten hun gegevens langdurig en op een toegankelijke manier opslaan. Maar hoe en waar precies, mogen ze zelf weten. Dat gebrek aan regie leidt tot uiteenlopende oplossingen. Met alle risico’s van dien.

Sinds mei 2014 staat achter gebouw Actio het nieuwe datacentrum Hyperion. Centrale opslag is daar mogelijk, maar duur, vinden veel leerstoelgroepen.

Sinds ruim een jaar zijn leerstoelgroepen en individuele promovendi verplicht een datamanagementplan te maken. In zo’n plan staat nauwkeurig omschreven hoe onderzoeksgegevens worden opgeslagen en bewaard. In de nieuwe gedragscode voor wetenschappers van Wageningen UR is bovendien opgenomen dat onderzoeksgegevens voortaan 10 in plaats van 5jaar bewaard moeten worden. Hoe doen wetenschappers dat? Waar liggen die bergen data opgeslagen?

Centraal, zou je denken, in de servers van het gloednieuwe datacentrum Hyperion op de campus. Maar dat is niet zo. Raoul Vernède, security-manager IT van het Facilitair Bedrijf, schat dat slechts de helft van de leerstoelgroepen hun data in Hyperion heeft opgeslagen. ‘En als we naar het aantal terabytes kijken, komen we nog veel lager uit dan de helft. De rest staat overal en nergens.’ Op zelf aangeschafte losse harde schijven of servers, op externe servers, in digitale magazijnen (repositories) van tijdschriften of in de cloud. Een nachtmerrie wil hij dat nog net niet noemen. ‘Maar vanuit het oogpunt van veiligheid is het onwenselijk. Ons imago is onze toekomst. Dat moeten we niet verkwanselen door het risico te lopen belangrijke data te verliezen of slachtoffer te worden van fraude.’

Geen regie

‘Er is geen centrale regie op datamanagement’, zegt hoogleraar Fytopathologie Bart Thomma beslist. ‘Iedereen doet het op zijn eigen manier. Dat heeft ook te maken met de enorme diversiteit aan data die de verschillende leerstoelgroepen produceren. En dus verschillen ook de eisen die aan de opslag worden gesteld. Bij ons gaat het vooral om bestanden van genoomsequenties en genoomexpressie. Deze gaan meestal in hun geheel naar een genenbank of het National Center for Biotechnology Information in de VS. Om die grote datasets maak ik me geen zorgen. Die worden in artikelen verwerkt en zijn daarmee veilig opgeslagen.’ Voor digitale data die het niet tot een artikel brengen, heeft Thomma zelf servers op het lab staan. ‘De rest van de data komt uit laboratoriumwerk en zit voornamelijk in papieren labschriften.’

Bio-informatica werkt met digitale labjournaals, vertelt hoogleraar Dick de Ridder. ‘In ons vakgebied draait het vooral om de methode die is gebruikt om tot resultaten te komen. Als digitaal labjournaal gebruiken we Evernote. Na afloop van een onderzoek worden data, software en labjournaals opgeslagen in een directory. Voor de opslag van de software maken we gebruik van Gitlab, een dienst die wordt aangeboden door het Data Management Support Hub van de Forum-bibliotheek.’ Een flink deel van het databeheer wordt volgens De Ridder overigens al door de wetenschappelijke tijdschriften afgedwongen. ‘In de moleculaire biologie is het al jaren gebruik dat bij publicaties de ruwe data beschikbaar moeten zijn. Die data worden in databanken opgeslagen die veelal door de tijdschriften zijn voorgeschreven.’ De Ridder slaat de data op eigen servers op, die zijn ondergebracht bij Hyperion. ‘Wij huren dus intern ruimte, maar we regelen zelf de opslag. IT biedt wel opslag aan, maar dat is veel te duur.’

12-Hyperion GA--20140519-ND7_7850.jpg

‘Veel te duur’

Stephen Janssen, servicemanager bij IT, kent de klacht over de hoge kosten van zijn dienst. ‘Wij doen er alles aan om de tarieven te verlagen, maar wij moeten alle kosten ook doorberekenen. Afgelopen oktober hebben we de prijzen gehalveerd om concurrerend te zijn met goedkope dataopslagservers als NAS. Dat zijn servers die je voor weinig geld online of bij Media Markt aan kunt schaffen en op het netwerk kunt aansluiten.’

Een terabyte aan opslag kost nu bij IT 150 euro per jaar. Maar hiervoor krijg je dan volgens Janssen wel professionele dienstverlening en zijn je data veilig, betrouwbaar en makkelijk op te slaan. Dat tarief mag dan zijn gehalveerd, voor De Ridder en Thomma is dat nog steeds veel te duur. ‘Inclusief de back-up kost ons dat nog steeds 28.000 euro per jaar. Dat is niet te betalen’, zegt De Ridder. Collega Thomma noemt de prijzen zelfs ‘belachelijk’.

Leerstoelgroepen gaan vanwege de kosten zelf ICT’tje spelen, constateert Janssen. ‘En daar maak ik mij zorgen om. Sommige partijen doen het overigens best goed hoor, maar het is verre van ideaal en eigenlijk vragen om moeilijkheden.’

De centrale opslag bij IT is veel te duur

Inge Grim, directeur Bedrijfsvoering van SSG en met ingang van deze maand Informatiemanager van Wageningen UR, benadrukt het belang van centrale opslag. Maar een keiharde afspraak daarover met de leerstoelgroepen is er niet, erkent ze. ‘We dwingen het niet af, er staat geen sanctie op. Er is regie in de zin van verleiden. Er moeten intern goede en betaalbare opslagmogelijkheden zijn. Daarnaast is bewustwording belangrijk. Wetenschappers moeten zich nog meer dan in het verleden bewust worden van de gevaren die kleven aan externe opslag van data.’

Maar aan dat bewustzijn schort het juist, vindt servicemanager Janssen. ‘Die datamanagementplannen zijn in 2014 ingevoerd. We dachten dat het een behoorlijke vraag naar onze diensten zou creëren. Maar helaas. Het afgelopen jaar zijn we maar twaalf keer geraadpleegd voor advies. Het is lastig om bij leerstoelgroepen een voet tussen de deur te krijgen.’

12-Hyperion GA--20140519-DSC_2428.jpg

Fraude

Meer regie zou mogelijk helpen, denkt bio-informaticus De Ridder. ‘De plicht om dataplannen te maken is bij de leerstoelgroepen neergelegd en ieder zoekt het zelf maar uit. Het zou waarschijnlijk handiger zijn om dat op universiteitsniveau te regelen. Gitlab, het platform om computerprogramma’s centraal op te slaan, is daar een goed voorbeeld van.’

Fytopatholoog Thomma twijfelt aan het nut van meer sturing. ‘De discussie over datamanagement is voor een belangrijk deel aangezwengeld door fraudezaken als die van psycholoog Diederik Stapel. De gedachte is dat je fraude deels voorkomt door data goed te beheren. Maar daar geloof ik niet in. Het argument dat we door goed databeheer meer van elkaars gegevens gebruik kunnen maken, vind ik veel relevanter. Er gaan nu veel data verloren doordat die niet goed zijn ontsloten. Die regie zou ik bij de leerstoelgroepen neerleggen.’

Security-manager Vernède is juist wel voor meer sturing op databeheer. ‘Je zou bijvoorbeeld een potje kunnen maken om te zorgen voor een goede centrale opslag. Ik denk dat wij met alle betrokken partijen moeten nadenken over welk risico we willen lopen en dat als advies neerleggen bij de Raad van Bestuur. Er moet meer regie zijn op waar data terechtkomen. Nu controleert niemand of en hoe dataplannen worden uitgevoerd.’


Re:ageer