Data science blog #1: Waarom een data science blog voor de psychiatrie?

Blog, Onderzoek 1 comment

Inleiding

Dit is het begin van een reeks blogs over data science. Hierin zal ik demonstreren hoe je verschillende vraagstellingen met vrij beschikbare data zou kunnen benaderen.

Ik zal proberen om de verschillende stappen van het circulaire proces te laten zien, gebruik makend van R code. Ik zal veel gebruik maken van functies die beschikbaar zijn in de tidyverse pakketten (packages) van R.

Het proces van data science ziet er alsvolgt uit:

data opzoeken –> data opschonen (‘tidy data’) –> hypothese –> data manipulatie –> plotten (visualisatie) –> modelleren -> aanpassen van je hypothese –> enz.

R is een computertaal die voor algemene doeleinden gebruikt kan worden (hier de Mac OS versie). Het handigst is om daarna gelijk het gratis programma RStudio te installeren, dat is een schil om het programma heen, een zogenaamde integrated development environment (IDE). Deze IDE is enorm nuttig, omdat je dan zicht hebt op alle zaken die van belang zijn bij de invoer, analyse, en output. Daarnaast heeft R een krachtige community-ondersteuning, grote bibliotheken van packages, waardoor alle data-analyses en voorspellende modellen (bijv met machine learning) ermee uitgevoerd kunnen worden.

Data science in de psychiatrie

Ik werk ook vele al jaren met SPSS, maar besloot een paar jaar geleden uit mijn comfort-zone te stappen en ook eens andere statistische pakketten te proberen. Als epidemioloog gebruikte ik wel eens vaker SAS, R of STATA om een bepaalde analyse mee uit te voeren. Maar R bleek toch wel het handigst omdat het een programmeertaal en een statistisch analyse programma ineen is. Daarbij kwam ook nog eens dat het gratis is, en dat er een enorme groeiende schare mensen mee werkt, die steeds weer nieuwe pakketten (packages) programmeren die beschikbaar worden gesteld aan iedereen die ermee wil werken.

Coderen is niet zo ingewikkeld als je zou denken, en eigenlijk zou het een vaardigheid moeten zijn die ons al van jongst af aan zou moeten worden aangeleerd op school. Door de technologische vooruitgang zal steeds meer code (algoritmes) gebruikt worden en ons dagelijks leven binnenkruipen, en het is alleen maar goed dat we beter begrijpen wat daar achter zit, om inzicht te krijgen in de beperkingen en in de mogelijkheden voor verbetering. Door alle handige packages is met een paar regels code al een mooi statistisch model te toetsen.

Er wordt nogal wat beweerd zonder goede onderbouwing. Dat gebeurt overal, in de lekenpers, maar ook door professionals, en misschien nog wel meer in de psychiatrie dan in andere medische vakgebieden. Je staat sterker als je jouw beweringen kan onderbouwden door een data-analyse, of -nog leuker- als je beweringen van anderen hiermee kan weerleggen of er vraagtekens bij kan plaatsen.

Waarom data science blogs?

Om te laten zien hoe je gebruik kan maken van de toegenomen hoeveelheid data die vrij beschikbaar is op het internet, heb ik besloten om deze reeks data science blogs te maken voor diegenen die ook nieuwsgierig zijn naar vraagstellingen binnen de psychiatrie. In deze blogs zoek ik ‘hapklare’ data op, waar ik dan dan data-analyses op uit zal voeren. Ik wil de tussenliggende stappen tonen, zodat duidelijk wordt welke keuzes en stappen je zou kunnen nemen. Dan wordt ook inzichtelijk dat al dit soort stappen invloed hebben op je uiteindelijke conclusies die je trekt.

Data science is niet een ‘objectief’ proces, maar speelt zich af binnen ‘The Garden of Forking Paths’. Als je op een kruispunt staat moet je een keuze maken hoe je verder gaat met jouw analyse, eigenlijk zoals heel het leven; het leven is vol van keuzes en verschillende wendingen. Daarom is er ook een ontwikkeling om het gehele Data analysis plan reeds voorafgaande aan alle data-analyses te beschrijven en openbaar te maken (net als je onderzoek op clinicaltrials.gov), zodat je deze zo objectief mogelijk zijn en niet door de uitkomsten kan worden beïnvloed. Zie voor een voorbeeld bijvoorbeeld ons Protocol and Statistical Analysis Plan voor het artikel n–3 Fatty Acids and Cardiovascular Events after Myocardial Infarction.

Waarom zou je R willen gebruiken voor data-analyse?

SPSS wordt het vaakst gebuikt voor data-analyses binnen de psychiatrie. Het is eenvoudig omdat je de meeste analyses via klikken met pulldown menuutjes kunt uitvoeren. Dat heeft ook een belangrijk bezwaar. Data science moet reproduceerbaar zijn! Dus je moet altijd kunnen laten zien hoe je tot je resultaten bent gekomen. Dit is niet alleen voor jezelf (jouw ‘future you’, die vaak niet meer weet wat je precies gedaan had, maar ook voor anderen). Daarnaast zorgt code ervoor dat er minder fouten worden gemaakt, omdat die teruggevonden kunnen worden. Dit kan je doen door met syntax te werken, maar dan ben je de eenvoud van de pull-down menuutjes toch ook kwijt. Dan kan je net zo goed met een script of rmarkdown file werken in R.

R krijgt steeds meer belangstelling, en wordt steeds vaker gebruikt voor data-analyses. Het is Open Source, dus gratis te installeren, het is een relatief klein programma, het heeft een grote online community, de basis is relatief eenvoudig te leren (bijv via datacamp), en jouw code hoeft niet eerst gecompileerd te worden, dus kan gelijk uitgevoerd worden. Het kost daardoor wel wat meer tijd om uit te voeren dan bijvoorbeeld een python programma, maar computers worden steeds sneller, en als de dataset niet uit honderduizenden cases bestaat is het nog steeds vrij vlot uitgevoerd.

Je kunt R rechtstreeks downloaden van zijn projectsites en individuele packages installeren die je wilt gebruiken. Maar vergeet dus niet om ook RStudio te installeren. Je kan op elk platform installeren, op een Windows, Mac of Linux computer. Succes en vooral ook veel plezier met leren en analyseren.

Voor commentaar, suggesties, of een interessante vraagstelling:

Contact

One Comment

Leave a Reply

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.