Data science blog #2: Wat kunnen Google zoekopdrachten ons vertellen over zelfdoding?

Blog, Onderzoek 0 comments

-Door dr. Erik Giltay, psychiater en epidemioloog in het LUMC-

Dit is een blog om te demonstreren hoe je verschillende vraagstellingen met open source databestanden zou kunnen benaderen. Ik zal proberen om de verschillende stappen van het circulaire proces te laten zien, gebruik makend van R code. Ik zal veel gebruik maken van functies die beschikbaar zijn in de tidyverse pakketten van R. Zie ook mijn eerdere data science blog.

Het proces van data science ziet er alsvolgt uit:

data opzoeken –> data opschonen (‘tidy data’) –> hypothese –> data manipulatie –> plotten (visualisatie) –> modelleren -> aanpassen van je hypothese –> enz.

Vraagstelling

Data science begint met een vraagstelling, maar deze is nog wel wat wat vaag op dit moment. Ik wil zoektermen op het internet analyseren in relatie tot suicidaliteit. Via Google Trends kan je achterhalen wat mensen bezighoudt. Zaken die we opzoeken op het internet worden vastgelegd (met name in het belang van de grote tech companies). Deze kunnen geannonimiseerd worden opgevraagd. We kunnen wat eenvoudige statistiek plegen op deze data. Optellen en plotten van data is vaak onderschat maar kan ons belangrijke inzichten verschaffen. Het is eenvoudiger dan je misschien denkt.

Ik ben dus met name benieuwd wat internet zoektermen ons zou kunnen vertellen over het beloop van suïcidaliteit onder de Nederlandse bevolking. Ik was wel bekend met het voorkomen van zogenaamde ‘cybersuicide’, de gevaarlijke tendens waarbij mensen zich laten inspireren voor zelfdoding via informatie die ze van het internet afhalen. We hebben daar eerder een case report over geschreven: zie ‘A case of ‘cybersuicide’ attempt using chloroform’. Maar ik had niet eerder uitgezocht hoe vaak er naar zelfmoord-mogelijkheden werd gezocht op het internet. Een ander artikel over Kenmerken van personen overleden door zelfdoding is vinden op het internet. Daarin werd gevonden dat er een sterk verhoogd voorkomen was van zelfdoding bij mensen met een arbeids- ongeschiktheids-, werkloosheids- of bijstandsuitkering.

R is een populaire en gratis statistiek-datascience-programmeertaal wat je van internet kan downloaden, en als je daarna het ook gratis RStudio installeert heb je een mogelijkheid om allerlei zaken van internet in te laden en te analyseren. De R-community is groot en groeiende, en enorm behulpzaam (zeker ook voor startende onderzoekers) om je bij te staan met tips en advies.

Google data inladen

Zoals voor zoveel taken is er al veel mogelijk om data van het internet af te schuimen. Voor Google zijn er speciale packages ontwikkeld, en een ervan heb ik ingeladen:

library(gtrendsR)

Na wat uitzoekwerk, en hulp van geposte informatie van anderen met soortgelijke vragen, blijkt het allemaal eenvoudiger dan gedacht. Ik doe een zoekactie op “zelfmoord tips”, en kijk hoe daar de afgelopen jaren op is gezocht. Als ik ‘time’ instel op ‘all’, kan je terugzoeken tot 2004, dus dat is ook mooi lang terug in de tijd. Ik krijg de data per maand in een dataframa-formaat, die ik opsla als “data”. Dan kan ik dat eens plotten tegen de tijd:

data <- gtrends("zelfmoord tips", time = "all")$interest_over_time 
data %>% ggplot(aes(date, hits)) + geom_point()

Dat kan mooier. Plotten in R gaat eenvoudig en fraai via ggplot2, wat ontwikkeld is door Hadley Wickham. Je kan van alles aanpassen om er een eenvoudig te interpreteren plot van te maken. Eerst had ik de gegevens per maand weergegeven, maar dan zaten er erg veel haaientanden in, dus heb ik de hits eens opgeteld per kwartaal. Daarna leek het me interessant om ook de lange termijn tendens erin weer te geven, met een geom_smooth (met een grijs gebied wat de betrouwbaarheid aangeeft). Daar gaan we dan:

data %>%
  select (date, hits, Zoekterm = keyword) %>%
  mutate (date = round_date(date, "quarter")) %>%
  group_by(Zoekterm, date) %>%
  summarise(hits = sum(hits)) %>%
  ungroup() %>%
  ggplot(aes(date, hits)) + 
  geom_line() + 
  geom_smooth(span = 0.3, size=1.2) +
  scale_x_date(label = "Jaar", date_breaks = "2 year", date_labels = "%Y") +
  ylab("Hits per kwartaal") + xlab("Jaar") +
  theme_economist() +
  ggtitle("Zoekterm op Google: zelfmoord tips")

Dat is wel verrassend en verontrustend, een enorme toename in de jaren 2009 tot 2013, met daarna gelukkig weer een teruggang in het gebruik van deze zoekterm.

Wat natuurlijk het eerste bij me opkomt, is of er een overlap is met de economische crisis. Dus daar ga ik dan nu maar gelijk een zoekopdracht voor uitvoeren. Dezelfde plot voor die vraag toont dit:

Die hypothese lijkt dus zo gek nog niet, er is in ieder geval een grote overlap. De economische crisis zoekopdrachten lijken iets vooraf te gaan aan de zoekopdrachten voor suicide. Daar moet wel bij gezegd worden dat zo’n correlatie nog geen causatie bewijst.

Verwante zoektermen

Er zal niet alleen gezocht worden op “zelfmoord tips” maar ook op andere zoektermen. Maar welke dan? Daar helpt ons gtrends package ons ook verder mee. We kunnen kijken welke zoektermen ook veel gerelateerd zijn aan de term “zelfmoord plegen” Laat ik de eerste 10 eens opzoeken:

gtrends("zelfmoord plegen", time = "all")$related_queries %>% select(subject, value) %>% 
  head(10) %>%
  kable("html") %>% kable_styling()
subject value
100 zelfmoord manieren
91 zelfmoord plegen manieren
83 ik wil zelfmoord plegen
73 manieren om zelfmoord te plegen
69 pijnloos zelfmoord plegen
63 hoe kan je zelfmoord plegen
53 zelfmoord tips
50 zelfmoord plegen tips
43 hoe kan ik zelfmoord plegen
34 zelfdoding

Dit geeft wel aan dat er mensen zijn die op internet naar manieren zoeken voor het uitvoeren van suïcide. Ik wil een figuur proberen te maken van verschillende gerelateerde zoektermen, om te controleren of deze allemaal hetzelfde soort verloop in de tijd laten zien:

data1 <- gtrends("zelfmoord tips", time = "all")$interest_over_time 

data <- data1 %>% 
  full_join(data2) %>% full_join(data3) %>% full_join(data4) %>% full_join(data5) %>% 
  full_join(data6) %>% 
  select (date, hits, Zoekterm = keyword) %>%
  mutate (date = round_date(date, "quarter")) %>%
  group_by(Zoekterm, date) %>%
  summarise(hits = sum(hits)) %>%
  ungroup()

data %>%
  ggplot(aes(date, hits, color = Zoekterm))  + 
  geom_smooth(span = 0.4, size=1.6, se = FALSE) +
  theme( axis.line = element_line(colour = "darkblue", 
                                  size = 1, linetype = "solid")) + 
  scale_x_date(date_breaks = "2 year", date_labels = "%Y") +
  ylab("Hits per kwartaal") + xlab("Jaar") +
  theme_economist() + 
  ggtitle("Zoektermen waarop gegoogled is")

Het lijkt er dus wel op. Voor de zekerheid selecteer ik nog even wat er gebeurt als we alleen binnen Nederland op deze zoekopdrachten zoeken (dus Nederlanders die zoeken in het buitenland worden dan niet meegenomen). Dat kan door geo = “NL” toe te voegen aan de zoekopdrachten.

Dat toont een soortgelijke figuur (die ik daarom maar niet toon). Het lijkt er dus op dat er tijdens de economische crisisjaren meer gegoogled werd op zoektermen die te maken hadden met (het uitvoeren van) suïcide. Geruststellend is dat het nu alweer enkele jaren gestaag afneemt. De conclusie van onze case-report wordt hierdoor extra urgent:

The internet has to be considered as a double-edged tool, having both positive and negative effects on suicidal thoughts. Awareness of and effective preventive strategies against ‘cybersuicide’ are amended. Zie: “A case of ‘cybersuicide’ attempt using chloroform”

Voor commentaar, suggesties, of een interessante nieuwe vraagstelling:

Contact

Leave a Reply

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.