Data science blog #3: Welke trends zijn er in het aantal suïcides in Nederland?

Blog, Onderzoek 0 comments
Het proces van data science ziet er als volgt uit:data opzoeken –> data opschonen (‘tidy data’) –> hypothese –> data manipulatie –> plotten (visualisatie) –> modelleren -> aanpassen van je hypothese –> enz.

Opzoeken van beschikbare data

Als je zoekt op CBS data dan kon je doorklikken naar statline, een website waar open data beschikbaar wordt gesteld. Je kan hier direct gebruik van kunnen maken voor allerlei toepassingen. Ik zou willen uitzoeken of de toename rond 2009-2013 van google zoekopdrachten naar suïcide methodes zich lijken te vertalen in toename van het aantal geslaagde suïcides. En zo ja, in welke regio’s in Nederland trad dat dan op?

Ik heb op de website van opendata.cbs.nl/statline/ uiteindelijk twee csv files gedownload voor alle beschikbare zelfdoding en gerelateerde data. csv staat voor comma separated file, en dat is een file-type dat je in elk database- of statistiekprogramma kan inlezen. Ik bekijk de structuur met glimpse. Ik heb twee bestanden geselecteerd, een met de data per regio en een met de verschillende wijzes van suïcide.

## Observations: 51,660
## Variables: 12
## $ ID                                     <int> 0, 1, 2, 3, 4, 5, 6, 7,...
## $ Geslacht                               <int> 1100, 1100, 1100, 1100,...
## $ Leeftijd                               <int> 10000, 10000, 10000, 10...
## $ RegioS                                 <chr> "NL01", "NL01", "NL01",...
## $ Perioden                               <chr> "1996JJ00", "1997JJ00",...
## $ TotaalUitwendigeDoodsoorzaken_80       <int> 5309, 5148, 4914, 5189,...
## $ TotaalOngevallen_81                    <int> 3372, 3237, 3059, 3336,...
## $ k_172Zelfdoding_89                     <int> 1577, 1570, 1519, 1517,...
## $ k_173MoordEnDoodslag_90                <int> 211, 208, 176, 203, 180...
## $ k_174GebeurtenissenOpzetOnbekend_91    <int> 77, 51, 94, 55, 30, 56,...
## $ k_175OverigeUitwendigeDoodsoorzaken_92 <int> 72, 82, 66, 78, 114, 83...
## $ jaar                                   <dbl> 1996, 1997, 1998, 1999,...
## Observations: 1,809
## Variables: 26
## $ ID                  <int> 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ...
## $ TotaalZelfdoding    <int> 559, 618, 655, 684, 663, 650, 651, 705, 76...
## $ Ongehuwd_2          <int> 145, 159, 167, 172, 165, 153, 153, 155, 16...
## $ Gehuwd_3            <int> 275, 328, 339, 354, 359, 350, 349, 368, 40...
## $ Verweduwd_4         <int> 118, 121, 127, 138, 122, 131, 126, 162, 15...
## $ Gescheiden_5        <int> 21, 10, 22, 20, 17, 16, 23, 20, 31, 25, 30...
## $ OphangenVerwurgen   <int> 222, 238, 267, 258, 271, 239, 262, 263, 26...
## $ MedicijnenAlcohol   <int> 34, 30, 30, 26, 31, 35, 21, 31, 29, 35, 41...
## $ TreinMetro          <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA...
## $ Verdrinken          <int> 94, 128, 108, 145, 105, 137, 136, 154, 170...
## $ SpringenVanHoogte   <int> 18, 14, 18, 14, 12, 20, 16, 19, 22, 23, 18...
## $ Overige             <int> 169, 187, 206, 206, 220, 197, 194, 204, 23...
## $ OnbekendeWijze      <int> 22, 21, 26, 35, 24, 22, 22, 34, 40, 35, 37...
## $ PsychischeStr       <int> 197, 0, 0, 0, 0, 279, 0, 324, 0, 0, 0, 0, ...
## $ FysiekeStr          <int> 50, 0, 0, 0, 0, 63, 0, 76, 0, 0, 0, 0, 94,...
## $ HuiselijkeOmst      <int> 12, 0, 0, 0, 0, 9, 0, 15, 0, 0, 0, 0, 27, ...
## $ Overig              <int> 75, 0, 0, 0, 0, 61, 0, 76, 0, 0, 0, 0, 84,...
## $ Onbekend            <int> 225, 618, 655, 684, 663, 238, 651, 214, 76...
## $ TotaalZelfdoding_18 <dbl> 5.5, 6.0, 6.3, 6.5, 6.2, 6.0, 6.0, 6.4, 6....
## $ Ongehuwd_19         <dbl> 2.7, 3.0, 3.1, 3.2, 3.0, 2.8, 2.8, 2.8, 3....
## $ Gehuwd_20           <dbl> 6.4, 7.5, 7.6, 7.8, 7.8, 7.4, 7.3, 7.5, 8....
## $ Verweduwd_21        <dbl> 27.0, 27.4, 28.4, 30.5, 26.7, 28.3, 26.9, ...
## $ Gescheiden_22       <dbl> 27.9, 13.0, 28.1, 25.2, 21.2, 19.6, 27.7, ...
## $ jaar                <dbl> 1950, 1951, 1952, 1953, 1954, 1955, 1956, ...
## $ geslacht            <fct> beide, beide, beide, beide, beide, beide, ...
## $ Leeftijd_cat        <fct> alle, alle, alle, alle, alle, alle, alle, ...

Het aantal rijen in het eerste bestand is dus 51660 en het aantal kolommen 12. Zo hebben we veel informatie in het geheugen staan, maar het staat nog niet helemaal goed gedefinieerd. Daarvoor hebben we de meta-data file nodig, die ik ook heb gedownload van cbs.nl.

cbs_opgeschoond <- cbs1 %>% 
  mutate (jaar = Perioden %>% substr(1,4) %>% as.numeric(),
          geslacht = Geslacht %>% as.factor() %>% 
            recode("1100" = "beide", "3000" = "man", "4000" = "vrouw")) %>% 
  select(-Perioden, -Geslacht, zelfdoding = k_172Zelfdoding_89)

Zo, nu is geslacht in ieder geval correct als factor gecodeerd. Laat ik eens kijken wat de tendens is in suicides sinds 1996. Hoe ziet die figuur eruit als ik mannen en vrouwen een aparte figuur geef? Ook maak ik een figuur naar de verschillende leeftijdscategorieen, daar gebruik ook de recode functie voor in R.

Stijging door economische crisis?

Er lijkt inderdaad wel een stijging te zijn (met name bij mannen tussen de 50 en 70 jaar oud) sinds 2008 zoals ook wel gemeld is op verschillende forums. Mogelijk is dat samenhangend met de economische crisis, maar in een analyse van CBS data leek het samen te hangen met arbeidsongeschiktheids-, werkloosheids- of bijstandsuitkeringen, zie het artikel van Renske Gilissen, Kim de Bruin, Irene Burger, en Bert van Hemert met de titel “Kenmerken van personen overleden door zelfdoding” te vinden op het internet.

Is die stijging aanwezig voor alle manieren van suïcide? Laat ik eerst de tendens sinds de eerste beschikbare metingen sinds 1950 eens uitzetten, en daarna nog eens vanaf 1996.

Het verhaal lijkt nu wel een bepaalde richting uit te gaan. Er is met name bij (oudere) mannen een forse stijging van het aantal suïcides door ophanging en verwurging sinds ongeveer 2008. Als je ook data science blog 2 leest zou je kunnen hypothetiseren dat er een samenhang is met de economische crisis.

Eerdere berichten hierover zijn al gedaan in de afgelopen jaren (zie: cbs). In 2015 hadden 1871 mensen een einde aan hun leven gemaakt. Deze getallen moeten eigenlijk nog wel afgezet worden tegen de groeiende bevolking. Die getallen worden ook bij de CBS beschikbaar gesteld, en zou je kunnnen mergen (plakken) met de huidige bestanden, om daar een correctie voor uit te voeren.

Onderliggende motieven?

Wat we ook nog uit zouden kunnen zetten is het onderliggend motief van de suïcide. Als de stijging met name veroorzaakt wordt door de economische crisis, dan zou je dat terug kunnen vinden bij de psychische oorzaken. Dus wil ik de figuur ook eens uiteentrekken voor de onderliggende oorzaken.

 “`

De belangrijkste onderliggende motieven lijken psychische oorzaken (zoals burn-out en depressie) te zijn. Dat lijkt de hypothese te onderbouwen. Echter om daar betrouwbare uitspraken over te doen zijn veel aanvullende analyses nodig (o.a. zoals beschreven zijn in het bovengenoemde artikel). De getallen moeten bijvoorbeeld voor bevolkingsgroei gecorrigeerd worden, of er moet gebruik worden gemaakt van gestandaardiseerd getallen (SMR: Standardized Mortality Ratio). De SMR geeft de verhouding weer tussen de sterfte in een onderzoekspopulatie en de sterfte in een referentiepopulatie.

Voor commentaar, suggesties, of een interessante nieuwe vraagstelling:

Contact

Leave a Reply

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.