Fra excelark til fine grafer

Lesetid: 6 minutter

5 tips som letter dataanalysearbeidet.

I mitt forrige innlegg skrev jeg om masteren min, og feltarbeidet jeg gjorde over ni uker i sommer. Jeg skal kort og godt se på effekten av sauebeite på biomasseproduksjon i fjellet, rett og slett hva som skjer med plantene når de beites av sauer over lang tid.

Nå har det blitt november, det er grått ute, og alle de fine lammene mine ligger i en frysedisk nær deg.

Søyene har blitt parra, og venter nå på at det skal bli sommer og igjen tid for å leve det frie saue-livet i fjellet. Masterstudenten er lenket til lesesalen, og er straks klar for å gå inn i eksamensmodus. Før det skal jeg se litt på dataene jeg har samlet inn, og forberede analysearbeidet jeg skal gjøre i januar. Forberedelse er viktig, og jeg lister opp fem tips til analysearbeidet litt lenger ned. Først litt repetisjon om hva det er jeg skal analysere.

Masteren min er en del av prosjektet “Long-term ecological effects of sheep grazing in alpine ecosystems and its integration with management”, der man ser på alle mulige effekter av at sauer beiter. Dette gjøres ved at man i ni innhegninger har henholdsvis ingen sau, lav tetthet av sau, eller høy tetthet av sau. Sauene har nå gått i disse innhegningene i ti år, og gjort det alle sauer gjør på fjellet: spist seg store og feite. Du kan lese mer om prosjektet her. Jeg skal undersøke hvordan plantene responderer på beite: vokser de mer eller mindre ved ulik beitetetthet, og blir det mer eller mindre av ulike typer av planter?

Bur til å fange planter i

For å gjøre dette, satte jeg ut 54 bur som hindrer sauene i å beite plantene inni buret. Alle burene ble plassert i vegetasjonstypen høgstaudeeng, som består av høye urter, bregner, gress og vierarter. Dette er den vegetasjonstypen i fjellet som foretrekkes av sauene, og det er her man eventuelt vil se en endring i plantesammensetning og biomasseproduksjon.

I august høstet jeg alle burene, og tok med alt som vokste inni hvert bur tilbake til Blindern. Samtidig gjorde jeg og botanikkveilereden min et artsestimat over hvilke arter som vokste i hvert bur.

I løpet av høsten har plantene i hvert bur blitt sortert i funksjonelle grupper og tørka. De funksjonelle gruppene kommer av at planter responderer ulikt på å bli beita. Gress har vekstmeristemet sitt, den delen av planten der veksten skjer, nederst, og tåler dermed godt å bli beitet. Derfor kan vi klippe gressplener igjen og igjen, gresset responderer med å vokse mer. Blomsterbedet, derimot, skal du ikke sneie med gressklipperen. Fjellets blomsterbed, urtene, har oftest vekstmeristemet sitt i tuppen av planta, og syns ikke det er like greit å bli beitet. Der gressets respons er en toleransestrategi, det tolererer godt å bli beitet og vokser rakt opp igjen, har andre grupper av planter en resistens-strategi, der de prøver å unngå å bli spist ved å produsere kjemikalier eller ha pigger. Tanken er at det vil være en forskjell i mengden av de ulike funksjonelle gruppene avhengig av hvilken beitetetthet det er der buret stod.

All kjærlighet til statistikken

Felt og labarbeid er vel og bra, men det er statistikk som kan gi oss svaret på om noe som helst har en påvirkning på noe annet. Uten statistikk kan vi synse i vei, men ikke vite(BOLD) noe som helst. Derfor gjelder det å ta inn over seg at statistikk er fantastisk, og elske de statistiske verktøyene du skal bruke. Alle vet at det er mye lettere å gjøre noe om man elsker det heller enn å hate det, og du kan heldigvis lure hjernen din til å elske de merkeligste ting.

Nå sitter jeg da med et dataark med mye informasjon. Jeg har kolonner med tørrvekt av biomassen av de ulike plantene, et estimat på hvor mange planter fra hver funksjonelle gruppe som vokser i hver rute, beitetettheten i hver rute, og også hvor mye sauen har beita rundt den aktuelle ruta de siste ti årene. Dette skulle gjerne putte inn i den ene siden av en maskin, og få ut flotte grafer i mange farger i den andre siden. Maskina jeg kan gjøre dette i, er et program med det flotte navnet R.

I løpet av vinteren skal jeg komme tilbake til hvorfor jeg mener R er et av de beste statistikkprogrammene. Nå skal jeg gi noen tips til hvordan man kan komme igang med dataanalysene sine. Jeg er jo absolutt ingen mester på dette, men med to semestre som hjelpelærer i biostatistikk i baklomma, har jeg plukket opp noen ting som ofte går galt, og som det er lett å unngå.

Å komme seg helt til endestasjonen

Når du sitter der med excelarket ditt fult av tall, trenger du gjerne stjernekikkert for å se lyset i den andre enden av togtunellen, der de fine grafene venter på siste stasjon. Hvis togturen med excelarket skal bli en fin opplevelse, gjelder å vite hvor du er, hvor du skal, og hvilke stasjoner du bør innom.

  1. Kjenn ditt eget datasett! De aller fleste masterstudenter vet hva de skal skrive om i oppgaven sin. Heldigvis. Men det er utrolig viktig å ha kontroll over datasettet du skal jobbe med. Hvis du har samla inn dataene selv, vet du hvor det kan være feilkilder i datasettet, og du vet hva hver enkelt kolonne og rad representerer. Hvis noen andre har samla inn datasettet for deg, sørg for at du vet hva som skjuler seg bak et merkelig kolonnenavn. Det høres simpelt ut, men det å skjønne hva som skjuler seg bak en signifikant faktor er alfa og omega for å kunne tolke resultatet.
  2. Forstå statistikken bak. Det nytter ikke å bruke en lineær modell for å forklare datasettet ditt, hvis du ikke vet om datasettet har en lineær sammenheng. Kanskje må du bruke en helt annen modell? Desverre tror jeg mange biologistudenter feiler her. Hvordan er det innenfor andre fagretninger? Dersom statistikk er et skummelt svart hull i din bevisthet, er det på tide å jobbe med angsten. Tilbake til pensumbøkene, søk på nettsider, spør en venn eller en veileder, og forstå hva det er du driver med. Engelsk Wikipedia er god på statistikk, og er et godt oppslagsverk.
  3. Finn ut hvor du kan få hjelp med programmet. De fleste statistikkprogrammer har en brukerguide på nettet. Finn den! Ofte har google også svaret: hvis jeg skriver “How to change NA to 0 in R”, får jeg med en gang opp et forum der koden ligger klar til bruk. Sannsynligheten er stor for at andre studenter på programmet ditt bruker samme program og har hatt samme problemer, så å spørre medstudenter gir ofte gode svar. En annen mulighet er å bli bestevenn med statistikkprofessoren på instituttet. Det viktigste er å ha en ide om hvor du kan gå hver gang du står fast. For tro meg, dersom du ikke er overmenneskelig kommer du til å stange hodet i dataskjermen. Mange ganger.
  4. Sov på det, og få noen til å se på det. Før du innkaller til pressekonferanse med dine makeløse funn, få noen til å se på det du har gjort. Sikker på at du ikke overså overdispersjonen i poissonfordelinga di? Det er utrolig kjedelig hvis det er sensor og ikke studiekameraten eller veilederen som må påpeke simple feil eller mangler i statistikken.
  5. Ha nok tid! Dette henger sammen med forrige punkt. Statistikk tar tid, men det er ofte statistikken som er bærebjelken i mange oppgaver. Nå har jo ikke jeg skrevet masteroppgaven min enda, men innstrykket mitt er at det ofte er tiden fra du starter på statistikken til du har leveringsfrist, som har noe å si for hvor god oppgaven blir. Det gjelder å ha tid nok til å gjøre analysene på nytt tre ganger dersom noe er feil, eller ha tid til å komme på alle de andre kule statistiske metodene det går an å bruke.
Da er det bare for meg å følge mine egne råd. Når november og desember er over, er allerede et halvt år gått av de to årene masteren min skal ta. I januar skal jeg analysere til jeg blir blå i hodet, men før det skal jeg forberede meg ved å gjøre punkt 1 til 3 i lista mi. Har du noen andre tips for statistikk-startende masterstudenter? Del de gjerne i kommentarfeltet!