spacer spacer2
Psykometri - måleegenskaper
De fleste tester i PsykTestBarn er oversettelser av engelskspråklige originalversjoner. En vanlig framgangsmåte for oversettelse av tester er å først oversette til det nye språket, før en annen person oversetter tilbake til originalspråket igjen. En slik ”toveisoversettelse” kan anses som vellykket hvis meningsinnholdet i den tilbakeoversatte versjonen og originalversjonen er likt. Det er imidlertid ikke tilstrekkelig at norske testversjoner rent språklig er i overensstemmelse med originalversjonen. Alle tester som oversettes til norsk fra et annet språk må kunne dokumentere krysskulturell ekvivalens. I følge retningslinjene til International Test Commission innebærer dette å dokumentere at den norske versjonen tilfredsstiller både språklige, kulturelle og statistiske krav til ekvivalens.

Reliabilitet

Reliabilitet gir uttrykk for stabilitet og konsistens i resultatene av testen. Det er vanlig å bruke tre hovedkategorier av reliabilitet: indre konsistens, test-retest reliabilitet og interraterreliabilitet.

Indre konsistens er et mål på samsvar mellom ulike testledd som til sammen skal gjenspeile individuell variasjon i et gitt fenomen. En indikator for graden av indre konsistens uttrykkes i Cronbachs alfa.Indre konsistens er en viktig psykometrisk egenskap ved latente begreper, som f.eks. depresjon slik denne er operasjonalisert i SCL-90-R. I denne sammenhengen bruker vi European Federation of Psychologists’ Associations (EFPA) Test review form and notes for reviewers, med følgende føringer for tolkninger av Cronbachs alfa:

Utilfredsstillende: < 0,7
Tilfredsstillende: 0,7 – 0,79
God: 0,8 – 0,89
Utmerket: > 0,9

Test-retest reliabilitet angir samsvar mellom resultater av en og samme test på to forskjellige tidspunkt. Dette uttrykkes vanligvis ved korrelasjon mellom målene, og kalles stabilitetskoeffisienten. Tidspunktet mellom målingene avhenger av hvor stabilt vi tenker at de egenskapene er som testen er ment å måle. Dersom det dreier seg om en personlighetstest, der egenskapene som måles anses å være mer stabile trekk, er det naturlig å operere med et lengre tidspunkt mellom målingene, f eks 4 uker. Dersom testen er ment å måle mer flyktige tilstander, som for eksempel stress, angst eller depresjon, er det naturlig at tidspunktet mellom målingene er kortere, f eks 4-5 dager. I denne sammenhengen bruker vi European Federation of Psychologists’ Associations (EFPA) Test review form and notes for reviewers, med følgende føringer for tolkninger av stabilitetskoeffisienten:

Utilfredsstillende: < 0,6
Tilfredsstillende: 0,6 – 0,69
God: 0,7 – 0,79
Utmerket: > 0,8

I kliniske sammenhenger er det ofte viktig at de testene vi benytter er sensitive for endring, slik at vi kan bruke dem som mål på effekt av behandling. Indre konsistens, gitt ved Cronbachs alfa, forteller oss hvor mye av den observerte variasjonen i skalaen som er systematisk, og stabilitetskoeffisienten forteller oss hvor mye målene kan fluktuere over et gitt tidspunkt – uten at det er gitt noen behandling. Vår tolkning av differansen mellom testresultater før og etter behandling er begrenset av disse to forholdene.

Interraterreliabilitet er særlig relevant for tester hvor fagfolk skal gjøre vurderinger basert på observasjoner som er innhentet ved hjelp av en test. Et slikt eksempel kan være diagnostiske intervjuer, hvor man skal ta stilling til om intervjuobjektet oppfyller visse diagnosekriterier. Hvis to forskjellige fagfolk konkluderer likt om en persons diagnoser, kan diagnosene sies å ha høy interraterreliabilitet. Grad av enighet ved kategoriske mål, for eksempel diagnose, uttrykkes gjerne med en koeffisient kalt ’Kappa’. I denne sammenhengen bruker vi European Federation of Psychologists’ Associations (EFPA) Test review form and notes for reviewers, med følgende føringer for tolkninger av Kappa:

Utilfredsstillende: < 0,6
Tilfredsstillende: 0,6 – 0,69
God: 0,7 – 0,79
Utmerket: > 0,8

For skalaer med finere gradering uttrykkes enigheten gjerne ved intraklassekorrelasjoner (ICC).

Ved testing av barn er det vanlig å innhente opplysninger fra voksne som kjenner barnet godt, for eksempel foreldre og lærere. I slike tilfeller er måling av interraterreliabilitet en utfordring, fordi det, for eksempel, er rimelig å forvente stor variasjon i hvordan lekfolk svarer om én og samme person. I slike tilfeller kan reliabiliteten anslås ved hjelp av såkalte ’Generalizability’ studier, der ulike feilkilder kan avdekkes.

 

Validitet

Validitet som psykometrisk egenskap er et uttrykk for hvor godt et mål reflekterer fenomenet det er ment å måle. Dette knytter seg til tolkningen av målet og i hvilken grad vi kan rettferdiggjøre en slik tolkning. Innholdsvaliditet vurderes ved hjelp av faglig skjønn ved å stille spørsmål om testresultatet er dekkende for fenomenet det skal måle. Validitet kan også vurderes kvantitativt.

Begrepsvaliditet handler om hvordan det testen måler forholder seg til et underliggende, teoretisk psykologisk fenomen. Sammenfallende begrepsvaliditet er når et mål på et fenomen korrelerer høyt med et annet (anerkjent) mål på det samme fenomenet. Dette kan undersøkes ved å gi samme gruppe mennesker to tester som er ment å måle det samme, og beregne korrelasjonskoeffisienten for skårene fra de to testene. I denne sammenhengen bruker vi European Federation of Psychologists’ Associations (EFPA) Test review form and notes for reviewers, med følgende føringer for tolkninger av korrelasjonskoeffisienten:

Utilfredsstillende: < 0,55
Tilfredsstillende: 0,55 – 0,64
God: 0,65 – 0,74
Utmerket: > 0,75

Diskriminant begrepsvaliditet er når et mål på ett fenomen opptrer uavhengig av et mål på et annet, konseptuelt forskjellig fenomen. Det er vanlig å undersøke diskrimant validitet ved hjelp av faktoranalyse av skårer fra en test som er ment å måle forskjellige fenomener.

Kriterievaliditet handler om hvordan psykologiske mål forholder seg til mål fra den virkelige verden. Samtidig kriterievaliditet kan for eksempel undersøkes ved hjelp av statistiske metoder for diagnostisk nøyaktighet, hvor et diagnoseresultat fra en test sammenliknes med den ”sanne” diagnosen, en såkalt referansestandard. Basert på fordelingen av antall sanne og falske positive og negative testresultater kan man beregne størrelser som sensitivitet, spesifisitet, positiv og negativ prediktiv verdi (PPV/NPV), positiv og negativ likelihood ratio (PLR/NLR), receiver operating characteristic (ROC) kurve og diagnostisk odds ratio (DOR).

Strukturerte diagnostiske intervjuer følger de diagnostiske klassifikasjonssystemene, så i utgangspunktet bør kriterievaliditeten være tilfredsstilt. De fleste diagnostiske tester innen psykisk helse basere seg på Diagnostic and statistical manual of mental disorders (DSM-IV) (American Psychiatric Association, 1994), som er et ganske spesielt klassifikasjonssystem. I motsetning til et så kalt monotetisk system, der et bestemt sett av kriterier er både nødvendig og tilstrekkelig, har DSM-IV et polytetisk system. Her er hvert av kriteriene for de ulike diagnosene verken tilstrekkelige eller nødvendige. Det som definerer diagnosen er et bestemt antall fullfylte kriterier (antallet er tilfeldig valgt), f.eks 4 av de 7 kriteriene for unnvikende personlighetsforstyrrelse må være fullfylt for å bli gitt diagnosen. Hvilke som er fullfylt er likegyldig.

Innen psykisk helse er det vanskelig å definere en ”sann” diagnose, ettersom det ikke finnes noen objektive målemetoder for psykiatriske symptomer. Den amerikanske psykiateren Robert L. Spitzer har imidlertid foreslått en referansestandard for psykiatriske diagnoser: LEAD, som er et akronym for Longitudinal, Expert og All Data (Spitzer, 1983). LEAD-prinsippet går ut på at den diagnostiske vurderingen skal foregå over tid, og at vurderingene skal gjøres av erfarne klinikere basert på flere informasjonskilder. Denne referansestandarden har oppnådd høy anseelse når det gjelder validering av diagnostiske instrumenter innen psykisk helse.

Prediktiv kriterievaliditet er når testresultater holdes opp mot et kriterium observert lenger fram i tid. Som eksempler kan nevnes et mål på intelligens i forhold til skolekarakterer. Eller voldsrisikovurdering i forhold til voldsutøvelse. I denne sammenhengen bruker vi European Federation of Psychologists’ Associations (EFPA) Test review form and notes for reviewers, med følgende føringer for tolkninger av korrelasjonskoeffisienten:

 Utilfredsstillende: < 0,2
Tilfredsstillende: 0,2 – 0,34
God: 0,35 – 0,49
Utmerket: > 0,5

 

Normer

Grensene for hva som er ”normalt” for én og samme test kan variere fra land til land. Det er derfor viktig å basere normer på empiriske undersøkelser med den aktuelle versjonen av testen på en relevant populasjon. 

Få tester gjennomgår en fullstendig normering der det innhentes data for alle relevante demografiske undergrupper (kjønn, aldersgrupper, utdanningsgrupper). Ofte velger man å ”validere” oversatte tester som et alternativ til full standardisering. I slike valideringer undersøker man om testen har de samme psykometriske egenskaper som den opprinnelige testen, d.v.s. man sjekker reliabiliteten (om den indre konsistensen er tilfredsstillende, om interraterrelibiliteten er god, om testen er endringssensitiv). Validitet sjekkes ved å se om testen skiller mellom grupper som varierer på konstruktet testen er ment å måle og om faktorstrukturen er den samme som i den opprinnelige utgaven. En vil ofte ta utgangspunkt i at det fenomenet testen skal måle ikke nødvendigvis varierer betydelig mellom vestlige land (oftest aktuelt å oversette fra engelsk), men at testledd kan oppfattes forskjellig i ulike kulturer, og at det derfor er viktig å teste om oversettelsen fungerer tilfredsstillende. Velger en å samle normdata for alle relevante subgrupper, må antallet personer i hver undergruppe være omfattende nok til å gi reliable resultater som muliggjør generalisering til populasjonen. Med utgangspunkt i at man heller vil teste oversettelsen enn populasjonen kan man alternativt velge ut et fåtall undergrupper. I validering av en test for barn, vil en da velge ut et årskull eller evt to med spredning mellom dem, for å teste om barna oppfatter testleddene slik de er intendert, og for å teste gyldigheten av de opprinnelige normene. Hvis en slik validering viser at de opprinnelige normene er gyldige, vil en da ikke velge å foreta en fullstendig normering av prøven.

 

Referanser

American Psychiatric Association (1994). Diagnostic and statistical manual of mental disorders: DSM-IV. Washington, DC: American Psychiatric Association.

Spitzer, R. L. (1983). Psychiatric-Diagnosis - Are Clinicians Still Necessary. Comprehensive Psychiatry, 24, 399-411.


Ansvarlig: Arild Bjørndal. Redaktør: Muirne C. S. Paap. Webredaktør: Brynhildur Axelsdottir - 2017 ©RBUP Øst og Sør - Postboks 4623 Nydalen, 0405 Oslo - Login