Etikettarkiv: testkonstruktion

Flervalsfrågor

I digital testning är flervalsfrågor en vanlig form, tack vare dess enkelhet. Det är enkelt att skapa programvara, det är enkelt att skapa test och dom har hängt med länge så dom är lättförståeliga och enkla att använda för de testande. Endast i undantagsfall är denna form ett hinder för genomförandet av testet.

En stor anledning till flervalsfrågornas popularitet och breda användande är på grund av stora nationella kunskapstest, som högskoleprovet i Sverige och SAT i USA. De har en lång historik bakom sig inleddes under den predigitala tiden då all testning, administration och rättning sköttes på papper. Då var flervalsfrågornas enkelhet en förutsättning för att kunna använda dem i stor skala. De var det enda rimliga alternativet för testning av stora grupper.

Flervalsfrågor är inte alltid det bästa sättet att testa kunskap på. Just enkelheten är inte bara en fördel utan också deras största nackdel. Som testkreatör vill man ofta mäta strukturell djupkunskap. Flervalsfrågor tenderar fungerar dock bäst för testning av ytlig detaljkunskap och tenderar att glida åt det hållet om man inte är uppmärksam vid skapandet av frågorna.

Innan man väljer testmetod ska man alltid ställa sig frågan: Vilken metod passar bäst för det jag vill mäta? När vi utformar digitala test har vi andra alternativ som kan passa bättre.

När man efterfrågar exakta svar är fri inmatning att föredra framför flervalsfrågor. Ett typiskt exempel är rättstavning. Det är visserligen möjligt att testa rättstavning med flervalsfrågor, men fri inmatning passar bättre eftersom användare kan göra alla möjliga sorters misstag som du inte har kunnat föreställa dig.

Ett annat område där fri inmatning är att föredra är programmering. Naturligtvis måste man använda fri inmatning då man efterfrågar kod. Men även då man testar kodförståelse är det en fördel att ställa frågan: Vilket output ger följande kod? med fri inmatning i stället för att hinta om svaret med färdiga svarsalternativ.

Vid test med numeriska svar, oftast som resultat av uträkningar är fri inmatning också att föredra. Dock är det viktigt att tänka på att svar med flera decimaler behöver klart definieras för användaren hur många decimaler hen ska tillfoga till svaret.

När man testar kreativitet bör man också nyttja fri inmatning som ett alternativ.

Flervalsfrågor fungerar således bäst när det finns ett entydigt rätt svar på frågan och då förståelsen av begreppet är viktigare än utformningen av termen. Ett exempel:

Vad har Schweiz för styrelseskick?

  1. Monarki
  2. Federation
  3. Diktatur
  4. Kommunism

Rätt svar är federation. Men även förbundsstat och förbundsrepublik skulle ha kunnat vara rätt svar på frågan. Detta är en stor nackdel för fri inmatning, eftersom man måste ta hänsyn till alla möjliga rätta svar. Dessutom måste man bygga funktioner för att korrigera felstavning, men trots detta kommer ändå en del användare att lyckas stava så mycket fel att inläsningen inte ger dem rätt, trots att dom förstår hur Schweiz styrelseskick fungerar.

Antalet svarsalternativ brukar oftast ligga mellan 4-6. Med färre än fyra svarsalternativ minskar spridningen radikalt och slumpen får större effekt på resultatet. Fyra till sex alternativ ger också de testande en god överblick av samtliga alternativ. Det är dock fullt möjligt att använda många fler svarsalternativ. Dock, för varje svarsalternativ blir vinsten mindre, samtidigt som det blir svårare att hitta relevanta alternativ. Man tjänar ofta mer på att välja ett färre antal svarsalternativ som är mer genomtänkta än att ha alltför många ogenomtänkta.

När man konstruerar svarsalternativ för flervalsfrågor vill man få så stor spridning som möjligt i resultatet. Därför ska man alltid sträva mot att konstruera svarsalternativen för flervalsfrågor i olika kvalitativa skikt. Svarsalternativen ska kunna rangordnas i närhet till det rätta svaret. Vid en perfekt testkonstruktion ska varje svarsalternativ utöka gruppen av möjliga svar. Ett exempel:

Vem bekämpade balrogen Durins Bane och föll ner i avgrunden i Morias gruvor under kampen?

  1. Legolas
  2. Saruman
  3. Aslan
  4. Gandalf

Rätt svar är Gandalf. Låt oss se på de felaktiga svarsalternativen.

Aslan är en mytologisk figur i C.S.S. Lewis fantasyvärld Narnia. Det är det minst troliga alternativet. Har man ett hum om Tolkiens sagovärld och att frågan handlar om den kan man utesluta Aslan som alternativ och har högre sannolikhet att svara rätt.

Saruman är liksom Gandalf en magiker. Vet man att det var en magiker som kämpade mot Durins Bane och känner till att både Gandalf och Saruman är magiker, kan man utöka sina chanser att svara rätt till 50%.

Legolas var liksom Gandalf en av de nio i ringens brödraskap och befann sig i Morias gruvor under kampen. Det är inte heller osannolikt att Legolas sköt iväg en pil eller två mot balrogen, även om han aldrig föll ner i avgrunden i denna kamp. Känner man till att det var någon ur ringens brödraskap som bekämpade balrogen har man också 50% chans att besvara frågan rätt.

Man arbetar alltså med flervalsfrågor genom att försöka hitta olika gemensamma kvaliteter för att kunna differentiera mellan dem som har viss förståelse från dem som fullständigt saknar förståelse. På det sättet får man ett bättre resultat på grund av den större variationen.

Tar man inte hänsyn till olika kvaliteter när man skapar frågan och svarsalternativen förlorar frågan kvalitet. Låt mig visa ett exempel på dålig frågekonstruktion:

Vilken av följande karaktärer är en alv?

  1. Legolas
  2. Frodo
  3. Pippin
  4. Sam

Det rätta svaret är Legolas. Det uppenbara felet med svarsalternativen är den slående endimensionaliteten. Här jämför vi endast två kvaliteter med varandra: Alv eller ickealv. För att förvärra det för oss är samtliga felaktiga svarsalternativ hobbitar. Man kan med säkerhet besvara frågan korrekt, utan att veta någonting om alver så länge man vet någonting om hobbitar. För att skapa fler kvaliteter bland svarsalternativen kan man omformulera frågan på följande sätt:

Vilken av följande karaktärer är en alv?

  1. Legolas
  2. Frodo
  3. Boromir
  4. Gimli

Svarsalternativen är förbättrade såtillvida att samtliga svarsalternativ inte är av samma ras. Frodo är en hobbit, Boromir är en människa och Gimli är en dvärg. Frågan är dock fortfarande inte tillräckligt välkonstruerad. För att förbättra den behöver vi använda oss av fler kvaliteter i de felaktiga svarsalternativen:

Vilken av följande karaktärer är en alv?

  1. Legolas
  2. Frodo
  3. Spock
  4. Anatis

Varje felaktigt svarsalternativ har nu en koppling till alver. Frodo förekommer också i Tolkiens sagovärld. Spock ser ut som en alv med sina spetsiga öron. Anatis är en egyptisk gudom som har ett väldigt alvlikt namn. Värt att observera är att jag valde bort Osiris som alternativ, trots alvliknande namn, eftersom sannolikheten då skulle vara större att kunskap om egyptiska gudar förbättrar sannolikheten för rätt svar när vi inte vill mäta detta.

En viktig aspekt att ta hänsyn till när man ser på testet som helhet är att inte göra alla frågor perfekta. Följer man samma formula för samtliga frågor kommer en del testande att intuitivt eller logiskt inse detta och få ett bättre resultat än deras kunskap inom området motsvarar. För att motverka denna effekt bör man infoga 10-20% icke välkonstruerade frågor.

Låt mig förklara lite närmare vad jag menar. En testande som har knäckt testkreationskoden kan titta på exemplet ovan och resonera på följande sätt: Legolas och Frodo förekommer båda i Tolkiens fantasyvärld. Legolas och Spock har båda spetsiga öron. Anatis och Legolas har båda alvklingande namn. Legolas har kopplingar till samtliga andra alternativ medan de andra alternativen har mycket svaga kopplingar till varandra. Därför är sannolikheten stor att Legolas är det rätta svaret, även om jag inte med säkerhet vet att Legolas är en alv.

Därför, för att inte själva testet ska påverka resultatet i onödigt stor omfattning bör man variera kopplingarna mellan svarsalternativen på de olika frågorna och infoga några frågor med sämre uppbyggnad. Ett exempel:

Vilken av följande filmer har Robert De Niro medverkat i?

  1. Gudfadern
  2. Gudfadern 3
  3. Tjuren från Bronx
  4. Broarna i Madison County

Rätt svar är Tjuren från Bronx. Frågan i sig är inte särskilt välkonstruerad med tanke på att möjliggöra flera nivåer av kunskap. Den präglas av endimensionalitet och svarsalternativen saknar kopplingar som gör att halvt insatta testande kan öka sannolikheten att få rätt. Kvaliteten ligger i stället på ett för testet övergripande plan. Det finns en uppenbar koppling mellan Gudfadern och Gudfadern 3 (och det faktum att Robert De Niro medverkar i Gudfadern 2). Testande som har knäckt testkreationskoden och som inte kan rätt svar kommer mest troligt att välja ett av Gudfadernalternativen på grund av deras koppling till varandra. Detta är precis det vi vill komma åt, det vill säga få en åtskillnad i resultatet mellan de som behärskar kunskapen vi vill testa och de som kan tänka strategiskt.

Sammanfattningsvis, man vill alltid att test ska särskilja resultatet för de testande i största möjliga mån. Det gör vi genom att skapa flerdimensionella frågor och svarsalternativ. Genom flera lager av kvaliteter ökar vi sannolikheten för delvis insatta att få rätt, trots att de inte känner till det rätta svaret. Dock är det viktigt att infoga frågor som bryter mot detta mönster för att motverka att testande får bättre resultat på grund av strategiskt tänkande i stället för den kunskap vi vill testa.

Slump i digitala tester

Förr i tiden, innan det digitala genombrottet, var man hänvisad till en specifik ordning av frågor och svarsalternativ när man använde pappersbaserade test. Ville man ha någon form av randomisering av tester var man hänvisad till muntlig testning, ett både dyrare och mindre tillförlitligt alternativ.

I dag ser det annorlunda ut. Tack vare digitala tester kan vi med enkelhet slumpa ordningen på såväl frågorna som svarsalternativen. Är det alltid bättre att låta sannolikheten ha sin gång? Svaret är ett entydigt nej. Ett genomtänkt test gynnas så gott som alltid av att ha en bestämd ordning på frågor och svarsalternativ.

När man skapar ett test vill man kunna åtskilja de testande på flera nivåer. Har man bara lätta frågor får man en sämre urskiljning på de högre nivåerna. Med bara svåra frågor får man en sämre urskiljning på de lägre nivåerna. Ett välkonstruerat test innehåller frågor på flera olika svårighetsnivåer.

När man skapar ett test med frågor av olika svårighetsgrad, bör man alltid inleda med de lätta frågorna. Dels får man en uppvärmningsfunktion, så att de testande lättare kommer in i en gynnsam sinnesstämning för de svårare frågorna. Dels skapar vi ett inlärningsmoment av testsituationen. Dessutom skapar vi en känsla av trygghet och mildrar nervositet för de testande. Men vi undviker också risken att de testande ”fastnar” på alltför svåra frågor i början och därför får ett missvisande resultat för att missar frågor som de skulle ha klarat och får ett sämre resultat än deras kunskapsnivå.

Ibland vill man varva lätta och svåra frågor. Detta gäller framförallt då man testar olika områden vid ett och samma testtillfälle. Vid dessa fall är fördelen större att testa område för område för att underlätta så mycket som möjligt för de testande i testsituationen. Det innebär att man inom varje enskilt område har en stigande svårighetsgrad på frågorna. När man konstruerar sådana typer av test är det viktigt att man sätter specifika tidsbegränsningar på varje fråga, för att i största möjliga mån undvika att de testande fastnar i för svåra sektioner för att missa lättare.

Det främsta skälet till att behålla samma ordning på svarsalternativen vid flervalsfrågor är för att skapa så lika testförhållanden som möjligt mellan de testande. Ordningen av svarsalternativ har störst betydelse när de innehåller en ”teaser”, det vill säga ett felaktigt svarsalternativ som man lätt kan missta för det riktiga. Ligger det felaktiga svarsalternativ före det rätta, kommer en större andel av de testande att välja det felaktiga än när det ligger efter. Därför får vi lägre reliabilitet om ordningen av dessa svarsalternativ är olika för olika testande.

Dock, väljer man att konstruera sitt test med en vald ordning av svarsalternativen är det viktigt att förstå och anpassa sig till en psykologisk faktor som återfinns hos såväl de testande som dig som testkreatör. Människor är dåliga på att uppfatta och skapa ett randomiserat utfall. Man växlar i större utsträckning än slumpen.

Låt mig ta ett exempel. Låt en person skapa ett slumpmässig utfall av slantsinglingar 100 gånger, alltså utan att faktiskt singla slanten. Låt sedan en annan person singla en slant 100 gånger. Väntevärdet är 50% att slanten kommer att ändra värde från en singling till en annan. Men den person som hittade på sitt slumpmässiga utfall kommer med stor sannolikhet att växla mellan krona och klave i större utsträckning än så. Dessutom, ser man på den längsta sammanhållna serien med samma resultat, så kommer en riktigt randomisering skapa längre längsta serie än den påhittade i en överväldigande majoritet av fallen.

Intuitivt likställer människor slumpmässighet med förändring av utfall i högre grad än vad som är statistiskt försvarbart. Man har svårt att acceptera att slumpmässighet kan innebära att samma utfall upprepas.

Det är viktigt att känna till denna missuppfattning och att utgå ifrån den när man konstruerar svarsalternativ. Genom att medvetet bygga in samma position av svarsalternativ i grupp och låta något eller några svarsalternativ representeras i högre utsträckning skapar man en större sannolikhet att personer som inte vet eller inte är säkra på det rätta svarsalternativet svarar fel i högre utsträckning. Genom att överrepresentera något eller några svarsalternativ, såväl i rad som totalt för testet får man en högre reliabilitet i resultatet.

Det finns dock tillfällen då man tjänar på att införa slumpmässig ordning på frågor och svarsalternativ. Exempelvis när man lider av extrem tidsbrist är risken större att man som testkonstruktör misslyckas att upptäcka sin egen uppfattning av slumpmässighet och växlar för mycket mellan olika svarsalternativ. Det är dock en klar fördel att du slumpar svarsalternativen en gång och låter samtliga testande använda samma ordning.

Slumpmässig ordning är också att föredra när de testande gör samma test flera gånger. Anledningen är att testande lär sig saker av testet, speciellt om du ger omedelbar feedback på rätta svarsalternativ. Men du vill inte att de ska lära sig själva testet, det vill säga på vilken fråga de ska välja vilken svarsposition. Anledningen till att använda samma test flera gånger är att de testande ska lära sig den underliggande kunskapen. Därför är slumpmässig ordning på frågor och svarsalternativ att föredra, även i de fall då man använder sig av skiftande svårighetsgrad på frågorna.

Sammanfattningsvis bör man oftast bestämma ordningen på frågor och svarsalternativ utifrån grundläggande principer för testkonstruktion. Däremot, lider man av tidsbrist eller låter användarna testa sig flera gånger är det en fördel att lotta ordningen på frågor och svarsalternativ

Tidsbegränsning av digitala tester

Man bör alltid tidsbegränsa digitala tester. Även i de fall då man i realiteten vill att de testande ska få obegränsat med tid är det i praktiken nödvändigt att begränsa tiden. Utan tidsbegränsning kan användare ligga kvar i systemet oändligt länge. Det skapar en osäkerhet för administratörerna som man vill undvika, vid exempelvis nedstängning för underhåll eller vid avslut av ett test. De som fortfarande är registrerade som aktiva, håller de faktiskt på att göra testet eller har dom bara stängt ner webbläsaren för att aldrig återvända?

Vill man att de testande inte ska påverkas negativt av tidsbrist är det bättre att sätta en extra lång tid för att slutföra testet. En enkel tumregel är att man bedömer den maximala tiden det tar att göra testet och lägger till 50% till den tiden.

Tidsbegränsningar bör alltid vara centralt baserade, det vill säga bestämmas från servern. Anledningen till att man aldrig ska lägga in tidsbegränsningar lokalt hos användaren är för att det är mycket lätt att kringgå tidsbegränsningen. Exempelvis kan användaren under testets gång ändra i sin dators tidsinställningar eller lägga in ett skript som påverkar webbläsarens interna tidshantering.

Ibland använder man sig av en tekniska lösningar som inte kommunicerar mot en central server. Det kan till exempel vara appar där frågor och svar finns sparade lokalt för att man ska kunna utföra testerna utan att behöva vara uppkopplad. I dessa fall är det viktigt att tidshanteringen sker inom appen och inte genom enhetens tidshantering, eftersom den kan manipuleras.

Det finns tre huvudsakliga sätt att tidsbegränsa tester. Det vanligaste är att man har en bestämd totaltid som begränsar tiden för hela testet. Anledningen till att majoriteten av test använder sig av en bestämd totaltid beror på att det är lätt att administrera och lätt att förstå för samtliga inblandade: beställare, testande såväl som konstruktörer.

Ett alternativ tidsbegränsning är för varje fråga. Fördelarna med uppdelad tidsbegränsning är att man minimerar de fel som uppstår i och med att testande förmåga att prioritera tiden är olika. Dessutom innebär en uppdelad tidsbegränsning att man hindrar testande från att fastna på tidiga frågor och därför få ett missvisande resultat på frågor som kommer senare i testet.

Den tredje typen av tidsbegränsning är relativt öppen. Det finns en väl tilltagen totaltid för testet. Dock, den slutgiltiga tiden för användaren läggs till testresultatet. Metoden kan med fördel användas då man förväntar sig att en stor del av de testande kommer att placera sig på samma nivå. Detta gäller till exempel programmering där flera personer klarar de ålagda uppgifterna och man vill använda tidsaspekten för att att skilja dem åt.

Den viktigaste frågan vid själva testkonstruktionen är: Vilken grad av tidsbegränsning ska man använda sig av? Svaret beror huvudsakligen på tre saker.

Vad är det man testar? Om man testar färdigheter vill man ha en snävare tidsbegränsning, eftersom den extra pressen leder till en bättre spridning av de testandes resultat. Om man däremot utför personlighetstest vill man generellt sett använda sig av en vidare tidsbegränsning.

Vad testar man för? Ett test som syftar till att hitta personer som ska utföra enkla uppgifter utan strategiskt tänkande bör ha en snävare tidsbegränsning. Till exempel test för juniora programmerare som ska utveckla enskilda funktioner och objekt i stället för verka som arkitekter bör vara hårt tidsbegränsade, eftersom snabbheten är mycket viktig i det fallet. Å andra sidan, när man testar för mer komplexa uppgifter där kreativitet och analytisk förmåga är en viktig del i beslutsfattandet är det viktigt att man skapar vida tidsbegränsningar eftersom alltför smala tidsbegränsningar har en negativ effekt på dessa färdigheter.

Var vill man ha den största spridningen av resultaten? När det är viktigare att särskilja på en grundläggande nivå ska man erbjuda en vid tidsbegränsning. Fast oftast vid tillsättningar av tjänster vill man skapa ett urval bland toppskiktet. Då passar det bättre med en snäv tidsbegränsning som ger en bättre åtskillnad på de högre nivåerna.

Sammanfattningsvis bör man alltid ha en tidsbegränsning för digitala test. Om det är tekniskt möjligt ska man alltid utgå ifrån serverns tidshantering. Omfattningen av tidsbegränsningen bör man justera utifrån vad man testar, vad man testar för och på vilken nivå man vill att testet ska vara mest utslagsgivande.