Skolämnet samhällskunskap som eget ämne existerar i princip enbart i de nordiska länderna. I många andra länder delar flera skolämnen på ämnesinnehållet, till exempel geografi och civics. Ämnesinnehållet är stort och genomgår ständig förändring. År 2013 genomfördes de första nationella proven i samhällskunskap i Sverige för årskurs 9. Med tanke på ämnets karaktär kan det vara speciellt viktigt att undersöka om dessa prov är ”rättvisa.” Avsikten med denna studie är att undersöka en aspekt av denna ”rättvisa”, nämligen interbedömarstabilitet, dvs om samma elevsvar ger upphov till samma bedömning oavsett bedömare. Skolverket i Sverige genomförde 2009 en större studie av de ämnen som då genomförde nationella prov och föreliggande studie försöker dels efterlikna och dels bygga ut upplägget från Skolverket. Studien genomfördes på de första nationella proven i samhällskunskap 2013. Genom att pröva olika reliabilitetsmått inom kategorierna ”consensus estimates”, och ”consistency estimates” analyseras resultaten, bland annat diskuteras måttet intraclass correlation. Syftet är också, då detta var de första proven, att skapa en ram för återkommande studier av Interbedömarreliabilitet. Upplägget med en större mängd lärare som genomför totalt tre bedömningar av de utvalda hela proven försöker också efterlikna bedömningssituationen ute på skolorna såtillvida att det var relativt många lärare med i studien, och de kom från olika skolor spridda över Sverige. Genom detta testas också bedömningsanvisningarnas stabilitet. Själva genomförandet var omfattande och tog två hela dagar. Resultaten pekar på en god överensstämmelse för provbetyget, det sammanfattande omdöme eleverna får. Studien avses att återupprepas under kommande år.Nyckelord: Samhällskunskap, nationella prov, interbedömarreliabilitet, intraclass correlationThe first national test in samhällskunskap – a study of interrater reliabilityAbstractThe Swedish school subject Samhällskunskap (Societal knowledge) exists basically only in the Nordic countries. In other countries a number of different subjects, such as geography and civics, share the content. The content of the subject is constantly changing, depending on how society is changing. The first national tests in Samhällskunskap for all Swedish ninth graders took place in 2013. A large part of the test contains constructed responses. Given the characteristics of the subject we consider it especially important to investigate whether these tests are “fair” or not. The intent of this study is to investigate one aspect of “fairness”, interrater reliability, meaning the degree to which the same student responses are scored equally by different raters. In 2009, the National Agency of Education in Sweden conducted a large study of the subjects Swedish, English and Mathematics. Our study aims to mimic and further develop the design of the study from 2009. Our study was carried out on the first national tests in 2013. The results were analyzed by exploring dif
{"title":"Det första nationella provet i samhällskunskap - en studie i bedömarsamstämmighet","authors":"Arne Löfstedt","doi":"10.5617/ADNO.6283","DOIUrl":"https://doi.org/10.5617/ADNO.6283","url":null,"abstract":"Skolämnet samhällskunskap som eget ämne existerar i princip enbart i de nordiska länderna. I många andra länder delar flera skolämnen på ämnesinnehållet, till exempel geografi och civics. Ämnesinnehållet är stort och genomgår ständig förändring. År 2013 genomfördes de första nationella proven i samhällskunskap i Sverige för årskurs 9. Med tanke på ämnets karaktär kan det vara speciellt viktigt att undersöka om dessa prov är ”rättvisa.” Avsikten med denna studie är att undersöka en aspekt av denna ”rättvisa”, nämligen interbedömarstabilitet, dvs om samma elevsvar ger upphov till samma bedömning oavsett bedömare. Skolverket i Sverige genomförde 2009 en större studie av de ämnen som då genomförde nationella prov och föreliggande studie försöker dels efterlikna och dels bygga ut upplägget från Skolverket. Studien genomfördes på de första nationella proven i samhällskunskap 2013. Genom att pröva olika reliabilitetsmått inom kategorierna ”consensus estimates”, och ”consistency estimates” analyseras resultaten, bland annat diskuteras måttet intraclass correlation. Syftet är också, då detta var de första proven, att skapa en ram för återkommande studier av Interbedömarreliabilitet. Upplägget med en större mängd lärare som genomför totalt tre bedömningar av de utvalda hela proven försöker också efterlikna bedömningssituationen ute på skolorna såtillvida att det var relativt många lärare med i studien, och de kom från olika skolor spridda över Sverige. Genom detta testas också bedömningsanvisningarnas stabilitet. Själva genomförandet var omfattande och tog två hela dagar. Resultaten pekar på en god överensstämmelse för provbetyget, det sammanfattande omdöme eleverna får. Studien avses att återupprepas under kommande år.Nyckelord: Samhällskunskap, nationella prov, interbedömarreliabilitet, intraclass correlationThe first national test in samhällskunskap – a study of interrater reliabilityAbstractThe Swedish school subject Samhällskunskap (Societal knowledge) exists basically only in the Nordic countries. In other countries a number of different subjects, such as geography and civics, share the content. The content of the subject is constantly changing, depending on how society is changing. The first national tests in Samhällskunskap for all Swedish ninth graders took place in 2013. A large part of the test contains constructed responses. Given the characteristics of the subject we consider it especially important to investigate whether these tests are “fair” or not. The intent of this study is to investigate one aspect of “fairness”, interrater reliability, meaning the degree to which the same student responses are scored equally by different raters. In 2009, the National Agency of Education in Sweden conducted a large study of the subjects Swedish, English and Mathematics. Our study aims to mimic and further develop the design of the study from 2009. Our study was carried out on the first national tests in 2013. The results were analyzed by exploring dif","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47543162","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Bente Rigmor Walgermo, Per Henning Uppstad, Kjersti Lundetræ, Finn Egil Tønnessen, OddnyJudith Solheim
Som en del av det Nasjonale kvalitetsvurderingssystemet for grunnopplæringen (NKVS) i norsk utdanning har vi i dag forskjellige leseprøver med ulikt formål og utforming for bruk i det 13-årige skoleløpet. I denne artikkelen tegner vi opp en historisk bakgrunn for innføringen av kartleggingsprøvene i lesing i begynneropplæringen, og peker på flere forhold som kaller på en nytenking av dette prøvekonseptet. I artikkelen viser vi ved hjelp av data fra en longitudinell studie hvordan en kort oppgave gjennomført i slutten av første klasse predikerer vansker med leseforståelse i 3. klasse. Med utgangspunkt i disse resultatene drøfter vi kimen til et mulig nytt prøvekonsept med potensiale for a) bedre samsvar mellom teori om lesing og måling av lesing, b) longitudinell prediksjon, og c) en prøve som kan gjennomføres på kortere tid med forbedret pedagogisk potensiale. Sentralt i dette forslaget står tanken om en kort inngangsprøve som oppfyller prøvens primære formål om å identifisere de elevene som står i fare for å utvikle vansker med lesing, fulgt av en utforskende del gjennomført en-til-en som gir læreren informasjon om hvordan vansken arter seg.Nøkkelord: kartleggingsprøver i lesing, longitudinell prediksjon, tidlig innsats, dysleksi, lese- og skrivevansker, intensiv opplæring. Is it time to rethink screening tests for Reading?AbstractAs part of the national quality assessment system in education, Norwegian schools use a variety of reading test with different purposes and designs. In this study we initially provide a historical background regarding the development and implementation of the first-grade screening tests for reading. Within this historical context, we point to the need for rethinking the overall design and philosophy of these tests. Using longitudinal study data, we empirically document how a short group-administered assessment task at the end of first grade predicts difficulties in reading comprehension at the end of third grade. Based on these results we discuss the development of a new design with potentially a) better concurrence of reading theory and reading measures, b) longitudinal prediction, c) a shorter test with better pedagogical potential. Central to this idea is a short initial task that can fulfil the primary purpose of the screening, followed by an explorative, observational aspect, implemented in a one-to-one manner, that would provide greater information regarding the nature of the difficulty.Keywords: screening tests for reading, longitudinal prediction, early efforts, dyslexia, reading and writing difficulties, special education
{"title":"Kartleggingsprøver i lesing - tid for nytenking?","authors":"Bente Rigmor Walgermo, Per Henning Uppstad, Kjersti Lundetræ, Finn Egil Tønnessen, OddnyJudith Solheim","doi":"10.5617/adno.6499","DOIUrl":"https://doi.org/10.5617/adno.6499","url":null,"abstract":"Som en del av det Nasjonale kvalitetsvurderingssystemet for grunnopplæringen (NKVS) i norsk utdanning har vi i dag forskjellige leseprøver med ulikt formål og utforming for bruk i det 13-årige skoleløpet. I denne artikkelen tegner vi opp en historisk bakgrunn for innføringen av kartleggingsprøvene i lesing i begynneropplæringen, og peker på flere forhold som kaller på en nytenking av dette prøvekonseptet. I artikkelen viser vi ved hjelp av data fra en longitudinell studie hvordan en kort oppgave gjennomført i slutten av første klasse predikerer vansker med leseforståelse i 3. klasse. Med utgangspunkt i disse resultatene drøfter vi kimen til et mulig nytt prøvekonsept med potensiale for a) bedre samsvar mellom teori om lesing og måling av lesing, b) longitudinell prediksjon, og c) en prøve som kan gjennomføres på kortere tid med forbedret pedagogisk potensiale. Sentralt i dette forslaget står tanken om en kort inngangsprøve som oppfyller prøvens primære formål om å identifisere de elevene som står i fare for å utvikle vansker med lesing, fulgt av en utforskende del gjennomført en-til-en som gir læreren informasjon om hvordan vansken arter seg.Nøkkelord: kartleggingsprøver i lesing, longitudinell prediksjon, tidlig innsats, dysleksi, lese- og skrivevansker, intensiv opplæring. Is it time to rethink screening tests for Reading?AbstractAs part of the national quality assessment system in education, Norwegian schools use a variety of reading test with different purposes and designs. In this study we initially provide a historical background regarding the development and implementation of the first-grade screening tests for reading. Within this historical context, we point to the need for rethinking the overall design and philosophy of these tests. Using longitudinal study data, we empirically document how a short group-administered assessment task at the end of first grade predicts difficulties in reading comprehension at the end of third grade. Based on these results we discuss the development of a new design with potentially a) better concurrence of reading theory and reading measures, b) longitudinal prediction, c) a shorter test with better pedagogical potential. Central to this idea is a short initial task that can fulfil the primary purpose of the screening, followed by an explorative, observational aspect, implemented in a one-to-one manner, that would provide greater information regarding the nature of the difficulty.Keywords: screening tests for reading, longitudinal prediction, early efforts, dyslexia, reading and writing difficulties, special education","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"42708767","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Marit B. Henriksen, Karen Inga Eira, Jan Henry Keskitalo, Kamil Øzerk
Tema for denne artikkelen er de nasjonale prøvene i lesing på samisk. Disse prøvene utformes på nord-, lule- og sørsamisk, og gjennomføres årlig for elever med samisk som førstespråk på 5., 8. og 9. klassetrinn. Problemstillingen om¬fatter bakgrunnen for utviklingen av et eget Rammeverk for nasjonale prøver i lesing samisk, forhold omkring elevpopulasjonen, samt forhold knyttet til opplærings- og læremiddelsituasjonen; og hvordan disse faktorene påvirker utforming og oppfølging av prøvene. Presentasjonen av bakgrunnen for de nasjonale prøvene i lesing på samisk bygger på analyse av dokumentasjon fra prøveutviklingsprosjektet fra og med 2004 og fram til i dag. Videre identifiserer vi premissene for prøvene ut fra gjeldende lovverk og læreplanverk. Undersøkelsen av elevpopulasjon og deltakelse bygger vi på analyse av tilgjengelig tallmateriale, kommentert statistikk og andre studier som tar for seg elevtall og opplæringssituasjonen for samiske elever. Vi legger her fram nye sammenstillinger av tallmaterialet, hvor vi ser på antall elever med samisk som opplæringsspråk i forhold til antall elever med samisk som førstespråk. I kapitlet om de nasjonale leseprøvene på samisk i møte med skolen tar vi for oss opplærings- og læremiddelsituasjonen med bakgrunn i kommentert statistikk og forskningsrapporter, og vi ser at det er stor variasjon på dette området. Denne variasjonen problematiseres i forhold til elevenes muligheter til å oppøve gode leseferdigheter på samisk.Nøkkelord: nasjonale prøver, lesing, samisk, nordsamisk, lulesamisk, sørsamisk, elevpopulasjon, prøveutviklingNational reading tests in Sámi languages – on which terms?AbstractFirst language Sámi speaking students in Norway receive separate Sámi-medium national literacy tests. Literacy tests are developed in North, Lule and South Sámi, and the tests are organized yearly for first language Sámi speaking students in grades 5, 8 and 9. In this article, we look at the background for the development of a separate Framework for national Sámi-medium literacy tests. We also examine conditions concerning the student population, and the situation regarding Sámi-medium instruction and Sámi-medium teaching materials; and how these factors affect the development and follow-up of the tests. The background for the national Sámi-medium literacy tests builds on an analysis of documentation produced in the period ranging from 2004, when the development of reading tests in Sámi started as a project, and up until today. We identify formal terms for the tests, determined by current legislation as well as national curricula. The examination of student population and test participation builds on available statistical material and on studies dealing with student numbers and Sámi-medium instruction in schools. We present new displays of material, where we compare numbers of students receiving Sámi-medium instruction with numbers of students registered as first language Sámi speakers. Based on studies and commented s
特马为本文提供的是萨米语的全国性阅读测试。这些测试是为北方语、摇篮曲和南方语设计的,每年为5.8级第一语言的学生进行。和9。班进展问题实现了为国家病变样本开发自己的Rammework的背景、与人口增加的关系以及与教育和医药产品的关系;以及这些因素如何影响测试的形成和后续行动。基于sami的研究中国家样本研究的背景介绍是基于对2004年至今测试开发项目文件的分析。此外,我们将从现行法律和教学平台中确定考试的先决条件。对学生人数和参与度的研究是基于对现有数字材料的分析、统计数据和其他研究,这些研究涉及学生人数和样本学生的培训条件。我们正在建立一个新的组合,将接受萨米语培训的学生人数与萨米语学生人数进行比较。在同一次学校会议上的全国阅读测试章节中,我们将培训和教育机构作为评论统计数据和研究报告的背景,我们看到这一领域存在巨大差异。这种变化与学生在社会中锻炼良好阅读技能的可能性有关。关键词:国家测试,阅读,萨米语,北萨米语,卢塞萨米语,南部,人口增加,测试发展萨米语国家阅读测试-在哪些方面?挪威讲萨米语的第一语言学生接受单独的萨米语国家识字测试。在北萨米、卢勒和南萨米开展识字测试,每年为5、8和9年级讲第一语言萨米语的学生组织测试。在这篇文章中,我们探讨了为国家萨米语媒介识字测试制定单独框架的背景。我们还审查了学生群体的情况,以及萨米语教学和萨米语教材的情况;以及这些因素如何影响测试的发展和后续行动。萨米语国家媒介识字测试的背景建立在对2004年期间产生的文件的分析之上,2004年萨米语阅读测试的开发开始作为一个项目,直到今天。我们确定了考试的正式术语,由现行立法和国家课程确定。对学生人数和考试参与情况的审查建立在现有统计材料和关于学生人数和学校萨米语教学的研究的基础上。我们展示了新的材料,将接受萨米语教学的学生人数与注册为母语为萨米语的学生人数进行了比较。根据研究和评论统计数据,我们将全国阅读测试的条件与学校的日常情况进行了比较。研究结果表明,萨米语教学的组织和可用的教材都存在很大的差异,我们讨论了这如何影响学生在萨米语中获得满意阅读技能的机会。关键词:国家测试、阅读、萨米语、北萨米语、卢勒萨米语、南萨米语、学生群体,“测试的发展Nationála geahčaleamit sámegiela lohkamis–makkár eavttuid vuoßul?čoahkkáigeassuNationála geahçáčalet sámegiela lohkamis leat dán artihkkala fáddán 3Geahčaleamit ráhkaduvojit davvi-,julev-ja lulisámegilli,jačačahuvojit jahkásač在5.,8。是的9。ceahki ohppiide geain lea sámegiella vuosttašgiellan。Artihkkalis泄漏gommaoasatčuolbma:Mii guorahallat duogáža man dihte lei dárbu sierra njuolggadusaide sámegiela lohkama nationalála geahčalemiid vast(Rammeverk代表national lesing samic),áš;ja mo buot dátášit víikkuhit geahčalemiid ráhkadeapmái jaçuovvulahttimii.kgmNationála geahčalemiid duogážačielggadeapmái在2004年租赁了一份文件。Dasto租赁了meroštallan geahčalemiid eavttuid gustovašlágaid ja oahppopánaid vuoßul。Ohppiidloguid ja oassálastima租赁了guorahallan almmolašmateriála vuočul,nu gočielggaduvvon statistichkka ja dutkamušat maid fáddán租赁了Ohppiidlog ut ja sámi ohppiid oahpahustilli。Dán oasis ovdanbuktit oßa vuogi在10月份的统计中贡献了自己的贡献,他是一位名叫galli oahppis lea sámegiella oahpahusgiella的男子。Viidáwaterapot mii guorahallat oahpahus-ja oahpponeavvodiličielggaduvvon统计和dutkanraporttaid vuoßul。 Čjehuvvo ahte leat stuora variašuvnnat oahpahus和oahpponeavvodilis,以及miiárvvoštallat mo dát variašidpopulationšuvdna,ohppiidlogut,geahčalemiid ráhkadepmi
{"title":"Nasjonale prøver i lesing på samisk - på hvilke vilkår?","authors":"Marit B. Henriksen, Karen Inga Eira, Jan Henry Keskitalo, Kamil Øzerk","doi":"10.5617/adno.6293","DOIUrl":"https://doi.org/10.5617/adno.6293","url":null,"abstract":"Tema for denne artikkelen er de nasjonale prøvene i lesing på samisk. Disse prøvene utformes på nord-, lule- og sørsamisk, og gjennomføres årlig for elever med samisk som førstespråk på 5., 8. og 9. klassetrinn. Problemstillingen om¬fatter bakgrunnen for utviklingen av et eget Rammeverk for nasjonale prøver i lesing samisk, forhold omkring elevpopulasjonen, samt forhold knyttet til opplærings- og læremiddelsituasjonen; og hvordan disse faktorene påvirker utforming og oppfølging av prøvene. Presentasjonen av bakgrunnen for de nasjonale prøvene i lesing på samisk bygger på analyse av dokumentasjon fra prøveutviklingsprosjektet fra og med 2004 og fram til i dag. Videre identifiserer vi premissene for prøvene ut fra gjeldende lovverk og læreplanverk. Undersøkelsen av elevpopulasjon og deltakelse bygger vi på analyse av tilgjengelig tallmateriale, kommentert statistikk og andre studier som tar for seg elevtall og opplæringssituasjonen for samiske elever. Vi legger her fram nye sammenstillinger av tallmaterialet, hvor vi ser på antall elever med samisk som opplæringsspråk i forhold til antall elever med samisk som førstespråk. I kapitlet om de nasjonale leseprøvene på samisk i møte med skolen tar vi for oss opplærings- og læremiddelsituasjonen med bakgrunn i kommentert statistikk og forskningsrapporter, og vi ser at det er stor variasjon på dette området. Denne variasjonen problematiseres i forhold til elevenes muligheter til å oppøve gode leseferdigheter på samisk.Nøkkelord: nasjonale prøver, lesing, samisk, nordsamisk, lulesamisk, sørsamisk, elevpopulasjon, prøveutviklingNational reading tests in Sámi languages – on which terms?AbstractFirst language Sámi speaking students in Norway receive separate Sámi-medium national literacy tests. Literacy tests are developed in North, Lule and South Sámi, and the tests are organized yearly for first language Sámi speaking students in grades 5, 8 and 9. In this article, we look at the background for the development of a separate Framework for national Sámi-medium literacy tests. We also examine conditions concerning the student population, and the situation regarding Sámi-medium instruction and Sámi-medium teaching materials; and how these factors affect the development and follow-up of the tests. The background for the national Sámi-medium literacy tests builds on an analysis of documentation produced in the period ranging from 2004, when the development of reading tests in Sámi started as a project, and up until today. We identify formal terms for the tests, determined by current legislation as well as national curricula. The examination of student population and test participation builds on available statistical material and on studies dealing with student numbers and Sámi-medium instruction in schools. We present new displays of material, where we compare numbers of students receiving Sámi-medium instruction with numbers of students registered as first language Sámi speakers. Based on studies and commented s","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47589118","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
I 2014 ble andre generasjon av de statlige kartleggingsprøvene i regning tatt i bruk på 1.–3. trinn i småskolen i Norge. Disse prøvene skal brukes til å identi-fisere elever som kan ha behov for ekstra oppfølging, og skal i tillegg brukes til vurdering for læring med identifiserte elever. Derfor er det mange enkle oppgaver på prøven, slik at lærerne skal få mye informasjon om hva disse elevene mestrer. Kartleggingsprøvene skal normalt ha en levetid på fem år, slik at innholdet i prøvene over tid blir godt kjent for skolene og lærerne. Hva vet vi om norske elevers tallforståelse og regneferdigheter etter fire gjennomføringer, og hvordan bruker lærerne prøvene? Innsamling av elevdata etter hver gjennomføring viser at andelen elever under bekymringsgrensen ikke har sunket i perioden 2014–2017. Elever under bekymringsgrensen viser at de mestrer enkle tellestrategier og at de er i ferd med å utvikle en mental tallinje, men også at de sannsynligvis bruker enkle og kanskje ikke hensiktsmessige regnestrategier. Dybdeintervjuer med sju lærere fra fire skoler viser at de er godt forberedt og påpasselige med å gjennomføre prøvene etter de retningslinjene Utdanningsdirektoratet har fastsatt, men at de strever med å tolke og følge opp resultatene. Enkelte lærere viser også holdninger til prøvene og kartlegging som tilsynelatende ikke er produktive med tanke på effektiv undervisning. Det antas at målrettet etterutdanning og verktøy som kan hjelpe lærere med å tolke data, vil kunne bidra til en positiv endring der prøveresultater i større grad tas i bruk og at dette på sikt vil føre til at færre elever skårer under bekymringsgrensen.Nøkkelord: kartleggingsprøver i regning, lærerholdninger, vurdering for læring, oppfølging, tallforståelse, regneferdigheter “This is a tool, isn’t it, for us to use?”Experiences from four implementations of the national mapping tests in numeracy in 2014–2017AbstractIn 2014, second generation national mapping tests of numeracy were imple-mented in primary grades 1–3 in Norway. These tests should be used to identify students who might benefit from extra teaching. In addition, test outcomes should be used for assessment for learning. To provide teachers with much information about identified students’ competence, the assessment comprises many easy items. The same mapping tests are normally used for five consecutive years to allow teachers insight into what the tests measure. What do we know about students’ concepts of numbers and calculation strategies after four implementations? How do teachers use insights from the assessments? Analysis of student data collected after each implementation reveals that the number of students identified has not decreased from 2014 to 2017. Students below the cut-off score master simple counting strategies and are in the process of developing a mental number line, but most likely use simple and perhaps unproductive calculation strategies. In-depth interviews with seven teachers from four schools reveal
{"title":"«Det er et verktøy, ikke sant, for oss» - Erfaringer fra fire gjennomføringer med kartleggingsprøver i regning 2014 - 2017","authors":"Guri A. Nortvedt","doi":"10.5617/ADNO.6383","DOIUrl":"https://doi.org/10.5617/ADNO.6383","url":null,"abstract":"I 2014 ble andre generasjon av de statlige kartleggingsprøvene i regning tatt i bruk på 1.–3. trinn i småskolen i Norge. Disse prøvene skal brukes til å identi-fisere elever som kan ha behov for ekstra oppfølging, og skal i tillegg brukes til vurdering for læring med identifiserte elever. Derfor er det mange enkle oppgaver på prøven, slik at lærerne skal få mye informasjon om hva disse elevene mestrer. Kartleggingsprøvene skal normalt ha en levetid på fem år, slik at innholdet i prøvene over tid blir godt kjent for skolene og lærerne. Hva vet vi om norske elevers tallforståelse og regneferdigheter etter fire gjennomføringer, og hvordan bruker lærerne prøvene? Innsamling av elevdata etter hver gjennomføring viser at andelen elever under bekymringsgrensen ikke har sunket i perioden 2014–2017. Elever under bekymringsgrensen viser at de mestrer enkle tellestrategier og at de er i ferd med å utvikle en mental tallinje, men også at de sannsynligvis bruker enkle og kanskje ikke hensiktsmessige regnestrategier. Dybdeintervjuer med sju lærere fra fire skoler viser at de er godt forberedt og påpasselige med å gjennomføre prøvene etter de retningslinjene Utdanningsdirektoratet har fastsatt, men at de strever med å tolke og følge opp resultatene. Enkelte lærere viser også holdninger til prøvene og kartlegging som tilsynelatende ikke er produktive med tanke på effektiv undervisning. Det antas at målrettet etterutdanning og verktøy som kan hjelpe lærere med å tolke data, vil kunne bidra til en positiv endring der prøveresultater i større grad tas i bruk og at dette på sikt vil føre til at færre elever skårer under bekymringsgrensen.Nøkkelord: kartleggingsprøver i regning, lærerholdninger, vurdering for læring, oppfølging, tallforståelse, regneferdigheter “This is a tool, isn’t it, for us to use?”Experiences from four implementations of the national mapping tests in numeracy in 2014–2017AbstractIn 2014, second generation national mapping tests of numeracy were imple-mented in primary grades 1–3 in Norway. These tests should be used to identify students who might benefit from extra teaching. In addition, test outcomes should be used for assessment for learning. To provide teachers with much information about identified students’ competence, the assessment comprises many easy items. The same mapping tests are normally used for five consecutive years to allow teachers insight into what the tests measure. What do we know about students’ concepts of numbers and calculation strategies after four implementations? How do teachers use insights from the assessments? Analysis of student data collected after each implementation reveals that the number of students identified has not decreased from 2014 to 2017. Students below the cut-off score master simple counting strategies and are in the process of developing a mental number line, but most likely use simple and perhaps unproductive calculation strategies. In-depth interviews with seven teachers from four schools reveal ","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" 640","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41251905","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Elever med utländsk bakgrund tenderar att prestera sämre än svenskfödda elever i skolan primärt på grund av sämre kunskaper i det svenska språket. Utifrån statistisk analys (Differential item functioning) identifieras uppgifter från de nationella proven i geografi (2014 – 2017) där elever som följer kursplanen i svenska som andraspråk klarar sig avsevärt mycket bättre - eller sämre - än förväntat. Tidigare forskning har visat att geografiska begrepp är särskilt svåra för elever som inte har svenska som modersmål, vilket också påvisas i denna studie. Den visar att det särskilt är uppgifter med lite text som handlar om geografiska begrepp som uppvisar större skillnader i prestationer mellan elever som följer kursplanen i svenska respektive svenska som andraspråk. Resultaten kan stödja såväl lärare som provkonstruktörer att bättre anpassa undervisning och prov genom att undvika att skapa uppgifter som mäter irrelevanta bakgrundsfaktorer som påverkar elevernas möjligheter att besvara uppgifter på ett adekvat vis utifrån deras kunskapsnivåer.Nyckelord: Nationella prov i geografi, uppgiftsformat, elever med utländsk bakgrund, svenskfödda elever, DIF-analysWhat types of test items benefit students who follow the syllabus in Swedish as a second language? A study using data from the Swedish national assessments in geography.AbstractPupils born outside Sweden are likely to accomplish less in comparison to native pupils, primarily as a result of inferior knowledge of the Swedish language. Based on a statistical analysis (Differential item functioning) of questions given at national tests in geography (2014-2017), it was possible to identify questions where pupils following the syllabus of Swedish as a second language attain either considerably better or more inferior results than expected. Earlier research has shown that pupils whose native language is not Swedish find it particularly hard to comprehend geographic concepts, which was confirmed by the present study. This study furthermore revealed that in particular questions containing a limited amount of text concerning geographic concepts resulted in larger differences than expected between native pupils following the syllabus in Swedish and foreign born pupils following the syllabus in Swedish as a second language. These findings could aid teachers and test constructors in their efforts to adjust teaching and tests by not formulating questions that measure irrelevant background factors, which might affect the pupils’ ability to answer questions adequately, based on their level of knowledge.Keywords: National tests in geography, question format, pupils born outside Sweden, Swedish-born pupils, DIF-analysis
{"title":"Vilka typer av uppgifter gynnar elever som följer kursplanen i svenska som andraspråk? En undersökning med data från de nationella proven i geografi.","authors":"Andreas Alm Fjellborg, Lena Molin","doi":"10.5617/ADNO.6286","DOIUrl":"https://doi.org/10.5617/ADNO.6286","url":null,"abstract":"Elever med utländsk bakgrund tenderar att prestera sämre än svenskfödda elever i skolan primärt på grund av sämre kunskaper i det svenska språket. Utifrån statistisk analys (Differential item functioning) identifieras uppgifter från de nationella proven i geografi (2014 – 2017) där elever som följer kursplanen i svenska som andraspråk klarar sig avsevärt mycket bättre - eller sämre - än förväntat. Tidigare forskning har visat att geografiska begrepp är särskilt svåra för elever som inte har svenska som modersmål, vilket också påvisas i denna studie. Den visar att det särskilt är uppgifter med lite text som handlar om geografiska begrepp som uppvisar större skillnader i prestationer mellan elever som följer kursplanen i svenska respektive svenska som andraspråk. Resultaten kan stödja såväl lärare som provkonstruktörer att bättre anpassa undervisning och prov genom att undvika att skapa uppgifter som mäter irrelevanta bakgrundsfaktorer som påverkar elevernas möjligheter att besvara uppgifter på ett adekvat vis utifrån deras kunskapsnivåer.Nyckelord: Nationella prov i geografi, uppgiftsformat, elever med utländsk bakgrund, svenskfödda elever, DIF-analysWhat types of test items benefit students who follow the syllabus in Swedish as a second language? A study using data from the Swedish national assessments in geography.AbstractPupils born outside Sweden are likely to accomplish less in comparison to native pupils, primarily as a result of inferior knowledge of the Swedish language. Based on a statistical analysis (Differential item functioning) of questions given at national tests in geography (2014-2017), it was possible to identify questions where pupils following the syllabus of Swedish as a second language attain either considerably better or more inferior results than expected. Earlier research has shown that pupils whose native language is not Swedish find it particularly hard to comprehend geographic concepts, which was confirmed by the present study. This study furthermore revealed that in particular questions containing a limited amount of text concerning geographic concepts resulted in larger differences than expected between native pupils following the syllabus in Swedish and foreign born pupils following the syllabus in Swedish as a second language. These findings could aid teachers and test constructors in their efforts to adjust teaching and tests by not formulating questions that measure irrelevant background factors, which might affect the pupils’ ability to answer questions adequately, based on their level of knowledge.Keywords: National tests in geography, question format, pupils born outside Sweden, Swedish-born pupils, DIF-analysis","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44896968","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Ett problem i bedömning av skrivprov är bristande samstämmighet mellan bedömare. Att fler än en person bedömer samma skrivprov är ett vanligt sätt att öka samstämmigheten, men denna metod är tidskrävande och kostsam. Ett automatiskt bedömningsverktyg, som ger bedömaren stöd på ett effektivt och förutsägbart sätt, vore därför ett användbart hjälpmedel. I artikeln presenteras en pilotundersökning inför ett framtida arbete med automatisk bedömning av skrivprov, där användbarheten av fyra olika textmått i automatisk bedömning undersöks: textlängd, ordlängd, ordvariationsindex och nominalkvot. Materialet utgörs av två korpusar med benchmarktexter från nationella prov, Np 1 och Np 3. Varje prov ges i två olika skolämnen, svenska och svenska som andraspråk. I analysen beräknas medel- och medianvärden samt korrelationer för textmåtten och texternas betyg. Resultatet visar att skillnaderna mellan textmåttens värden i de två korpusarna är relativt stora. I Np 3 uppmäts generellt högre värden för de fyra textmåtten än i Np 1. Vidare korrelerar samtliga undersökta textmått med betyg i Np 1, medan de textmått som visar starkast korrelation i Np 1 inte på ett signifikant sätt korrelerar med betyg i Np 3. Dessutom visar analysen att texter från ett av proven, som har samma betyg men har tillkommit inom olika svenskämnen, ligger nära varandra utifrån de objektiva textmåtten. I ett framtida arbete inför automatisk bedömning av skrivprov måste användningen av textmåtten anpassas till det specifika provet. Vidare bör en automatisk bedömning omfatta många fler textegenskaper än de som mäts med de undersökta måtten.Nyckelord: skrivbedömning, automatisk bedömning, nationella prov, elevtexter, bedömning i svenska och svenska som andraspråkAnalyzing Quantity in Qualitatively Assessed Student Texts – a Future Tool for Fair Assessment?AbstractIn assessing writing one problem is the lack of rater consistency. Letting more than one rater take part in the assessment of the same test is one way of improving rater consistency, but this method is time-consuming and expensive. A tool for automated assessment, giving the human rater support in an effective and predictable way, would therefore be useful. In this article a pilot study is presented, where the usefulness of four automatic text measures in the assessment of writing tests are investigated: text length, word length, word variation and nominal ratio. The data consists of two corpora with benchmark texts from two national tests, Np 1 and Np 3. Each test is given in both Swedish and Swedish as a second language. Mean and median values are calculated, as well as correlations for the text measures and the assessment grades of the texts. The results show important differences between the values of the text measures from the two tests. In Np 3 the values for text measures are generally higher than in Np 1. Further, the four text measures correlate significantly with grades in Np 1, but the measures correlating strongest in Np
{"title":"Kvantiteter i kvalitativt bedömda elevtexter – framtida verktyg för rättvis bedömning?","authors":"A. Palmér","doi":"10.5617/ADNO.6357","DOIUrl":"https://doi.org/10.5617/ADNO.6357","url":null,"abstract":"Ett problem i bedömning av skrivprov är bristande samstämmighet mellan bedömare. Att fler än en person bedömer samma skrivprov är ett vanligt sätt att öka samstämmigheten, men denna metod är tidskrävande och kostsam. Ett automatiskt bedömningsverktyg, som ger bedömaren stöd på ett effektivt och förutsägbart sätt, vore därför ett användbart hjälpmedel. I artikeln presenteras en pilotundersökning inför ett framtida arbete med automatisk bedömning av skrivprov, där användbarheten av fyra olika textmått i automatisk bedömning undersöks: textlängd, ordlängd, ordvariationsindex och nominalkvot. Materialet utgörs av två korpusar med benchmarktexter från nationella prov, Np 1 och Np 3. Varje prov ges i två olika skolämnen, svenska och svenska som andraspråk. I analysen beräknas medel- och medianvärden samt korrelationer för textmåtten och texternas betyg. Resultatet visar att skillnaderna mellan textmåttens värden i de två korpusarna är relativt stora. I Np 3 uppmäts generellt högre värden för de fyra textmåtten än i Np 1. Vidare korrelerar samtliga undersökta textmått med betyg i Np 1, medan de textmått som visar starkast korrelation i Np 1 inte på ett signifikant sätt korrelerar med betyg i Np 3. Dessutom visar analysen att texter från ett av proven, som har samma betyg men har tillkommit inom olika svenskämnen, ligger nära varandra utifrån de objektiva textmåtten. I ett framtida arbete inför automatisk bedömning av skrivprov måste användningen av textmåtten anpassas till det specifika provet. Vidare bör en automatisk bedömning omfatta många fler textegenskaper än de som mäts med de undersökta måtten.Nyckelord: skrivbedömning, automatisk bedömning, nationella prov, elevtexter, bedömning i svenska och svenska som andraspråkAnalyzing Quantity in Qualitatively Assessed Student Texts – a Future Tool for Fair Assessment?AbstractIn assessing writing one problem is the lack of rater consistency. Letting more than one rater take part in the assessment of the same test is one way of improving rater consistency, but this method is time-consuming and expensive. A tool for automated assessment, giving the human rater support in an effective and predictable way, would therefore be useful. In this article a pilot study is presented, where the usefulness of four automatic text measures in the assessment of writing tests are investigated: text length, word length, word variation and nominal ratio. The data consists of two corpora with benchmark texts from two national tests, Np 1 and Np 3. Each test is given in both Swedish and Swedish as a second language. Mean and median values are calculated, as well as correlations for the text measures and the assessment grades of the texts. The results show important differences between the values of the text measures from the two tests. In Np 3 the values for text measures are generally higher than in Np 1. Further, the four text measures correlate significantly with grades in Np 1, but the measures correlating strongest in Np ","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47237469","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Eva-Kristina Olsson, Sofia Nilsson, AnnaKarin Lindqvist
De nationella proven i engelska syftar till att stödja lärares betygssättning i svensk skola. Målsättningen i provutvecklingen är därför att konstruera prov med en så hög grad av validitet och reliabilitet som möjligt. Syftet med denna studie är, med utgångspunkt i Messick (1987, 1989), att undersöka och belysa på vilket sätt och i vilken utsträckning test-taker feedback kan bidra till provens validitet och reliabilitet. I en empirisk studie analyserades samvariation mellan elevers åsikter om läsförståelseuppgifter och det faktiska utfallet, det vill säga hur väl eleverna lyckades lösa uppgifterna. Data, som samlats in vid utprövning av nya uppgifter till det nationella provet i årskurs 9, bestod av feedback om nio läsförståelseuppgifter från cirka 400 elever per uppgift samt deras resultat på uppgiften. Analysen visar att elevers uppfattningar om hur bra uppgiften var, hur svår den var respektive hur väl de lyckades lösa den delvis samvarierar på ett statistiskt signifikant sätt med deras resultat när uppgiften poängsattes. Vidare visar resultaten att test-taker feedback kan tillföra värdefull information för att upptäcka om en uppgift tycks gynna någon grupp framför en annan. Informationen som test-taker feedback ger kan också bidra till stärkt validitet och reliabilitet om den exempelvis används för att sekvensera uppgifter utifrån upplevd svårighetsgrad eller för att sortera bort olämpliga uppgifter.Nyckelord: Test-taker feedback, läsförståelse, nationella prov, engelska, validitetThe use of test-taker feedback in the development of national tests of englishAbstractThe purpose of the national tests of English is to provide support for teachers’ grading of students in Swedish schools. Hence, the aim is to develop as valid and reliable tests as possible. Based on Messick (1987, 1989), the purpose of this study is to explore and illustrate in what ways and to what extent test-taker feedback may contribute to the validity and reliability of the tests. An empirical study was carried out, where the covariation between students’ opinions about reading comprehension tasks and their actual results were analysed. Data con¬sisted of test-taker feedback collected when trying out nine reading compre-hension tasks for the national test in grade 9 among 400 students per task, and of students’ results on the tasks. The analysis shows that the students’ opinions about the overall quality and the difficulty of the tasks, as well as their outcome expectancy after completing the tasks, covaried in a statistically significant way with their performance, when the tasks were marked. Furthermore, the results indicate that test-taker feedback may provide useful information related to bias. The information from test-taker feedback may also contribute to the validity and reliability of a test, for instance when used for sequencing tasks according to experienced level of difficulty or for sorting out less suitable tasks.Keywords: Test-taker feedback, reading comprehensi
{"title":"Test-taker feedback i utvecklingsprocessen av nationella prov i engelska","authors":"Eva-Kristina Olsson, Sofia Nilsson, AnnaKarin Lindqvist","doi":"10.5617/adno.6288","DOIUrl":"https://doi.org/10.5617/adno.6288","url":null,"abstract":"De nationella proven i engelska syftar till att stödja lärares betygssättning i svensk skola. Målsättningen i provutvecklingen är därför att konstruera prov med en så hög grad av validitet och reliabilitet som möjligt. Syftet med denna studie är, med utgångspunkt i Messick (1987, 1989), att undersöka och belysa på vilket sätt och i vilken utsträckning test-taker feedback kan bidra till provens validitet och reliabilitet. I en empirisk studie analyserades samvariation mellan elevers åsikter om läsförståelseuppgifter och det faktiska utfallet, det vill säga hur väl eleverna lyckades lösa uppgifterna. Data, som samlats in vid utprövning av nya uppgifter till det nationella provet i årskurs 9, bestod av feedback om nio läsförståelseuppgifter från cirka 400 elever per uppgift samt deras resultat på uppgiften. Analysen visar att elevers uppfattningar om hur bra uppgiften var, hur svår den var respektive hur väl de lyckades lösa den delvis samvarierar på ett statistiskt signifikant sätt med deras resultat när uppgiften poängsattes. Vidare visar resultaten att test-taker feedback kan tillföra värdefull information för att upptäcka om en uppgift tycks gynna någon grupp framför en annan. Informationen som test-taker feedback ger kan också bidra till stärkt validitet och reliabilitet om den exempelvis används för att sekvensera uppgifter utifrån upplevd svårighetsgrad eller för att sortera bort olämpliga uppgifter.Nyckelord: Test-taker feedback, läsförståelse, nationella prov, engelska, validitetThe use of test-taker feedback in the development of national tests of englishAbstractThe purpose of the national tests of English is to provide support for teachers’ grading of students in Swedish schools. Hence, the aim is to develop as valid and reliable tests as possible. Based on Messick (1987, 1989), the purpose of this study is to explore and illustrate in what ways and to what extent test-taker feedback may contribute to the validity and reliability of the tests. An empirical study was carried out, where the covariation between students’ opinions about reading comprehension tasks and their actual results were analysed. Data con¬sisted of test-taker feedback collected when trying out nine reading compre-hension tasks for the national test in grade 9 among 400 students per task, and of students’ results on the tasks. The analysis shows that the students’ opinions about the overall quality and the difficulty of the tasks, as well as their outcome expectancy after completing the tasks, covaried in a statistically significant way with their performance, when the tasks were marked. Furthermore, the results indicate that test-taker feedback may provide useful information related to bias. The information from test-taker feedback may also contribute to the validity and reliability of a test, for instance when used for sequencing tasks according to experienced level of difficulty or for sorting out less suitable tasks.Keywords: Test-taker feedback, reading comprehensi","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49364807","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
E. Moe, Hildegunn Lahlum Helness, Craig Grocott, Norman Verhelst
Formålet med denne artikkelen er å beskrive framgangsmåten som ble brukt for å bestemme kuttskårer (grenser) mellom tre nivåer i Det europeiske ramme-verket for språk (A2, B1 og B2) på to læringsstøttende lytteprøver i engelsk for Vg1-elever. Målet har vært å undersøke om det er mulig å etablere enighet om kuttskårene, og om standardsetterne som deltok i arbeidet fikk tilstrekkelig opp-læring på forhånd. Videre var det et mål å se på hvilke konsekvenser kuttskårene vil få for fordeling av elever på de ulike rammeverksnivåene. Standardsettingen ble gjennomført med utgangspunkt i pilotdata fra 3199 elever på Vg1, Cito-metoden og 16 panelmedlemmer med god kjennskap til Rammeverkets nivåer. Flere av panelmedlemmene var eller hadde vært lærere i engelsk for elever på 10. trinn eller Vg1. Cito-metoden fungerte bra for å etablere kuttskårer som standardsetterne var forholdsvis enige om. Sluttresultatene viser at målefeilen var relativt liten. Resultatene viser større enighet om kuttskåren mellom nivåene B1 og B2 enn mellom A2 og B1, og dette kan ha en sammenheng med at det ble brukt mer tid på forberedelsesarbeid for B1 og B2. Lærere i panelet som kjenner elevgruppa godt, mener at konsekvensen kutt-skåren har for fordeling av elever på de ulike rammeverksnivåene, stemmer med deres egen vurdering av elevenes lytteferdigheter.Nøkkelord: standardsetting, testsentrert metode, Cito-metoden, standard, kutt-skår, vippekandidatStandard setting for English tests for 11th grade students in NorwayAbstractThis article presents the process used to determine the cut scores between three levels of the Common European Framework of Reference for languages (A2, B1 and B2) for two English listening tests, taken by Norwegian pupils at the 11th grade. The aim was to establish whether agreement can be reached on cut scores and whether the standard setters received enough preparation before the event. Another aim was to examine the potential consequences the cut scores would have for the distribution of pupils across the different levels. The standard setting took place using pilot data from 3199 pupils, the Cito method and 16 panel members with a good knowledge of the framework levels. Some panel members were or had been 10th or 11th grade English teachers. The Cito method worked well for establishing cut scores with which the panel members mostly agreed. The results indicated a small margin of error. The results showed a higher level of agreement for the cut score between B1 and B2 than between A2 and B1, possibly connected to the longer preparation time dedicated to B1 and B2. Teachers on the panel with good knowledge of the pupil base believe that the consequences these cut scores have for the distribution of pupils, correlate with their own experiences of pupils' ability.Keywords: standard setting, test-centered method, the Cito method, standard, cut score, borderline person / minimally competent user
{"title":"Standardsetting av læringsstøttende prøver i engelsk for Vg1","authors":"E. Moe, Hildegunn Lahlum Helness, Craig Grocott, Norman Verhelst","doi":"10.5617/ADNO.6281","DOIUrl":"https://doi.org/10.5617/ADNO.6281","url":null,"abstract":"Formålet med denne artikkelen er å beskrive framgangsmåten som ble brukt for å bestemme kuttskårer (grenser) mellom tre nivåer i Det europeiske ramme-verket for språk (A2, B1 og B2) på to læringsstøttende lytteprøver i engelsk for Vg1-elever. Målet har vært å undersøke om det er mulig å etablere enighet om kuttskårene, og om standardsetterne som deltok i arbeidet fikk tilstrekkelig opp-læring på forhånd. Videre var det et mål å se på hvilke konsekvenser kuttskårene vil få for fordeling av elever på de ulike rammeverksnivåene. Standardsettingen ble gjennomført med utgangspunkt i pilotdata fra 3199 elever på Vg1, Cito-metoden og 16 panelmedlemmer med god kjennskap til Rammeverkets nivåer. Flere av panelmedlemmene var eller hadde vært lærere i engelsk for elever på 10. trinn eller Vg1. Cito-metoden fungerte bra for å etablere kuttskårer som standardsetterne var forholdsvis enige om. Sluttresultatene viser at målefeilen var relativt liten. Resultatene viser større enighet om kuttskåren mellom nivåene B1 og B2 enn mellom A2 og B1, og dette kan ha en sammenheng med at det ble brukt mer tid på forberedelsesarbeid for B1 og B2. Lærere i panelet som kjenner elevgruppa godt, mener at konsekvensen kutt-skåren har for fordeling av elever på de ulike rammeverksnivåene, stemmer med deres egen vurdering av elevenes lytteferdigheter.Nøkkelord: standardsetting, testsentrert metode, Cito-metoden, standard, kutt-skår, vippekandidatStandard setting for English tests for 11th grade students in NorwayAbstractThis article presents the process used to determine the cut scores between three levels of the Common European Framework of Reference for languages (A2, B1 and B2) for two English listening tests, taken by Norwegian pupils at the 11th grade. The aim was to establish whether agreement can be reached on cut scores and whether the standard setters received enough preparation before the event. Another aim was to examine the potential consequences the cut scores would have for the distribution of pupils across the different levels. The standard setting took place using pilot data from 3199 pupils, the Cito method and 16 panel members with a good knowledge of the framework levels. Some panel members were or had been 10th or 11th grade English teachers. The Cito method worked well for establishing cut scores with which the panel members mostly agreed. The results indicated a small margin of error. The results showed a higher level of agreement for the cut score between B1 and B2 than between A2 and B1, possibly connected to the longer preparation time dedicated to B1 and B2. Teachers on the panel with good knowledge of the pupil base believe that the consequences these cut scores have for the distribution of pupils, correlate with their own experiences of pupils' ability.Keywords: standard setting, test-centered method, the Cito method, standard, cut score, borderline person / minimally competent user","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47136370","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Sensorer vurderer skriftlige tekster ulikt, og menneskelig sensur er en utfordring for prøvers reliabilitet. Dette er en utfordring som Kompetanse Norge må ta høyde for i arbeidet med å utvikle og kvalitetssikre Norskprøven for voksne innvandrere. Denne artikkelen redegjør for hvordan den statistiske modellen Many-Facets Rasch Measurement (MFRM) er brukt til å undersøke sensorkorpsets reliabilitet ved sensurering av Norskprøvens delprøve i skriftlig framstilling for desemberavviklingen 2017. MFRM-modellen gir oss informasjon om hvor streng og pålitelig hver sensor er i vurderingen av kandidatbesvarelser. Analysen viser at det er klare forskjeller i strenghet innad i sensorkorpset, og at kandidatens endelige resultat kan være påvirket av hvilke sensorer som vurderer besvarelsen. Samtidig finner vi at de fleste av de 77 sensorene sensurerer stabilt og pålitelig, som vil si at de har høy intra-sensorreliabilitet. Dette viser at sensorkorpset i stor grad oppfyller målsetningen om sensorer som uavhengige eksperter med konsekvent vurderingsadferd. Avslutningsvis diskuteres utfordringene knyttet til begrensninger ved prøvens utforming for analyse av sensorreliabilitet. I lys av diskusjonen vurderer vi MFRM sin rolle og egnethet, og peker på noen utviklingsområder.Nøkkelord: norskprøve, skriftlig vurdering, reliabilitet, inter-sensorreliabilitet, intra-sensorreliabilitet, Many-Facet Rasch MeasurementNorwegian language test - Measuring rater reliability in the assessment of written presentationAbstractRaters assess written texts differently, and rater-mediated assessment is a challenge for test reliability. This is something Skills Norway has to take into consideration as test developer of the Norwegian test for adult immigrants. In this article, we demonstrate how the statistical model Many-Facets Rasch Measurement (MFRM) has been used to examine rater reliability in the written part of the test, using data from the December 2017 test. The MFRM model produces estimates on all raters in terms of severity and consistency. The results show large and significant variation in severity among the raters, and the candidates’ final results can be affected by which raters have assessed the test. Nevertheless, we find that most of the 77 raters assess consistently, showing high intra-rater reliability. This finding suggests that the raters, to a large degree, fulfil their role as independent experts with consistent rating behaviour. Finally, we discuss the challenges associated with the limitations of the test’s design, with respect to analysing rater reliability. We assess MFRM’s role and suitability, and identify possible areas of future study.Keywords: language testing, written assessment, rater-mediated assessment, inter-rater reliability, intra-rater reliability, Many-Facet Rasch Measurement
{"title":"Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling","authors":"Tor Midtbø, A. Rossow, B. Sagbakken","doi":"10.5617/ADNO.6358","DOIUrl":"https://doi.org/10.5617/ADNO.6358","url":null,"abstract":"Sensorer vurderer skriftlige tekster ulikt, og menneskelig sensur er en utfordring for prøvers reliabilitet. Dette er en utfordring som Kompetanse Norge må ta høyde for i arbeidet med å utvikle og kvalitetssikre Norskprøven for voksne innvandrere. Denne artikkelen redegjør for hvordan den statistiske modellen Many-Facets Rasch Measurement (MFRM) er brukt til å undersøke sensorkorpsets reliabilitet ved sensurering av Norskprøvens delprøve i skriftlig framstilling for desemberavviklingen 2017. MFRM-modellen gir oss informasjon om hvor streng og pålitelig hver sensor er i vurderingen av kandidatbesvarelser. Analysen viser at det er klare forskjeller i strenghet innad i sensorkorpset, og at kandidatens endelige resultat kan være påvirket av hvilke sensorer som vurderer besvarelsen. Samtidig finner vi at de fleste av de 77 sensorene sensurerer stabilt og pålitelig, som vil si at de har høy intra-sensorreliabilitet. Dette viser at sensorkorpset i stor grad oppfyller målsetningen om sensorer som uavhengige eksperter med konsekvent vurderingsadferd. Avslutningsvis diskuteres utfordringene knyttet til begrensninger ved prøvens utforming for analyse av sensorreliabilitet. I lys av diskusjonen vurderer vi MFRM sin rolle og egnethet, og peker på noen utviklingsområder.Nøkkelord: norskprøve, skriftlig vurdering, reliabilitet, inter-sensorreliabilitet, intra-sensorreliabilitet, Many-Facet Rasch MeasurementNorwegian language test - Measuring rater reliability in the assessment of written presentationAbstractRaters assess written texts differently, and rater-mediated assessment is a challenge for test reliability. This is something Skills Norway has to take into consideration as test developer of the Norwegian test for adult immigrants. In this article, we demonstrate how the statistical model Many-Facets Rasch Measurement (MFRM) has been used to examine rater reliability in the written part of the test, using data from the December 2017 test. The MFRM model produces estimates on all raters in terms of severity and consistency. The results show large and significant variation in severity among the raters, and the candidates’ final results can be affected by which raters have assessed the test. Nevertheless, we find that most of the 77 raters assess consistently, showing high intra-rater reliability. This finding suggests that the raters, to a large degree, fulfil their role as independent experts with consistent rating behaviour. Finally, we discuss the challenges associated with the limitations of the test’s design, with respect to analysing rater reliability. We assess MFRM’s role and suitability, and identify possible areas of future study.Keywords: language testing, written assessment, rater-mediated assessment, inter-rater reliability, intra-rater reliability, Many-Facet Rasch Measurement","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-11-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45629685","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Hovedformålet med studien var å undersøke effekten av å gi spesialpedagogikkstudenter undervisning og trening i å bruke felles vurderingskriterier i møte med tekstvurdering. Studien tar utgangspunkt i datamaterialet fra NORM-prosjektet, der et utvalg elevtekster har blitt samlet i et digitalt korpus (Berge et al., 2017). Førti spesialpedagogikkstudenter vurderte de samme fire elevtekstene fra Normkorpuset, to før og to etter intervensjonen. Hensikten var blant annet å undersøke om studentene hadde større grad av enighet i sine vurderinger etter intervensjonen. Resultatene viste at det ikke var signifikante forskjeller i grad av enighet før og etter intervensjonen på de fleste områdene. Det kan være flere årsaker til dette. For eksempel er det mulig at intervensjonen var for kortvarig eller at skalaen som brukes for å måle de ulike vurderingsområdene var for lite nyansert for å fange opp små endringer i studentenes vurderingsferdigheter. Studiens funn understreker at det er svært vanskelig å finne pålitelige vurderingsformer for elevtekster, og øke påliteligheten blant studenter gjennom trening i vurderingsområder og skriveforventinger. Det er et klart behov for mer forskning på hvordan en kan øke pålitelighet for tekstvurdering og finne didaktiske tilnærminger for å forbedre vurderingsevner blant studenter innen pedagogiske studier.Nøkkelord: skriving, vurdering, pålitelighet, skrivedidaktikk i høyere utdanningDoes training in a common set of assessment criteria lead to greater levels of agreement? A study of writing assessment as part of special educator preparationAbstractThe main goal of the study was to investigate whether teaching and training in a shared set of assessment criteria results in a greater degree of consistency in the assessment of writing performance. The study was based on data collected from the study “Developing national standards for writing. A tool for teaching and learning”, also known as the “the Norm project” (Berge et al., 2017). Forty preservice special educators rated the same 4 pupil-texts before and after an intervention consisting of lectures and seminars on writing norms and formal assessment criteria. The results showed no significant differences in agreement between students’ assessments before and after the intervention. There are several possible explanations for these findings. For example, the lack of change may be due to the limited scope of the intervention or connected to characteristics of the assessment tool. The findings also illustrate the difficulty associated with conducting reliable assessments of pupils’ writing and increasing the quality of preservice educators’ assessments through training. There is a clear need for more research on how to increase the reliability of writing assessment and find better approaches to improving the assessment abilities of future educational professionalsKeywords: writing, Assessment, Reliability, Teaching Assessment in Higher Education
该研究的主要目的是检验为特殊日托学生提供教学和培训,使其在文本评估会议中使用通用评估标准的效果。该研究基于NORM项目的数据材料,在该项目中,在数字语料库中收集了选出的学生文本(Berge et al.,2017)。40名特殊学生对来自北海岸的四名学生进行了评估,其中两名在干预前,两名在介入后。目的之一是检查学生在干预后的评估中是否有更大程度的一致性。结果显示,在大多数领域,干预前后的一致程度没有显著差异。这可能有几个原因。例如,干预措施太短,或者用于衡量不同评估领域的量表太小,无法捕捉学生评估技能的微小变化。该研究的发现表明,很难为学生文本找到可靠的评估表格,也很难通过评估领域的培训和处方期望来提高学生的可靠性。在教学研究中,显然需要进一步研究如何提高文本评估的可靠性,并找到提高学生评估能力的教学方法。关键词:写作、评估、可靠性、写作idact在一套通用的评估标准中进行培训会导致两个更高水平的一致性吗?作为特殊教育者准备工作一部分的写作评估研究摘要该研究的主要目标是调查在一套共享的评估标准中进行的教学和培训是否会使写作表现的评估更加一致。该研究基于从“制定国家写作标准。教学工具”研究中收集的数据,也称为“规范项目”(Berge et al.,2017)。40名职前特殊教育工作者在干预前后对同样的4篇学生课文进行了评分,干预包括关于写作规范和正式评估标准的讲座和研讨会。结果显示,干预前后学生评估的一致性没有显著差异。对这些发现有几种可能的解释。例如,缺乏变化可能是由于干预的范围有限,或者与评估工具的特点有关。研究结果还说明了对学生写作进行可靠评估和通过培训提高职前教育工作者评估质量的困难。如何提高写作评估的可靠性,找到更好的方法来提高未来教育专业人员的评估能力,显然需要更多的研究。关键词:高等教育中的写作、评估、可靠性、教学评估
{"title":"Fører opplæring i felles vurderingskriterier til større grad av enighet? En studie av tekstvurdering som en del av spesialpedagogutdanning.","authors":"M. Matre, David Lansing Cameron","doi":"10.5617/ADNO.6379","DOIUrl":"https://doi.org/10.5617/ADNO.6379","url":null,"abstract":"Hovedformålet med studien var å undersøke effekten av å gi spesialpedagogikkstudenter undervisning og trening i å bruke felles vurderingskriterier i møte med tekstvurdering. Studien tar utgangspunkt i datamaterialet fra NORM-prosjektet, der et utvalg elevtekster har blitt samlet i et digitalt korpus (Berge et al., 2017). Førti spesialpedagogikkstudenter vurderte de samme fire elevtekstene fra Normkorpuset, to før og to etter intervensjonen. Hensikten var blant annet å undersøke om studentene hadde større grad av enighet i sine vurderinger etter intervensjonen. Resultatene viste at det ikke var signifikante forskjeller i grad av enighet før og etter intervensjonen på de fleste områdene. Det kan være flere årsaker til dette. For eksempel er det mulig at intervensjonen var for kortvarig eller at skalaen som brukes for å måle de ulike vurderingsområdene var for lite nyansert for å fange opp små endringer i studentenes vurderingsferdigheter. Studiens funn understreker at det er svært vanskelig å finne pålitelige vurderingsformer for elevtekster, og øke påliteligheten blant studenter gjennom trening i vurderingsområder og skriveforventinger. Det er et klart behov for mer forskning på hvordan en kan øke pålitelighet for tekstvurdering og finne didaktiske tilnærminger for å forbedre vurderingsevner blant studenter innen pedagogiske studier.Nøkkelord: skriving, vurdering, pålitelighet, skrivedidaktikk i høyere utdanningDoes training in a common set of assessment criteria lead to greater levels of agreement? A study of writing assessment as part of special educator preparationAbstractThe main goal of the study was to investigate whether teaching and training in a shared set of assessment criteria results in a greater degree of consistency in the assessment of writing performance. The study was based on data collected from the study “Developing national standards for writing. A tool for teaching and learning”, also known as the “the Norm project” (Berge et al., 2017). Forty preservice special educators rated the same 4 pupil-texts before and after an intervention consisting of lectures and seminars on writing norms and formal assessment criteria. The results showed no significant differences in agreement between students’ assessments before and after the intervention. There are several possible explanations for these findings. For example, the lack of change may be due to the limited scope of the intervention or connected to characteristics of the assessment tool. The findings also illustrate the difficulty associated with conducting reliable assessments of pupils’ writing and increasing the quality of preservice educators’ assessments through training. There is a clear need for more research on how to increase the reliability of writing assessment and find better approaches to improving the assessment abilities of future educational professionalsKeywords: writing, Assessment, Reliability, Teaching Assessment in Higher Education","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-11-26","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47454763","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}