Acta Didactica Norge最新文献_第4页

Det första nationella provet i samhällskunskap - en studie i bedömarsamstämmighet 社会科学第一次全国性测试——评估者一致性研究

Q4 Social Sciences

Acta Didactica Norge

Pub Date : 2018-12-12 DOI: 10.5617/ADNO.6283

Arne Löfstedt

Skolämnet samhällskunskap som eget ämne existerar i princip enbart i de nordiska länderna. I många andra länder delar flera skolämnen på ämnesinnehållet, till exempel geografi och civics. Ämnesinnehållet är stort och genomgår ständig förändring. År 2013 genomfördes de första nationella proven i samhällskunskap i Sverige för årskurs 9. Med tanke på ämnets karaktär kan det vara speciellt viktigt att undersöka om dessa prov är ”rättvisa.” Avsikten med denna studie är att undersöka en aspekt av denna ”rättvisa”, nämligen interbedömarstabilitet, dvs om samma elevsvar ger upphov till samma bedömning oavsett bedömare. Skolverket i Sverige genomförde 2009 en större studie av de ämnen som då genomförde nationella prov och föreliggande studie försöker dels efterlikna och dels bygga ut upplägget från Skolverket. Studien genomfördes på de första nationella proven i samhällskunskap 2013. Genom att pröva olika reliabilitetsmått inom kategorierna ”consensus estimates”, och ”consistency estimates” analyseras resultaten, bland annat diskuteras måttet intraclass correlation. Syftet är också, då detta var de första proven, att skapa en ram för återkommande studier av Interbedömarreliabilitet. Upplägget med en större mängd lärare som genomför totalt tre bedömningar av de utvalda hela proven försöker också efterlikna bedömningssituationen ute på skolorna såtillvida att det var relativt många lärare med i studien, och de kom från olika skolor spridda över Sverige. Genom detta testas också bedömningsanvisningarnas stabilitet. Själva genomförandet var omfattande och tog två hela dagar. Resultaten pekar på en god överensstämmelse för provbetyget, det sammanfattande omdöme eleverna får. Studien avses att återupprepas under kommande år.Nyckelord: Samhällskunskap, nationella prov, interbedömarreliabilitet, intraclass correlationThe first national test in samhällskunskap – a study of interrater reliabilityAbstractThe Swedish school subject Samhällskunskap (Societal knowledge) exists basically only in the Nordic countries. In other countries a number of different subjects, such as geography and civics, share the content. The content of the subject is constantly changing, depending on how society is changing. The first national tests in Samhällskunskap for all Swedish ninth graders took place in 2013. A large part of the test contains constructed responses. Given the characteristics of the subject we consider it especially important to investigate whether these tests are “fair” or not. The intent of this study is to investigate one aspect of “fairness”, interrater reliability, meaning the degree to which the same student responses are scored equally by different raters. In 2009, the National Agency of Education in Sweden conducted a large study of the subjects Swedish, English and Mathematics. Our study aims to mimic and further develop the design of the study from 2009. Our study was carried out on the first national tests in 2013. The results were analyzed by exploring dif

原则上，社会科学作为它自己的学科只存在于北欧国家。在许多其他国家，一些学校科目共享科目内容，如地理和公民学。物质含量很大，并且在不断变化。2013年，瑞典对9年级学生进行了第一次全国社会科学测试。鉴于该物质的性质，检查这些测试是否“公平”可能尤为重要本研究的目的是调查这种“公平性”的一个方面，即评估者之间的稳定性，即无论评估者是谁，相同的学生反应是否会产生相同的评估。2009年，瑞典国家教育局对随后进行国家测试的科目进行了一项重大研究，本研究部分试图模仿，部分试图扩大国家教育局的结构。这项研究是在2013年第一次全国社会科学测试中进行的。通过测试“一致估计”和“一致性估计”类别中的不同可靠性测度，对结果进行了分析，包括测度组内相关性。由于这是第一次测试，目的也是为评估人之间责任的定期研究建立一个框架。由于研究中的教师相对较多，而且他们来自瑞典各地的不同学校，因此，对所选的整个测试总共进行三次评估的教师人数较多的结构也试图模仿学校的评估情况。这也测试了评估说明的稳定性。实际执行范围很广，花了整整两天时间。结果表明，学生的考试成绩和总结成绩很符合。这项研究将在未来几年重复进行。关键词：Samhällsvenska，nazionali prov，interassessarelabilitySamhäll svenska的第一次全国性测试——一项关于参与者间可靠性的研究摘要瑞典学校科目Samhèllsvnska（社会知识）基本上只存在于北欧国家。在其他国家，地理和公民学等许多不同的科目都有相同的内容。这个主题的内容是不断变化的，这取决于社会是如何变化的。2013年，瑞典九年级学生在Samhällskapskunft进行了第一次全国性考试。测试的很大一部分包含构建的响应。鉴于受试者的特点，我们认为调查这些测试是否“公平”尤为重要。这项研究的目的是调查“公平性”的一个方面，即评估者之间的可靠性，即同一学生的回答在不同的比率下得到同等分数的程度。2009年，瑞典国家教育局对瑞典语、英语和数学进行了一项大型研究。我们的研究旨在模仿并进一步发展2009年的研究设计。我们的研究是在2013年的第一次全国测试中进行的。通过探索类别一致性估计和一致性估计中的不同可靠性度量来分析结果。由于2013年的测试是瑞典首次进行此类测试，其目的也是为定期研究参与者之间的可靠性创建一个框架。该比率设计由来自全国各地的相对较多的教师组成，每个教师总共评估三个完整的学生测试答案，旨在模仿学校对测试的评估方式。这也使我们能够研究评估准则的稳定性。这项研究本身是广泛的，花了两天时间进行。结果表明，当涉及到考试的最终成绩时，有很大的依从性。这项研究将在未来几年重复进行。关键词：社会科学、公民学、国家测试、参与者间可靠性、类内相关性

{"title":"Det första nationella provet i samhällskunskap - en studie i bedömarsamstämmighet","authors":"Arne Löfstedt","doi":"10.5617/ADNO.6283","DOIUrl":"https://doi.org/10.5617/ADNO.6283","url":null,"abstract":"Skolämnet samhällskunskap som eget ämne existerar i princip enbart i de nordiska länderna. I många andra länder delar flera skolämnen på ämnesinnehållet, till exempel geografi och civics. Ämnesinnehållet är stort och genomgår ständig förändring. År 2013 genomfördes de första nationella proven i samhällskunskap i Sverige för årskurs 9. Med tanke på ämnets karaktär kan det vara speciellt viktigt att undersöka om dessa prov är ”rättvisa.” Avsikten med denna studie är att undersöka en aspekt av denna ”rättvisa”, nämligen interbedömarstabilitet, dvs om samma elevsvar ger upphov till samma bedömning oavsett bedömare. Skolverket i Sverige genomförde 2009 en större studie av de ämnen som då genomförde nationella prov och föreliggande studie försöker dels efterlikna och dels bygga ut upplägget från Skolverket. Studien genomfördes på de första nationella proven i samhällskunskap 2013. Genom att pröva olika reliabilitetsmått inom kategorierna ”consensus estimates”, och ”consistency estimates” analyseras resultaten, bland annat diskuteras måttet intraclass correlation. Syftet är också, då detta var de första proven, att skapa en ram för återkommande studier av Interbedömarreliabilitet. Upplägget med en större mängd lärare som genomför totalt tre bedömningar av de utvalda hela proven försöker också efterlikna bedömningssituationen ute på skolorna såtillvida att det var relativt många lärare med i studien, och de kom från olika skolor spridda över Sverige. Genom detta testas också bedömningsanvisningarnas stabilitet. Själva genomförandet var omfattande och tog två hela dagar. Resultaten pekar på en god överensstämmelse för provbetyget, det sammanfattande omdöme eleverna får. Studien avses att återupprepas under kommande år.Nyckelord: Samhällskunskap, nationella prov, interbedömarreliabilitet, intraclass correlationThe first national test in samhällskunskap – a study of interrater reliabilityAbstractThe Swedish school subject Samhällskunskap (Societal knowledge) exists basically only in the Nordic countries. In other countries a number of different subjects, such as geography and civics, share the content. The content of the subject is constantly changing, depending on how society is changing. The first national tests in Samhällskunskap for all Swedish ninth graders took place in 2013. A large part of the test contains constructed responses. Given the characteristics of the subject we consider it especially important to investigate whether these tests are “fair” or not. The intent of this study is to investigate one aspect of “fairness”, interrater reliability, meaning the degree to which the same student responses are scored equally by different raters. In 2009, the National Agency of Education in Sweden conducted a large study of the subjects Swedish, English and Mathematics. Our study aims to mimic and further develop the design of the study from 2009. Our study was carried out on the first national tests in 2013. The results were analyzed by exploring dif","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47543162","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Kartleggingsprøver i lesing - tid for nytenking? 肾思维的阅读时间收费实践？

Q4 Social Sciences

Acta Didactica Norge

Pub Date : 2018-12-12 DOI: 10.5617/adno.6499

Bente Rigmor Walgermo, Per Henning Uppstad, Kjersti Lundetræ, Finn Egil Tønnessen, OddnyJudith Solheim

Som en del av det Nasjonale kvalitetsvurderingssystemet for grunnopplæringen (NKVS) i norsk utdanning har vi i dag forskjellige leseprøver med ulikt formål og utforming for bruk i det 13-årige skoleløpet. I denne artikkelen tegner vi opp en historisk bakgrunn for innføringen av kartleggingsprøvene i lesing i begynneropplæringen, og peker på flere forhold som kaller på en nytenking av dette prøvekonseptet. I artikkelen viser vi ved hjelp av data fra en longitudinell studie hvordan en kort oppgave gjennomført i slutten av første klasse predikerer vansker med leseforståelse i 3. klasse. Med utgangspunkt i disse resultatene drøfter vi kimen til et mulig nytt prøvekonsept med potensiale for a) bedre samsvar mellom teori om lesing og måling av lesing, b) longitudinell prediksjon, og c) en prøve som kan gjennomføres på kortere tid med forbedret pedagogisk potensiale. Sentralt i dette forslaget står tanken om en kort inngangsprøve som oppfyller prøvens primære formål om å identifisere de elevene som står i fare for å utvikle vansker med lesing, fulgt av en utforskende del gjennomført en-til-en som gir læreren informasjon om hvordan vansken arter seg.Nøkkelord: kartleggingsprøver i lesing, longitudinell prediksjon, tidlig innsats, dysleksi, lese- og skrivevansker, intensiv opplæring. Is it time to rethink screening tests for Reading?AbstractAs part of the national quality assessment system in education, Norwegian schools use a variety of reading test with different purposes and designs. In this study we initially provide a historical background regarding the development and implementation of the first-grade screening tests for reading. Within this historical context, we point to the need for rethinking the overall design and philosophy of these tests. Using longitudinal study data, we empirically document how a short group-administered assessment task at the end of first grade predicts difficulties in reading comprehension at the end of third grade. Based on these results we discuss the development of a new design with potentially a) better concurrence of reading theory and reading measures, b) longitudinal prediction, c) a shorter test with better pedagogical potential. Central to this idea is a short initial task that can fulfil the primary purpose of the screening, followed by an explorative, observational aspect, implemented in a one-to-one manner, that would provide greater information regarding the nature of the difficulty.Keywords: screening tests for reading, longitudinal prediction, early efforts, dyslexia, reading and writing difficulties, special education

作为挪威国家教育质量评估系统（NKVS）的一部分，我们今天有不同的读者，他们有不同的目标和设计，可以在13岁的学校课程中使用。在这篇文章中，我们为最初的研究中引入映射试验绘制了一个历史背景，并指出了几个需要反映这一测试概念的关系。在这篇文章中，我们通过一项长期研究的数据显示，在第一节课结束时完成的一项短期任务如何预测第三节的阅读理解困难。班基于这些结果，我们将kimen引入一个可能的新测试概念，该概念有可能更好地与阅读和测量阅读的理论相一致，b）纵向预测，以及c）一个可以在更短的时间内进行的样本，并提高教学潜力。该提案的核心是一个简短的入门测试的想法，它实现了测试的主要目的，即识别有阅读困难危险的学生，然后由一个人进行调查，向老师提供难以具体说明的信息。关键词：阅读测试、长期预测、早期努力、阅读障碍、阅读和写作困难、强化训练。是时候重新考虑阅读的筛选测试了吗？摘要作为国家教育质量评估体系的一部分，挪威学校采用了各种不同目的和设计的阅读测试。在本研究中，我们首先提供了一个关于一年级阅读筛查测试的发展和实施的历史背景。在这一历史背景下，我们指出有必要重新思考这些测试的总体设计和哲学。使用纵向研究数据，我们实证记录了一年级末小组管理的短期评估任务如何预测三年级末的阅读理解困难。基于这些结果，我们讨论了一种新设计的开发，该设计可能具有a）更好地协调阅读理论和阅读测量，b）长期纵向预测，c）更短的测试，具有更好的教学潜力。这一想法的核心是一个简短的初始任务，可以实现筛查的主要目的，然后是一个探索性的、观察性的方面，以一对一的方式实施，这将提供更多关于困难性质的信息。关键词：阅读筛查、纵向预测、早期努力、阅读障碍、阅读和写作困难、特殊教育

{"title":"Kartleggingsprøver i lesing - tid for nytenking?","authors":"Bente Rigmor Walgermo, Per Henning Uppstad, Kjersti Lundetræ, Finn Egil Tønnessen, OddnyJudith Solheim","doi":"10.5617/adno.6499","DOIUrl":"https://doi.org/10.5617/adno.6499","url":null,"abstract":"Som en del av det Nasjonale kvalitetsvurderingssystemet for grunnopplæringen (NKVS) i norsk utdanning har vi i dag forskjellige leseprøver med ulikt formål og utforming for bruk i det 13-årige skoleløpet. I denne artikkelen tegner vi opp en historisk bakgrunn for innføringen av kartleggingsprøvene i lesing i begynneropplæringen, og peker på flere forhold som kaller på en nytenking av dette prøvekonseptet. I artikkelen viser vi ved hjelp av data fra en longitudinell studie hvordan en kort oppgave gjennomført i slutten av første klasse predikerer vansker med leseforståelse i 3. klasse. Med utgangspunkt i disse resultatene drøfter vi kimen til et mulig nytt prøvekonsept med potensiale for a) bedre samsvar mellom teori om lesing og måling av lesing, b) longitudinell prediksjon, og c) en prøve som kan gjennomføres på kortere tid med forbedret pedagogisk potensiale. Sentralt i dette forslaget står tanken om en kort inngangsprøve som oppfyller prøvens primære formål om å identifisere de elevene som står i fare for å utvikle vansker med lesing, fulgt av en utforskende del gjennomført en-til-en som gir læreren informasjon om hvordan vansken arter seg.Nøkkelord: kartleggingsprøver i lesing, longitudinell prediksjon, tidlig innsats, dysleksi, lese- og skrivevansker, intensiv opplæring. Is it time to rethink screening tests for Reading?AbstractAs part of the national quality assessment system in education, Norwegian schools use a variety of reading test with different purposes and designs. In this study we initially provide a historical background regarding the development and implementation of the first-grade screening tests for reading. Within this historical context, we point to the need for rethinking the overall design and philosophy of these tests. Using longitudinal study data, we empirically document how a short group-administered assessment task at the end of first grade predicts difficulties in reading comprehension at the end of third grade. Based on these results we discuss the development of a new design with potentially a) better concurrence of reading theory and reading measures, b) longitudinal prediction, c) a shorter test with better pedagogical potential. Central to this idea is a short initial task that can fulfil the primary purpose of the screening, followed by an explorative, observational aspect, implemented in a one-to-one manner, that would provide greater information regarding the nature of the difficulty.Keywords: screening tests for reading, longitudinal prediction, early efforts, dyslexia, reading and writing difficulties, special education","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"42708767","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 2

Nasjonale prøver i lesing på samisk - på hvilke vilkår? 国家社会术语阅读测试在什么条件下进行？

Q4 Social Sciences

Acta Didactica Norge

Pub Date : 2018-12-12 DOI: 10.5617/adno.6293

Marit B. Henriksen, Karen Inga Eira, Jan Henry Keskitalo, Kamil Øzerk

Tema for denne artikkelen er de nasjonale prøvene i lesing på samisk. Disse prøvene utformes på nord-, lule- og sørsamisk, og gjennomføres årlig for elever med samisk som førstespråk på 5., 8. og 9. klassetrinn. Problemstillingen om¬fatter bakgrunnen for utviklingen av et eget Rammeverk for nasjonale prøver i lesing samisk, forhold omkring elevpopulasjonen, samt forhold knyttet til opplærings- og læremiddelsituasjonen; og hvordan disse faktorene påvirker utforming og oppfølging av prøvene. Presentasjonen av bakgrunnen for de nasjonale prøvene i lesing på samisk bygger på analyse av dokumentasjon fra prøveutviklingsprosjektet fra og med 2004 og fram til i dag. Videre identifiserer vi premissene for prøvene ut fra gjeldende lovverk og læreplanverk. Undersøkelsen av elevpopulasjon og deltakelse bygger vi på analyse av tilgjengelig tallmateriale, kommentert statistikk og andre studier som tar for seg elevtall og opplæringssituasjonen for samiske elever. Vi legger her fram nye sammenstillinger av tallmaterialet, hvor vi ser på antall elever med samisk som opplæringsspråk i forhold til antall elever med samisk som førstespråk. I kapitlet om de nasjonale leseprøvene på samisk i møte med skolen tar vi for oss opplærings- og læremiddelsituasjonen med bakgrunn i kommentert statistikk og forskningsrapporter, og vi ser at det er stor variasjon på dette området. Denne variasjonen problematiseres i forhold til elevenes muligheter til å oppøve gode leseferdigheter på samisk.Nøkkelord: nasjonale prøver, lesing, samisk, nordsamisk, lulesamisk, sørsamisk, elevpopulasjon, prøveutviklingNational reading tests in Sámi languages – on which terms?AbstractFirst language Sámi speaking students in Norway receive separate Sámi-medium national literacy tests. Literacy tests are developed in North, Lule and South Sámi, and the tests are organized yearly for first language Sámi speaking students in grades 5, 8 and 9. In this article, we look at the background for the development of a separate Framework for national Sámi-medium literacy tests. We also examine conditions concerning the student population, and the situation regarding Sámi-medium instruction and Sámi-medium teaching materials; and how these factors affect the development and follow-up of the tests. The background for the national Sámi-medium literacy tests builds on an analysis of documentation produced in the period ranging from 2004, when the development of reading tests in Sámi started as a project, and up until today. We identify formal terms for the tests, determined by current legislation as well as national curricula. The examination of student population and test participation builds on available statistical material and on studies dealing with student numbers and Sámi-medium instruction in schools. We present new displays of material, where we compare numbers of students receiving Sámi-medium instruction with numbers of students registered as first language Sámi speakers. Based on studies and commented s

特马为本文提供的是萨米语的全国性阅读测试。这些测试是为北方语、摇篮曲和南方语设计的，每年为5.8级第一语言的学生进行。和9。班进展问题实现了为国家病变样本开发自己的Rammework的背景、与人口增加的关系以及与教育和医药产品的关系；以及这些因素如何影响测试的形成和后续行动。基于sami的研究中国家样本研究的背景介绍是基于对2004年至今测试开发项目文件的分析。此外，我们将从现行法律和教学平台中确定考试的先决条件。对学生人数和参与度的研究是基于对现有数字材料的分析、统计数据和其他研究，这些研究涉及学生人数和样本学生的培训条件。我们正在建立一个新的组合，将接受萨米语培训的学生人数与萨米语学生人数进行比较。在同一次学校会议上的全国阅读测试章节中，我们将培训和教育机构作为评论统计数据和研究报告的背景，我们看到这一领域存在巨大差异。这种变化与学生在社会中锻炼良好阅读技能的可能性有关。关键词：国家测试，阅读，萨米语，北萨米语，卢塞萨米语，南部，人口增加，测试发展萨米语国家阅读测试-在哪些方面？挪威讲萨米语的第一语言学生接受单独的萨米语国家识字测试。在北萨米、卢勒和南萨米开展识字测试，每年为5、8和9年级讲第一语言萨米语的学生组织测试。在这篇文章中，我们探讨了为国家萨米语媒介识字测试制定单独框架的背景。我们还审查了学生群体的情况，以及萨米语教学和萨米语教材的情况；以及这些因素如何影响测试的发展和后续行动。萨米语国家媒介识字测试的背景建立在对2004年期间产生的文件的分析之上，2004年萨米语阅读测试的开发开始作为一个项目，直到今天。我们确定了考试的正式术语，由现行立法和国家课程确定。对学生人数和考试参与情况的审查建立在现有统计材料和关于学生人数和学校萨米语教学的研究的基础上。我们展示了新的材料，将接受萨米语教学的学生人数与注册为母语为萨米语的学生人数进行了比较。根据研究和评论统计数据，我们将全国阅读测试的条件与学校的日常情况进行了比较。研究结果表明，萨米语教学的组织和可用的教材都存在很大的差异，我们讨论了这如何影响学生在萨米语中获得满意阅读技能的机会。关键词：国家测试、阅读、萨米语、北萨米语、卢勒萨米语、南萨米语、学生群体，“测试的发展Nationála geahčaleamit sámegiela lohkamis–makkár eavttuid vuoßul？čoahkkáigeassuNationála geahçáčalet sámegiela lohkamis leat dán artihkkala fáddán 3Geahčaleamit ráhkaduvojit davvi-，julev-ja lulisámegilli，jačačahuvojit jahkásač在5.，8。是的9。ceahki ohppiide geain lea sámegiella vuosttašgiellan。Artihkkalis泄漏gommaoasatčuolbma：Mii guorahallat duogáža man dihte lei dárbu sierra njuolggadusaide sámegiela lohkama nationalála geahčalemiid vast（Rammeverk代表national lesing samic），áš；ja mo buot dátášit víikkuhit geahčalemiid ráhkadeapmái jaçuovvulahttimii.kgmNationála geahčalemiid duogážačielggadeapmái在2004年租赁了一份文件。Dasto租赁了meroštallan geahčalemiid eavttuid gustovašlágaid ja oahppopánaid vuoßul。Ohppiidloguid ja oassálastima租赁了guorahallan almmolašmateriála vuočul，nu gočielggaduvvon statistichkka ja dutkamušat maid fáddán租赁了Ohppiidlog ut ja sámi ohppiid oahpahustilli。Dán oasis ovdanbuktit oßa vuogi在10月份的统计中贡献了自己的贡献，他是一位名叫galli oahppis lea sámegiella oahpahusgiella的男子。Viidáwaterapot mii guorahallat oahpahus-ja oahpponeavvodiličielggaduvvon统计和dutkanraporttaid vuoßul。 Čjehuvvo ahte leat stuora variašuvnnat oahpahus和oahpponeavvodilis，以及miiárvvoštallat mo dát variašidpopulationšuvdna，ohppiidlogut，geahčalemiid ráhkadepmi

{"title":"Nasjonale prøver i lesing på samisk - på hvilke vilkår?","authors":"Marit B. Henriksen, Karen Inga Eira, Jan Henry Keskitalo, Kamil Øzerk","doi":"10.5617/adno.6293","DOIUrl":"https://doi.org/10.5617/adno.6293","url":null,"abstract":"Tema for denne artikkelen er de nasjonale prøvene i lesing på samisk. Disse prøvene utformes på nord-, lule- og sørsamisk, og gjennomføres årlig for elever med samisk som førstespråk på 5., 8. og 9. klassetrinn. Problemstillingen om¬fatter bakgrunnen for utviklingen av et eget Rammeverk for nasjonale prøver i lesing samisk, forhold omkring elevpopulasjonen, samt forhold knyttet til opplærings- og læremiddelsituasjonen; og hvordan disse faktorene påvirker utforming og oppfølging av prøvene. Presentasjonen av bakgrunnen for de nasjonale prøvene i lesing på samisk bygger på analyse av dokumentasjon fra prøveutviklingsprosjektet fra og med 2004 og fram til i dag. Videre identifiserer vi premissene for prøvene ut fra gjeldende lovverk og læreplanverk. Undersøkelsen av elevpopulasjon og deltakelse bygger vi på analyse av tilgjengelig tallmateriale, kommentert statistikk og andre studier som tar for seg elevtall og opplæringssituasjonen for samiske elever. Vi legger her fram nye sammenstillinger av tallmaterialet, hvor vi ser på antall elever med samisk som opplæringsspråk i forhold til antall elever med samisk som førstespråk. I kapitlet om de nasjonale leseprøvene på samisk i møte med skolen tar vi for oss opplærings- og læremiddelsituasjonen med bakgrunn i kommentert statistikk og forskningsrapporter, og vi ser at det er stor variasjon på dette området. Denne variasjonen problematiseres i forhold til elevenes muligheter til å oppøve gode leseferdigheter på samisk.Nøkkelord: nasjonale prøver, lesing, samisk, nordsamisk, lulesamisk, sørsamisk, elevpopulasjon, prøveutviklingNational reading tests in Sámi languages – on which terms?AbstractFirst language Sámi speaking students in Norway receive separate Sámi-medium national literacy tests. Literacy tests are developed in North, Lule and South Sámi, and the tests are organized yearly for first language Sámi speaking students in grades 5, 8 and 9. In this article, we look at the background for the development of a separate Framework for national Sámi-medium literacy tests. We also examine conditions concerning the student population, and the situation regarding Sámi-medium instruction and Sámi-medium teaching materials; and how these factors affect the development and follow-up of the tests. The background for the national Sámi-medium literacy tests builds on an analysis of documentation produced in the period ranging from 2004, when the development of reading tests in Sámi started as a project, and up until today. We identify formal terms for the tests, determined by current legislation as well as national curricula. The examination of student population and test participation builds on available statistical material and on studies dealing with student numbers and Sámi-medium instruction in schools. We present new displays of material, where we compare numbers of students receiving Sámi-medium instruction with numbers of students registered as first language Sámi speakers. Based on studies and commented s","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47589118","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

«Det er et verktøy, ikke sant, for oss» - Erfaringer fra fire gjennomføringer med kartleggingsprøver i regning 2014 - 2017 “这是一个工具，不是吗，对我们来说”-2014-2017年法案中四次地图测试的经验

Q4 Social Sciences

Acta Didactica Norge

Pub Date : 2018-12-12 DOI: 10.5617/ADNO.6383

Guri A. Nortvedt

I 2014 ble andre generasjon av de statlige kartleggingsprøvene i regning tatt i bruk på 1.–3. trinn i småskolen i Norge. Disse prøvene skal brukes til å identi-fisere elever som kan ha behov for ekstra oppfølging, og skal i tillegg brukes til vurdering for læring med identifiserte elever. Derfor er det mange enkle oppgaver på prøven, slik at lærerne skal få mye informasjon om hva disse elevene mestrer. Kartleggingsprøvene skal normalt ha en levetid på fem år, slik at innholdet i prøvene over tid blir godt kjent for skolene og lærerne. Hva vet vi om norske elevers tallforståelse og regneferdigheter etter fire gjennomføringer, og hvordan bruker lærerne prøvene? Innsamling av elevdata etter hver gjennomføring viser at andelen elever under bekymringsgrensen ikke har sunket i perioden 2014–2017. Elever under bekymringsgrensen viser at de mestrer enkle tellestrategier og at de er i ferd med å utvikle en mental tallinje, men også at de sannsynligvis bruker enkle og kanskje ikke hensiktsmessige regnestrategier. Dybdeintervjuer med sju lærere fra fire skoler viser at de er godt forberedt og påpasselige med å gjennomføre prøvene etter de retningslinjene Utdanningsdirektoratet har fastsatt, men at de strever med å tolke og følge opp resultatene. Enkelte lærere viser også holdninger til prøvene og kartlegging som tilsynelatende ikke er produktive med tanke på effektiv undervisning. Det antas at målrettet etterutdanning og verktøy som kan hjelpe lærere med å tolke data, vil kunne bidra til en positiv endring der prøveresultater i større grad tas i bruk og at dette på sikt vil føre til at færre elever skårer under bekymringsgrensen.Nøkkelord: kartleggingsprøver i regning, lærerholdninger, vurdering for læring, oppfølging, tallforståelse, regneferdigheter “This is a tool, isn’t it, for us to use?”Experiences from four implementations of the national mapping tests in numeracy in 2014–2017AbstractIn 2014, second generation national mapping tests of numeracy were imple-mented in primary grades 1–3 in Norway. These tests should be used to identify students who might benefit from extra teaching. In addition, test outcomes should be used for assessment for learning. To provide teachers with much information about identified students’ competence, the assessment comprises many easy items. The same mapping tests are normally used for five consecutive years to allow teachers insight into what the tests measure. What do we know about students’ concepts of numbers and calculation strategies after four implementations? How do teachers use insights from the assessments? Analysis of student data collected after each implementation reveals that the number of students identified has not decreased from 2014 to 2017. Students below the cut-off score master simple counting strategies and are in the process of developing a mental number line, but most likely use simple and perhaps unproductive calculation strategies. In-depth interviews with seven teachers from four schools reveal

2014年，第二代州地图绘制试验以1-3进行。走进挪威的一所小学校。这些测试应用于识别可能需要额外随访的学生，并应用于评估已识别学生的研究。这就是为什么考试中有很多简单的任务，这样老师就可以获得很多关于这些学生掌握什么的信息。地图测试通常在五年内完成，因此随着时间的推移，测试的内容对学校和老师来说是众所周知的。我们对四次处决后挪威学生的理解和规定的数量了解多少？老师们是如何使用这些测试的？每次管理后的学生数据构成显示，在2014-2017年期间，关注范围内的学生比例没有下降。关注限制下的事件表明，他们正在掌握简单的倒计时率，他们即将发展出一个心理数字，但也表明他们可能使用了简单的，也许不合适的团率。Dybde对来自四所学校的七名教师的采访表明，他们已经做好了充分准备，适合在教育局成立后进行测试，但他们正在努力解释和跟踪结果。一些教师还表现出对测试和制图的态度，考虑到有效的教学，显然没有成效。据估计，有针对性的教育和工具可以帮助教师解释数据，这将有助于在测试结果被大量使用的情况下产生积极的变化，而这一目标将导致更少的学生被限制在关注范围内。关键词：雨中绘图测试、教师、学习评估、随访、高度理解、再生技能：“这是我们可以使用的工具，不是吗？”2014-2017年四次实施国家绘图测试的经验摘要2014年，挪威1-3年级采用了第二代国家绘图测试。这些测试应用于确定哪些学生可能从额外教学中受益。此外，测试结果应用于评估学习情况。为了向教师提供大量关于已确定学生能力的信息，评估包括许多简单的项目。同样的映射测试通常连续使用五年，让教师了解测试的测量结果。经过四次实施，我们对学生的数字概念和计算策略了解多少？教师如何利用评估中的见解？对每次实施后收集的学生数据的分析表明，从2014年到2017年，确定的学生人数没有减少。低于临界分数的学生掌握简单的计数策略，并正在发展心理数字线，但最有可能使用简单且可能没有成效的计算策略。对来自四所学校的七名教师进行的深入访谈显示，教师们已经做好了实施评估的充分准备，并注意遵守教育和培训局制定的国家指导方针。然而，他们很难解释和跟进测试结果。一些教师透露了对评估和绘图的看法，这似乎对有效的教学毫无成效。为教师提供的专业发展策略和工具，使他们能够解释测试数据，这可能有助于开发在更大程度上使用测试结果的实践，并从长远来看，导致得分低于截止分数的学生减少。

{"title":"«Det er et verktøy, ikke sant, for oss» - Erfaringer fra fire gjennomføringer med kartleggingsprøver i regning 2014 - 2017","authors":"Guri A. Nortvedt","doi":"10.5617/ADNO.6383","DOIUrl":"https://doi.org/10.5617/ADNO.6383","url":null,"abstract":"I 2014 ble andre generasjon av de statlige kartleggingsprøvene i regning tatt i bruk på 1.–3. trinn i småskolen i Norge. Disse prøvene skal brukes til å identi-fisere elever som kan ha behov for ekstra oppfølging, og skal i tillegg brukes til vurdering for læring med identifiserte elever. Derfor er det mange enkle oppgaver på prøven, slik at lærerne skal få mye informasjon om hva disse elevene mestrer. Kartleggingsprøvene skal normalt ha en levetid på fem år, slik at innholdet i prøvene over tid blir godt kjent for skolene og lærerne. Hva vet vi om norske elevers tallforståelse og regneferdigheter etter fire gjennomføringer, og hvordan bruker lærerne prøvene? Innsamling av elevdata etter hver gjennomføring viser at andelen elever under bekymringsgrensen ikke har sunket i perioden 2014–2017. Elever under bekymringsgrensen viser at de mestrer enkle tellestrategier og at de er i ferd med å utvikle en mental tallinje, men også at de sannsynligvis bruker enkle og kanskje ikke hensiktsmessige regnestrategier. Dybdeintervjuer med sju lærere fra fire skoler viser at de er godt forberedt og påpasselige med å gjennomføre prøvene etter de retningslinjene Utdanningsdirektoratet har fastsatt, men at de strever med å tolke og følge opp resultatene. Enkelte lærere viser også holdninger til prøvene og kartlegging som tilsynelatende ikke er produktive med tanke på effektiv undervisning. Det antas at målrettet etterutdanning og verktøy som kan hjelpe lærere med å tolke data, vil kunne bidra til en positiv endring der prøveresultater i større grad tas i bruk og at dette på sikt vil føre til at færre elever skårer under bekymringsgrensen.Nøkkelord: kartleggingsprøver i regning, lærerholdninger, vurdering for læring, oppfølging, tallforståelse, regneferdigheter “This is a tool, isn’t it, for us to use?”Experiences from four implementations of the national mapping tests in numeracy in 2014–2017AbstractIn 2014, second generation national mapping tests of numeracy were imple-mented in primary grades 1–3 in Norway. These tests should be used to identify students who might benefit from extra teaching. In addition, test outcomes should be used for assessment for learning. To provide teachers with much information about identified students’ competence, the assessment comprises many easy items. The same mapping tests are normally used for five consecutive years to allow teachers insight into what the tests measure. What do we know about students’ concepts of numbers and calculation strategies after four implementations? How do teachers use insights from the assessments? Analysis of student data collected after each implementation reveals that the number of students identified has not decreased from 2014 to 2017. Students below the cut-off score master simple counting strategies and are in the process of developing a mental number line, but most likely use simple and perhaps unproductive calculation strategies. In-depth interviews with seven teachers from four schools reveal ","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" 640","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41251905","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 3

Vilka typer av uppgifter gynnar elever som följer kursplanen i svenska som andraspråk? En undersökning med data från de nationella proven i geografi. 哪些类型的作业有利于以瑞典语作为第二语言遵循教学大纲的学生？一项利用国家地理测试数据进行的调查。

Q4 Social Sciences

Acta Didactica Norge

Pub Date : 2018-12-12 DOI: 10.5617/ADNO.6286

Andreas Alm Fjellborg, Lena Molin

Elever med utländsk bakgrund tenderar att prestera sämre än svenskfödda elever i skolan primärt på grund av sämre kunskaper i det svenska språket. Utifrån statistisk analys (Differential item functioning) identifieras uppgifter från de nationella proven i geografi (2014 – 2017) där elever som följer kursplanen i svenska som andraspråk klarar sig avsevärt mycket bättre - eller sämre - än förväntat. Tidigare forskning har visat att geografiska begrepp är särskilt svåra för elever som inte har svenska som modersmål, vilket också påvisas i denna studie. Den visar att det särskilt är uppgifter med lite text som handlar om geografiska begrepp som uppvisar större skillnader i prestationer mellan elever som följer kursplanen i svenska respektive svenska som andraspråk. Resultaten kan stödja såväl lärare som provkonstruktörer att bättre anpassa undervisning och prov genom att undvika att skapa uppgifter som mäter irrelevanta bakgrundsfaktorer som påverkar elevernas möjligheter att besvara uppgifter på ett adekvat vis utifrån deras kunskapsnivåer.Nyckelord: Nationella prov i geografi, uppgiftsformat, elever med utländsk bakgrund, svenskfödda elever, DIF-analysWhat types of test items benefit students who follow the syllabus in Swedish as a second language? A study using data from the Swedish national assessments in geography.AbstractPupils born outside Sweden are likely to accomplish less in comparison to native pupils, primarily as a result of inferior knowledge of the Swedish language. Based on a statistical analysis (Differential item functioning) of questions given at national tests in geography (2014-2017), it was possible to identify questions where pupils following the syllabus of Swedish as a second language attain either considerably better or more inferior results than expected. Earlier research has shown that pupils whose native language is not Swedish find it particularly hard to comprehend geographic concepts, which was confirmed by the present study. This study furthermore revealed that in particular questions containing a limited amount of text concerning geographic concepts resulted in larger differences than expected between native pupils following the syllabus in Swedish and foreign born pupils following the syllabus in Swedish as a second language. These findings could aid teachers and test constructors in their efforts to adjust teaching and tests by not formulating questions that measure irrelevant background factors, which might affect the pupils’ ability to answer questions adequately, based on their level of knowledge.Keywords: National tests in geography, question format, pupils born outside Sweden, Swedish-born pupils, DIF-analysis

有外国背景的学生在学校的表现往往比瑞典出生的学生差，主要是因为他们对瑞典语的了解不够。根据统计分析（差异项目功能），从国家地理考试（2014-2017）中确定了数据，在这些考试中，以瑞典语作为第二语言的学生表现明显好于或差于预期。先前的研究表明，对于母语不是瑞典语的学生来说，地理概念尤其困难，这一点在本研究中也得到了证明。研究表明，尤其是涉及地理概念的文本很少的任务，在使用瑞典语和瑞典语作为第二语言的教学大纲的学生之间表现出更大的差异。研究结果可以支持教师和考试设计者更好地适应教学和考试，避免创建测量不相关背景因素的任务，这些因素会影响学生根据知识水平以适当的方式回答作业的能力。DIF分析哪些类型的测试项目有利于将瑞典语作为第二语言遵循教学大纲的学生？一项使用瑞典国家地理评估数据的研究。摘要与本国学生相比，出生在瑞典境外的学生可能不那么复杂，这主要是因为他们对瑞典语的了解程度较低。根据对2014-2017年国家地理考试中的问题进行的统计分析（差异项目功能），可以确定学生按照瑞典语作为第二语言的教学大纲获得的成绩比预期好得多或差得多的问题。早期研究表明，母语不是瑞典语的学生发现理解地理概念特别困难，本研究证实了这一点。这项研究进一步表明，特别是涉及地理概念的文本数量有限的问题，导致遵循瑞典语教学大纲的本地学生与遵循瑞典文教学大纲作为第二语言的外国出生学生之间的差异比预期的要大。这些发现可以帮助教师和考试建设者调整教学和考试，因为他们不制定衡量不相关背景因素的问题，而这些背景因素可能会影响学生根据知识水平充分回答问题的能力。关键词：国家地理考试，题目格式，瑞典以外出生的学生，瑞典出生的学生；DIF分析

{"title":"Vilka typer av uppgifter gynnar elever som följer kursplanen i svenska som andraspråk? En undersökning med data från de nationella proven i geografi.","authors":"Andreas Alm Fjellborg, Lena Molin","doi":"10.5617/ADNO.6286","DOIUrl":"https://doi.org/10.5617/ADNO.6286","url":null,"abstract":"Elever med utländsk bakgrund tenderar att prestera sämre än svenskfödda elever i skolan primärt på grund av sämre kunskaper i det svenska språket. Utifrån statistisk analys (Differential item functioning) identifieras uppgifter från de nationella proven i geografi (2014 – 2017) där elever som följer kursplanen i svenska som andraspråk klarar sig avsevärt mycket bättre - eller sämre - än förväntat. Tidigare forskning har visat att geografiska begrepp är särskilt svåra för elever som inte har svenska som modersmål, vilket också påvisas i denna studie. Den visar att det särskilt är uppgifter med lite text som handlar om geografiska begrepp som uppvisar större skillnader i prestationer mellan elever som följer kursplanen i svenska respektive svenska som andraspråk. Resultaten kan stödja såväl lärare som provkonstruktörer att bättre anpassa undervisning och prov genom att undvika att skapa uppgifter som mäter irrelevanta bakgrundsfaktorer som påverkar elevernas möjligheter att besvara uppgifter på ett adekvat vis utifrån deras kunskapsnivåer.Nyckelord: Nationella prov i geografi, uppgiftsformat, elever med utländsk bakgrund, svenskfödda elever, DIF-analysWhat types of test items benefit students who follow the syllabus in Swedish as a second language? A study using data from the Swedish national assessments in geography.AbstractPupils born outside Sweden are likely to accomplish less in comparison to native pupils, primarily as a result of inferior knowledge of the Swedish language. Based on a statistical analysis (Differential item functioning) of questions given at national tests in geography (2014-2017), it was possible to identify questions where pupils following the syllabus of Swedish as a second language attain either considerably better or more inferior results than expected. Earlier research has shown that pupils whose native language is not Swedish find it particularly hard to comprehend geographic concepts, which was confirmed by the present study. This study furthermore revealed that in particular questions containing a limited amount of text concerning geographic concepts resulted in larger differences than expected between native pupils following the syllabus in Swedish and foreign born pupils following the syllabus in Swedish as a second language. These findings could aid teachers and test constructors in their efforts to adjust teaching and tests by not formulating questions that measure irrelevant background factors, which might affect the pupils’ ability to answer questions adequately, based on their level of knowledge.Keywords: National tests in geography, question format, pupils born outside Sweden, Swedish-born pupils, DIF-analysis","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44896968","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Kvantiteter i kvalitativt bedömda elevtexter – framtida verktyg för rättvis bedömning? 定性评估的学生文本中的数量——未来公平评估的工具？

Q4 Social Sciences

Acta Didactica Norge

Pub Date : 2018-12-12 DOI: 10.5617/ADNO.6357

A. Palmér

Ett problem i bedömning av skrivprov är bristande samstämmighet mellan bedömare. Att fler än en person bedömer samma skrivprov är ett vanligt sätt att öka samstämmigheten, men denna metod är tidskrävande och kostsam. Ett automatiskt bedömningsverktyg, som ger bedömaren stöd på ett effektivt och förutsägbart sätt, vore därför ett användbart hjälpmedel. I artikeln presenteras en pilotundersökning inför ett framtida arbete med automatisk bedömning av skrivprov, där användbarheten av fyra olika textmått i automatisk bedömning undersöks: textlängd, ordlängd, ordvariationsindex och nominalkvot. Materialet utgörs av två korpusar med benchmarktexter från nationella prov, Np 1 och Np 3. Varje prov ges i två olika skolämnen, svenska och svenska som andraspråk. I analysen beräknas medel- och medianvärden samt korrelationer för textmåtten och texternas betyg. Resultatet visar att skillnaderna mellan textmåttens värden i de två korpusarna är relativt stora. I Np 3 uppmäts generellt högre värden för de fyra textmåtten än i Np 1. Vidare korrelerar samtliga undersökta textmått med betyg i Np 1, medan de textmått som visar starkast korrelation i Np 1 inte på ett signifikant sätt korrelerar med betyg i Np 3. Dessutom visar analysen att texter från ett av proven, som har samma betyg men har tillkommit inom olika svenskämnen, ligger nära varandra utifrån de objektiva textmåtten. I ett framtida arbete inför automatisk bedömning av skrivprov måste användningen av textmåtten anpassas till det specifika provet. Vidare bör en automatisk bedömning omfatta många fler textegenskaper än de som mäts med de undersökta måtten.Nyckelord: skrivbedömning, automatisk bedömning, nationella prov, elevtexter, bedömning i svenska och svenska som andraspråkAnalyzing Quantity in Qualitatively Assessed Student Texts – a Future Tool for Fair Assessment?AbstractIn assessing writing one problem is the lack of rater consistency. Letting more than one rater take part in the assessment of the same test is one way of improving rater consistency, but this method is time-consuming and expensive. A tool for automated assessment, giving the human rater support in an effective and predictable way, would therefore be useful. In this article a pilot study is presented, where the usefulness of four automatic text measures in the assessment of writing tests are investigated: text length, word length, word variation and nominal ratio. The data consists of two corpora with benchmark texts from two national tests, Np 1 and Np 3. Each test is given in both Swedish and Swedish as a second language. Mean and median values are calculated, as well as correlations for the text measures and the assessment grades of the texts. The results show important differences between the values of the text measures from the two tests. In Np 3 the values for text measures are generally higher than in Np 1. Further, the four text measures correlate significantly with grades in Np 1, but the measures correlating strongest in Np

笔试评估中的一个问题是评估员之间缺乏一致性。多人评估同一考试是提高一致性的常见方法，但这种方法耗时且成本高昂。因此，为评估员提供有效和可预测支持的自动评估工具将是一个有用的工具。本文为未来打字测试的自动评估工作提供了一项试点研究，研究了四种不同的文本测量方法在自动评估中的有用性：文本长度、单词长度、单词变异指数和名词比率。该材料由两个语料库组成，其中包含来自国家测试的基准文本，Np1和Np3。每次考试分为两门不同的学校科目，瑞典语和瑞典语作为第二语言。该分析计算文本测量和文本评级的平均值和中值以及相关性。结果表明，两个语料库中的文本维度值差异较大。在Np3中，四个文本维度的测量值通常高于Np1。此外，所有研究的文本测量都与Np1中的等级相关，而在Np1中表现出最强相关性的文本测量与Np3中的等级没有显著相关性。此外，分析表明，根据客观的文本测量，其中一项测试的文本是接近的，这些测试的成绩相同，但被添加到了不同的瑞典语科目中。在未来的笔迹测试自动评估工作中，文本测量的使用必须适应特定的测试。此外，自动评估应该包括比被检查测量更多的文本属性。关键词：书面评估、自动评估、国家测试、学生文本、瑞典语和瑞典语作为第二语言的评估。分析质量评估学生文本中的数量——未来公平评估的工具？摘要在评估写作时，一个问题是缺乏评分的一致性。让多个比率参与同一测试的评估是提高比率一致性的一种方法，但这种方法耗时且昂贵。因此，一种自动评估工具，以有效和可预测的方式提供人工费率支持，将是有用的。本文进行了一项初步研究，研究了四种自动文本测量方法在写作测试评估中的有用性：文本长度、单词长度、单词变异和名词比例。数据由两个语料库组成，其中包含来自两个国家测试的基准文本，Np1和Np3。每项测试都以瑞典语和瑞典语作为第二语言。计算平均值和中值，以及文本测量和文本评估等级的相关性。结果显示，两次测试的文本测量值之间存在重要差异。在Np3中，文本度量的值通常高于Np1中的值。此外，四个文本测量值与Np1中的成绩显著相关，但在Np1中相关性最强的测量值在Np3中没有显示出显著的相关性。在其中一项测试中，根据文本测量，评估等级相同但学校科目不同的文本非常相似。结论是，自动化评估工具必须适应特定的写作测试。此外，自动化评估应该包括对比本研究重点更多的文本质量的分析。关键词：评估写作、自动评估、国家测试、学生文本、瑞典语和瑞典语作为第二语言的评估

{"title":"Kvantiteter i kvalitativt bedömda elevtexter – framtida verktyg för rättvis bedömning?","authors":"A. Palmér","doi":"10.5617/ADNO.6357","DOIUrl":"https://doi.org/10.5617/ADNO.6357","url":null,"abstract":"Ett problem i bedömning av skrivprov är bristande samstämmighet mellan bedömare. Att fler än en person bedömer samma skrivprov är ett vanligt sätt att öka samstämmigheten, men denna metod är tidskrävande och kostsam. Ett automatiskt bedömningsverktyg, som ger bedömaren stöd på ett effektivt och förutsägbart sätt, vore därför ett användbart hjälpmedel. I artikeln presenteras en pilotundersökning inför ett framtida arbete med automatisk bedömning av skrivprov, där användbarheten av fyra olika textmått i automatisk bedömning undersöks: textlängd, ordlängd, ordvariationsindex och nominalkvot. Materialet utgörs av två korpusar med benchmarktexter från nationella prov, Np 1 och Np 3. Varje prov ges i två olika skolämnen, svenska och svenska som andraspråk. I analysen beräknas medel- och medianvärden samt korrelationer för textmåtten och texternas betyg. Resultatet visar att skillnaderna mellan textmåttens värden i de två korpusarna är relativt stora. I Np 3 uppmäts generellt högre värden för de fyra textmåtten än i Np 1. Vidare korrelerar samtliga undersökta textmått med betyg i Np 1, medan de textmått som visar starkast korrelation i Np 1 inte på ett signifikant sätt korrelerar med betyg i Np 3. Dessutom visar analysen att texter från ett av proven, som har samma betyg men har tillkommit inom olika svenskämnen, ligger nära varandra utifrån de objektiva textmåtten. I ett framtida arbete inför automatisk bedömning av skrivprov måste användningen av textmåtten anpassas till det specifika provet. Vidare bör en automatisk bedömning omfatta många fler textegenskaper än de som mäts med de undersökta måtten.Nyckelord: skrivbedömning, automatisk bedömning, nationella prov, elevtexter, bedömning i svenska och svenska som andraspråkAnalyzing Quantity in Qualitatively Assessed Student Texts – a Future Tool for Fair Assessment?AbstractIn assessing writing one problem is the lack of rater consistency. Letting more than one rater take part in the assessment of the same test is one way of improving rater consistency, but this method is time-consuming and expensive. A tool for automated assessment, giving the human rater support in an effective and predictable way, would therefore be useful. In this article a pilot study is presented, where the usefulness of four automatic text measures in the assessment of writing tests are investigated: text length, word length, word variation and nominal ratio. The data consists of two corpora with benchmark texts from two national tests, Np 1 and Np 3. Each test is given in both Swedish and Swedish as a second language. Mean and median values are calculated, as well as correlations for the text measures and the assessment grades of the texts. The results show important differences between the values of the text measures from the two tests. In Np 3 the values for text measures are generally higher than in Np 1. Further, the four text measures correlate significantly with grades in Np 1, but the measures correlating strongest in Np ","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47237469","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

Test-taker feedback i utvecklingsprocessen av nationella prov i engelska 国家英语考试发展过程中的考生反馈

Q4 Social Sciences

Acta Didactica Norge

Pub Date : 2018-12-12 DOI: 10.5617/adno.6288

Eva-Kristina Olsson, Sofia Nilsson, AnnaKarin Lindqvist

De nationella proven i engelska syftar till att stödja lärares betygssättning i svensk skola. Målsättningen i provutvecklingen är därför att konstruera prov med en så hög grad av validitet och reliabilitet som möjligt. Syftet med denna studie är, med utgångspunkt i Messick (1987, 1989), att undersöka och belysa på vilket sätt och i vilken utsträckning test-taker feedback kan bidra till provens validitet och reliabilitet. I en empirisk studie analyserades samvariation mellan elevers åsikter om läsförståelseuppgifter och det faktiska utfallet, det vill säga hur väl eleverna lyckades lösa uppgifterna. Data, som samlats in vid utprövning av nya uppgifter till det nationella provet i årskurs 9, bestod av feedback om nio läsförståelseuppgifter från cirka 400 elever per uppgift samt deras resultat på uppgiften. Analysen visar att elevers uppfattningar om hur bra uppgiften var, hur svår den var respektive hur väl de lyckades lösa den delvis samvarierar på ett statistiskt signifikant sätt med deras resultat när uppgiften poängsattes. Vidare visar resultaten att test-taker feedback kan tillföra värdefull information för att upptäcka om en uppgift tycks gynna någon grupp framför en annan. Informationen som test-taker feedback ger kan också bidra till stärkt validitet och reliabilitet om den exempelvis används för att sekvensera uppgifter utifrån upplevd svårighetsgrad eller för att sortera bort olämpliga uppgifter.Nyckelord: Test-taker feedback, läsförståelse, nationella prov, engelska, validitetThe use of test-taker feedback in the development of national tests of englishAbstractThe purpose of the national tests of English is to provide support for teachers’ grading of students in Swedish schools. Hence, the aim is to develop as valid and reliable tests as possible. Based on Messick (1987, 1989), the purpose of this study is to explore and illustrate in what ways and to what extent test-taker feedback may contribute to the validity and reliability of the tests. An empirical study was carried out, where the covariation between students’ opinions about reading comprehension tasks and their actual results were analysed. Data con¬sisted of test-taker feedback collected when trying out nine reading compre-hension tasks for the national test in grade 9 among 400 students per task, and of students’ results on the tasks. The analysis shows that the students’ opinions about the overall quality and the difficulty of the tasks, as well as their outcome expectancy after completing the tasks, covaried in a statistically significant way with their performance, when the tasks were marked. Furthermore, the results indicate that test-taker feedback may provide useful information related to bias. The information from test-taker feedback may also contribute to the validity and reliability of a test, for instance when used for sequencing tasks according to experienced level of difficulty or for sorting out less suitable tasks.Keywords: Test-taker feedback, reading comprehensi

全国英语考试旨在支持瑞典学校教师的评分。因此，测试开发的目标是构建具有尽可能高的有效性和可靠性的样本。本研究的目的是基于Messick（19871989），调查并阐明受试者的反馈以何种方式和在多大程度上有助于测试的有效性和可靠性。在一项实证研究中，分析了学生对阅读理解任务的看法与实际结果之间的共同变化，即学生解决任务的能力。在九年级全国考试中尝试新任务时收集的数据包括每个作业约400名学生对九项阅读理解任务的反馈以及他们在作业中的成绩。分析表明，学生们对任务有多好、有多难以及他们解决问题的能力的看法在统计上与他们在任务评分时的结果部分一致。此外，研究结果表明，考生的反馈可以提供有价值的信息，以检测一项任务是否对一组人有利。如果考生反馈提供的信息被用于例如根据感知的难度对任务进行排序或整理不合适的任务，那么它也有助于提高有效性和可靠性。在国家英语测试发展中使用考生反馈摘要国家英语测试的目的是为瑞典学校教师对学生的评分提供支持。因此，目的是开发尽可能有效和可靠的测试。基于Messick（19871989），本研究的目的是探索和说明受试者的反馈以何种方式和在多大程度上有助于测试的有效性和可靠性。通过实证研究，分析了学生对阅读理解任务的看法与实际结果之间的协方差。数据包括在九年级的全国测试中，在400名学生中尝试九项阅读理解任务时收集的考生反馈，以及学生在这些任务上的成绩。分析表明，当任务被推向市场时，学生对任务的整体质量和难度的看法，以及他们完成任务后的结果预期，与他们的表现有统计学意义的协变量。此外，结果表明，考生的反馈可以提供与偏见有关的有用信息。来自考生反馈的信息也可能有助于测试的有效性和可靠性，例如，当用于根据经验难度对任务进行排序或用于整理不太合适的任务时。关键词：考生反馈、阅读理解、全国性考试、英语、有效性

{"title":"Test-taker feedback i utvecklingsprocessen av nationella prov i engelska","authors":"Eva-Kristina Olsson, Sofia Nilsson, AnnaKarin Lindqvist","doi":"10.5617/adno.6288","DOIUrl":"https://doi.org/10.5617/adno.6288","url":null,"abstract":"De nationella proven i engelska syftar till att stödja lärares betygssättning i svensk skola. Målsättningen i provutvecklingen är därför att konstruera prov med en så hög grad av validitet och reliabilitet som möjligt. Syftet med denna studie är, med utgångspunkt i Messick (1987, 1989), att undersöka och belysa på vilket sätt och i vilken utsträckning test-taker feedback kan bidra till provens validitet och reliabilitet. I en empirisk studie analyserades samvariation mellan elevers åsikter om läsförståelseuppgifter och det faktiska utfallet, det vill säga hur väl eleverna lyckades lösa uppgifterna. Data, som samlats in vid utprövning av nya uppgifter till det nationella provet i årskurs 9, bestod av feedback om nio läsförståelseuppgifter från cirka 400 elever per uppgift samt deras resultat på uppgiften. Analysen visar att elevers uppfattningar om hur bra uppgiften var, hur svår den var respektive hur väl de lyckades lösa den delvis samvarierar på ett statistiskt signifikant sätt med deras resultat när uppgiften poängsattes. Vidare visar resultaten att test-taker feedback kan tillföra värdefull information för att upptäcka om en uppgift tycks gynna någon grupp framför en annan. Informationen som test-taker feedback ger kan också bidra till stärkt validitet och reliabilitet om den exempelvis används för att sekvensera uppgifter utifrån upplevd svårighetsgrad eller för att sortera bort olämpliga uppgifter.Nyckelord: Test-taker feedback, läsförståelse, nationella prov, engelska, validitetThe use of test-taker feedback in the development of national tests of englishAbstractThe purpose of the national tests of English is to provide support for teachers’ grading of students in Swedish schools. Hence, the aim is to develop as valid and reliable tests as possible. Based on Messick (1987, 1989), the purpose of this study is to explore and illustrate in what ways and to what extent test-taker feedback may contribute to the validity and reliability of the tests. An empirical study was carried out, where the covariation between students’ opinions about reading comprehension tasks and their actual results were analysed. Data con¬sisted of test-taker feedback collected when trying out nine reading compre-hension tasks for the national test in grade 9 among 400 students per task, and of students’ results on the tasks. The analysis shows that the students’ opinions about the overall quality and the difficulty of the tasks, as well as their outcome expectancy after completing the tasks, covaried in a statistically significant way with their performance, when the tasks were marked. Furthermore, the results indicate that test-taker feedback may provide useful information related to bias. The information from test-taker feedback may also contribute to the validity and reliability of a test, for instance when used for sequencing tasks according to experienced level of difficulty or for sorting out less suitable tasks.Keywords: Test-taker feedback, reading comprehensi","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49364807","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 3

Standardsetting av læringsstøttende prøver i engelsk for Vg1 Vg1标准英语学习支持测试

Q4 Social Sciences

Acta Didactica Norge

Pub Date : 2018-12-06 DOI: 10.5617/ADNO.6281

E. Moe, Hildegunn Lahlum Helness, Craig Grocott, Norman Verhelst

Formålet med denne artikkelen er å beskrive framgangsmåten som ble brukt for å bestemme kuttskårer (grenser) mellom tre nivåer i Det europeiske ramme-verket for språk (A2, B1 og B2) på to læringsstøttende lytteprøver i engelsk for Vg1-elever. Målet har vært å undersøke om det er mulig å etablere enighet om kuttskårene, og om standardsetterne som deltok i arbeidet fikk tilstrekkelig opp-læring på forhånd. Videre var det et mål å se på hvilke konsekvenser kuttskårene vil få for fordeling av elever på de ulike rammeverksnivåene. Standardsettingen ble gjennomført med utgangspunkt i pilotdata fra 3199 elever på Vg1, Cito-metoden og 16 panelmedlemmer med god kjennskap til Rammeverkets nivåer. Flere av panelmedlemmene var eller hadde vært lærere i engelsk for elever på 10. trinn eller Vg1. Cito-metoden fungerte bra for å etablere kuttskårer som standardsetterne var forholdsvis enige om. Sluttresultatene viser at målefeilen var relativt liten. Resultatene viser større enighet om kuttskåren mellom nivåene B1 og B2 enn mellom A2 og B1, og dette kan ha en sammenheng med at det ble brukt mer tid på forberedelsesarbeid for B1 og B2. Lærere i panelet som kjenner elevgruppa godt, mener at konsekvensen kutt-skåren har for fordeling av elever på de ulike rammeverksnivåene, stemmer med deres egen vurdering av elevenes lytteferdigheter.Nøkkelord: standardsetting, testsentrert metode, Cito-metoden, standard, kutt-skår, vippekandidatStandard setting for English tests for 11th grade students in NorwayAbstractThis article presents the process used to determine the cut scores between three levels of the Common European Framework of Reference for languages (A2, B1 and B2) for two English listening tests, taken by Norwegian pupils at the 11th grade. The aim was to establish whether agreement can be reached on cut scores and whether the standard setters received enough preparation before the event. Another aim was to examine the potential consequences the cut scores would have for the distribution of pupils across the different levels. The standard setting took place using pilot data from 3199 pupils, the Cito method and 16 panel members with a good knowledge of the framework levels. Some panel members were or had been 10th or 11th grade English teachers. The Cito method worked well for establishing cut scores with which the panel members mostly agreed. The results indicated a small margin of error. The results showed a higher level of agreement for the cut score between B1 and B2 than between A2 and B1, possibly connected to the longer preparation time dedicated to B1 and B2. Teachers on the panel with good knowledge of the pupil base believe that the consequences these cut scores have for the distribution of pupils, correlate with their own experiences of pupils' ability.Keywords: standard setting, test-centered method, the Cito method, standard, cut score, borderline person / minimally competent user

本文的目的是描述在为Vg1学生进行的两次英语教育支持性听力测试中，用于确定欧洲语言框架（A2、B1和B2）中三个级别之间的削减（限制）的进展。目标是调查是否有可能与削减达成协议，以及工作中涉及的标准设置是否是事先充分的教育。此外，我们的目标是研究削减将对不同分支层次的学生分配产生什么影响。¶标准制定基于3199名Vg1、Cito方法学生和16名熟悉Rammeverket水平的小组成员的试点数据。一些小组成员过去或曾经是10名学生的英语老师。Step或Vg1±Cito方法在建立标准制定者同意的切割方面效果良好，结果表明目标误差相对较小。研究结果显示，B1和B2水平之间的一致性比A2和B1水平之间的更大，这可能与B1和B2参与者在熟悉学生群体的小组中使用更多的时间进行准备工作有关，这表明切割切割切割切割对不同活动水平的学生的分布有影响，这与他们自己对学生听力技能的评估一致。关键词：挪威11年级学生英语测试的标准设置、以测试为中心的方法、Cito方法、标准、分数线、vippekandidat标准设置摘要本文介绍了在两次英语听力测试中确定欧洲通用语言参考框架（A2、B1和B2）三个级别之间的分数线的过程，由11年级的挪威学生拍摄。其目的是确定是否可以就削减分数达成一致，以及标准制定者在活动前是否得到了足够的准备。另一个目的是研究分数降低对不同级别学生分布的潜在影响。↑标准制定使用了3199名学生的试点数据、Cito方法和16名对框架水平有良好了解的小组成员。一些小组成员曾经或曾经是10年级或11年级的英语教师。警告：Cito方法在确定分数方面效果良好，小组成员大多对此表示赞同。结果表明误差幅度很小。结果显示，B1和B2之间的分数比A2和B1之间的分数更一致，这可能与B1和B2的准备时间更长有关。关键词：标准设置、以测试为中心的方法、Cito方法、标准、分数、临界人/最低能力用户

{"title":"Standardsetting av læringsstøttende prøver i engelsk for Vg1","authors":"E. Moe, Hildegunn Lahlum Helness, Craig Grocott, Norman Verhelst","doi":"10.5617/ADNO.6281","DOIUrl":"https://doi.org/10.5617/ADNO.6281","url":null,"abstract":"Formålet med denne artikkelen er å beskrive framgangsmåten som ble brukt for å bestemme kuttskårer (grenser) mellom tre nivåer i Det europeiske ramme-verket for språk (A2, B1 og B2) på to læringsstøttende lytteprøver i engelsk for Vg1-elever. Målet har vært å undersøke om det er mulig å etablere enighet om kuttskårene, og om standardsetterne som deltok i arbeidet fikk tilstrekkelig opp-læring på forhånd. Videre var det et mål å se på hvilke konsekvenser kuttskårene vil få for fordeling av elever på de ulike rammeverksnivåene. Standardsettingen ble gjennomført med utgangspunkt i pilotdata fra 3199 elever på Vg1, Cito-metoden og 16 panelmedlemmer med god kjennskap til Rammeverkets nivåer. Flere av panelmedlemmene var eller hadde vært lærere i engelsk for elever på 10. trinn eller Vg1. Cito-metoden fungerte bra for å etablere kuttskårer som standardsetterne var forholdsvis enige om. Sluttresultatene viser at målefeilen var relativt liten. Resultatene viser større enighet om kuttskåren mellom nivåene B1 og B2 enn mellom A2 og B1, og dette kan ha en sammenheng med at det ble brukt mer tid på forberedelsesarbeid for B1 og B2. Lærere i panelet som kjenner elevgruppa godt, mener at konsekvensen kutt-skåren har for fordeling av elever på de ulike rammeverksnivåene, stemmer med deres egen vurdering av elevenes lytteferdigheter.Nøkkelord: standardsetting, testsentrert metode, Cito-metoden, standard, kutt-skår, vippekandidatStandard setting for English tests for 11th grade students in NorwayAbstractThis article presents the process used to determine the cut scores between three levels of the Common European Framework of Reference for languages (A2, B1 and B2) for two English listening tests, taken by Norwegian pupils at the 11th grade. The aim was to establish whether agreement can be reached on cut scores and whether the standard setters received enough preparation before the event. Another aim was to examine the potential consequences the cut scores would have for the distribution of pupils across the different levels. The standard setting took place using pilot data from 3199 pupils, the Cito method and 16 panel members with a good knowledge of the framework levels. Some panel members were or had been 10th or 11th grade English teachers. The Cito method worked well for establishing cut scores with which the panel members mostly agreed. The results indicated a small margin of error. The results showed a higher level of agreement for the cut score between B1 and B2 than between A2 and B1, possibly connected to the longer preparation time dedicated to B1 and B2. Teachers on the panel with good knowledge of the pupil base believe that the consequences these cut scores have for the distribution of pupils, correlate with their own experiences of pupils' ability.Keywords: standard setting, test-centered method, the Cito method, standard, cut score, borderline person / minimally competent user","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-12-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47136370","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling 通过挪威写作进度测试评估传感器可靠性

Q4 Social Sciences

Acta Didactica Norge

Pub Date : 2018-11-27 DOI: 10.5617/ADNO.6358

Tor Midtbø, A. Rossow, B. Sagbakken

Sensorer vurderer skriftlige tekster ulikt, og menneskelig sensur er en utfordring for prøvers reliabilitet. Dette er en utfordring som Kompetanse Norge må ta høyde for i arbeidet med å utvikle og kvalitetssikre Norskprøven for voksne innvandrere. Denne artikkelen redegjør for hvordan den statistiske modellen Many-Facets Rasch Measurement (MFRM) er brukt til å undersøke sensorkorpsets reliabilitet ved sensurering av Norskprøvens delprøve i skriftlig framstilling for desemberavviklingen 2017. MFRM-modellen gir oss informasjon om hvor streng og pålitelig hver sensor er i vurderingen av kandidatbesvarelser. Analysen viser at det er klare forskjeller i strenghet innad i sensorkorpset, og at kandidatens endelige resultat kan være påvirket av hvilke sensorer som vurderer besvarelsen. Samtidig finner vi at de fleste av de 77 sensorene sensurerer stabilt og pålitelig, som vil si at de har høy intra-sensorreliabilitet. Dette viser at sensorkorpset i stor grad oppfyller målsetningen om sensorer som uavhengige eksperter med konsekvent vurderingsadferd. Avslutningsvis diskuteres utfordringene knyttet til begrensninger ved prøvens utforming for analyse av sensorreliabilitet. I lys av diskusjonen vurderer vi MFRM sin rolle og egnethet, og peker på noen utviklingsområder.Nøkkelord: norskprøve, skriftlig vurdering, reliabilitet, inter-sensorreliabilitet, intra-sensorreliabilitet, Many-Facet Rasch MeasurementNorwegian language test - Measuring rater reliability in the assessment of written presentationAbstractRaters assess written texts differently, and rater-mediated assessment is a challenge for test reliability. This is something Skills Norway has to take into consideration as test developer of the Norwegian test for adult immigrants. In this article, we demonstrate how the statistical model Many-Facets Rasch Measurement (MFRM) has been used to examine rater reliability in the written part of the test, using data from the December 2017 test. The MFRM model produces estimates on all raters in terms of severity and consistency. The results show large and significant variation in severity among the raters, and the candidates’ final results can be affected by which raters have assessed the test. Nevertheless, we find that most of the 77 raters assess consistently, showing high intra-rater reliability. This finding suggests that the raters, to a large degree, fulfil their role as independent experts with consistent rating behaviour. Finally, we discuss the challenges associated with the limitations of the test’s design, with respect to analysing rater reliability. We assess MFRM’s role and suitability, and identify possible areas of future study.Keywords: language testing, written assessment, rater-mediated assessment, inter-rater reliability, intra-rater reliability, Many-Facet Rasch Measurement

传感器对文本的评估不同，而人类传感器是测试可靠性的一个挑战。这是一个挑战，挪威专员必须在为成年移民开发和提供高质量的挪威样本的工作中发挥高水平的作用。本文解释了如何使用统计模型Many Facets Rasch Measurement（MFRM），通过对2017年12月革命书面进展中的挪威部分测试进行传感，来调查传感器尸体的可靠性。MFRM模型为我们提供了关于每个传感器在评估候选响应时的严格程度和可靠性的信息。分析表明，传感器尸体内部的压力存在明显差异，候选传感器的最终结果可能会受到评估响应的传感器的影响。同时，我们发现77个传感器中的大多数传感稳定可靠，这意味着它们具有较高的传感器内可靠性。这表明，传感器尸体作为具有一致评估行为的独立专家，广泛地完成了传感器的测量。最后，讨论了与传感器可靠性分析测试公式中的局限性相关的挑战。根据讨论情况，我们考虑了MFRM的作用和自决权，并指出了一些发展中的领域。评分者介导的评估是对测试可靠性的挑战。作为挪威成人移民测试的开发人员，挪威技能协会必须考虑到这一点。在这篇文章中，我们展示了统计模型Many Facets Rasch Measurement（MFRM）是如何在测试的书面部分使用2017年12月测试的数据来检查评分者的可靠性的。MFRM模型根据严重程度和一致性对所有费率进行估计。结果显示，不同评分之间的严重程度差异很大，考生的最终成绩可能会受到评分者对考试的评估的影响。然而，我们发现，77名评分者中的大多数都进行了一致的评估，显示出较高的评分者内部可靠性。这一发现表明，评分者在很大程度上履行了他们作为独立专家的角色，具有一致的评分行为。最后，我们讨论了与测试设计的局限性相关的挑战，以分析评分器的可靠性。我们评估MFRM的作用和适用性，并确定未来研究的可能领域。RapidKeywords:语言测试，书面评估，评分者中介评估，评分间可靠性，评分者内部可靠性，多方面Rasch测量

{"title":"Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling","authors":"Tor Midtbø, A. Rossow, B. Sagbakken","doi":"10.5617/ADNO.6358","DOIUrl":"https://doi.org/10.5617/ADNO.6358","url":null,"abstract":"Sensorer vurderer skriftlige tekster ulikt, og menneskelig sensur er en utfordring for prøvers reliabilitet. Dette er en utfordring som Kompetanse Norge må ta høyde for i arbeidet med å utvikle og kvalitetssikre Norskprøven for voksne innvandrere. Denne artikkelen redegjør for hvordan den statistiske modellen Many-Facets Rasch Measurement (MFRM) er brukt til å undersøke sensorkorpsets reliabilitet ved sensurering av Norskprøvens delprøve i skriftlig framstilling for desemberavviklingen 2017. MFRM-modellen gir oss informasjon om hvor streng og pålitelig hver sensor er i vurderingen av kandidatbesvarelser. Analysen viser at det er klare forskjeller i strenghet innad i sensorkorpset, og at kandidatens endelige resultat kan være påvirket av hvilke sensorer som vurderer besvarelsen. Samtidig finner vi at de fleste av de 77 sensorene sensurerer stabilt og pålitelig, som vil si at de har høy intra-sensorreliabilitet. Dette viser at sensorkorpset i stor grad oppfyller målsetningen om sensorer som uavhengige eksperter med konsekvent vurderingsadferd. Avslutningsvis diskuteres utfordringene knyttet til begrensninger ved prøvens utforming for analyse av sensorreliabilitet. I lys av diskusjonen vurderer vi MFRM sin rolle og egnethet, og peker på noen utviklingsområder.Nøkkelord: norskprøve, skriftlig vurdering, reliabilitet, inter-sensorreliabilitet, intra-sensorreliabilitet, Many-Facet Rasch MeasurementNorwegian language test - Measuring rater reliability in the assessment of written presentationAbstractRaters assess written texts differently, and rater-mediated assessment is a challenge for test reliability. This is something Skills Norway has to take into consideration as test developer of the Norwegian test for adult immigrants. In this article, we demonstrate how the statistical model Many-Facets Rasch Measurement (MFRM) has been used to examine rater reliability in the written part of the test, using data from the December 2017 test. The MFRM model produces estimates on all raters in terms of severity and consistency. The results show large and significant variation in severity among the raters, and the candidates’ final results can be affected by which raters have assessed the test. Nevertheless, we find that most of the 77 raters assess consistently, showing high intra-rater reliability. This finding suggests that the raters, to a large degree, fulfil their role as independent experts with consistent rating behaviour. Finally, we discuss the challenges associated with the limitations of the test’s design, with respect to analysing rater reliability. We assess MFRM’s role and suitability, and identify possible areas of future study.Keywords: language testing, written assessment, rater-mediated assessment, inter-rater reliability, intra-rater reliability, Many-Facet Rasch Measurement","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-11-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45629685","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Fører opplæring i felles vurderingskriterier til større grad av enighet? En studie av tekstvurdering som en del av spesialpedagogutdanning. 在共同评估标准方面进行培训，以获得更高程度的一致性？作为专门机构教育的一部分的文本评估研究。

Q4 Social Sciences

Acta Didactica Norge

Pub Date : 2018-11-26 DOI: 10.5617/ADNO.6379

M. Matre, David Lansing Cameron

Hovedformålet med studien var å undersøke effekten av å gi spesialpedagogikkstudenter undervisning og trening i å bruke felles vurderingskriterier i møte med tekstvurdering. Studien tar utgangspunkt i datamaterialet fra NORM-prosjektet, der et utvalg elevtekster har blitt samlet i et digitalt korpus (Berge et al., 2017). Førti spesialpedagogikkstudenter vurderte de samme fire elevtekstene fra Normkorpuset, to før og to etter intervensjonen. Hensikten var blant annet å undersøke om studentene hadde større grad av enighet i sine vurderinger etter intervensjonen. Resultatene viste at det ikke var signifikante forskjeller i grad av enighet før og etter intervensjonen på de fleste områdene. Det kan være flere årsaker til dette. For eksempel er det mulig at intervensjonen var for kortvarig eller at skalaen som brukes for å måle de ulike vurderingsområdene var for lite nyansert for å fange opp små endringer i studentenes vurderingsferdigheter. Studiens funn understreker at det er svært vanskelig å finne pålitelige vurderingsformer for elevtekster, og øke påliteligheten blant studenter gjennom trening i vurderingsområder og skriveforventinger. Det er et klart behov for mer forskning på hvordan en kan øke pålitelighet for tekstvurdering og finne didaktiske tilnærminger for å forbedre vurderingsevner blant studenter innen pedagogiske studier.Nøkkelord: skriving, vurdering, pålitelighet, skrivedidaktikk i høyere utdanningDoes training in a common set of assessment criteria lead to greater levels of agreement? A study of writing assessment as part of special educator preparationAbstractThe main goal of the study was to investigate whether teaching and training in a shared set of assessment criteria results in a greater degree of consistency in the assessment of writing performance. The study was based on data collected from the study “Developing national standards for writing. A tool for teaching and learning”, also known as the “the Norm project” (Berge et al., 2017). Forty preservice special educators rated the same 4 pupil-texts before and after an intervention consisting of lectures and seminars on writing norms and formal assessment criteria. The results showed no significant differences in agreement between students’ assessments before and after the intervention. There are several possible explanations for these findings. For example, the lack of change may be due to the limited scope of the intervention or connected to characteristics of the assessment tool. The findings also illustrate the difficulty associated with conducting reliable assessments of pupils’ writing and increasing the quality of preservice educators’ assessments through training. There is a clear need for more research on how to increase the reliability of writing assessment and find better approaches to improving the assessment abilities of future educational professionalsKeywords: writing, Assessment, Reliability, Teaching Assessment in Higher Education

该研究的主要目的是检验为特殊日托学生提供教学和培训，使其在文本评估会议中使用通用评估标准的效果。该研究基于NORM项目的数据材料，在该项目中，在数字语料库中收集了选出的学生文本（Berge et al.，2017）。40名特殊学生对来自北海岸的四名学生进行了评估，其中两名在干预前，两名在介入后。目的之一是检查学生在干预后的评估中是否有更大程度的一致性。结果显示，在大多数领域，干预前后的一致程度没有显著差异。这可能有几个原因。例如，干预措施太短，或者用于衡量不同评估领域的量表太小，无法捕捉学生评估技能的微小变化。该研究的发现表明，很难为学生文本找到可靠的评估表格，也很难通过评估领域的培训和处方期望来提高学生的可靠性。在教学研究中，显然需要进一步研究如何提高文本评估的可靠性，并找到提高学生评估能力的教学方法。关键词：写作、评估、可靠性、写作idact在一套通用的评估标准中进行培训会导致两个更高水平的一致性吗？作为特殊教育者准备工作一部分的写作评估研究摘要该研究的主要目标是调查在一套共享的评估标准中进行的教学和培训是否会使写作表现的评估更加一致。该研究基于从“制定国家写作标准。教学工具”研究中收集的数据，也称为“规范项目”（Berge et al.，2017）。40名职前特殊教育工作者在干预前后对同样的4篇学生课文进行了评分，干预包括关于写作规范和正式评估标准的讲座和研讨会。结果显示，干预前后学生评估的一致性没有显著差异。对这些发现有几种可能的解释。例如，缺乏变化可能是由于干预的范围有限，或者与评估工具的特点有关。研究结果还说明了对学生写作进行可靠评估和通过培训提高职前教育工作者评估质量的困难。如何提高写作评估的可靠性，找到更好的方法来提高未来教育专业人员的评估能力，显然需要更多的研究。关键词：高等教育中的写作、评估、可靠性、教学评估

{"title":"Fører opplæring i felles vurderingskriterier til større grad av enighet? En studie av tekstvurdering som en del av spesialpedagogutdanning.","authors":"M. Matre, David Lansing Cameron","doi":"10.5617/ADNO.6379","DOIUrl":"https://doi.org/10.5617/ADNO.6379","url":null,"abstract":"Hovedformålet med studien var å undersøke effekten av å gi spesialpedagogikkstudenter undervisning og trening i å bruke felles vurderingskriterier i møte med tekstvurdering. Studien tar utgangspunkt i datamaterialet fra NORM-prosjektet, der et utvalg elevtekster har blitt samlet i et digitalt korpus (Berge et al., 2017). Førti spesialpedagogikkstudenter vurderte de samme fire elevtekstene fra Normkorpuset, to før og to etter intervensjonen. Hensikten var blant annet å undersøke om studentene hadde større grad av enighet i sine vurderinger etter intervensjonen. Resultatene viste at det ikke var signifikante forskjeller i grad av enighet før og etter intervensjonen på de fleste områdene. Det kan være flere årsaker til dette. For eksempel er det mulig at intervensjonen var for kortvarig eller at skalaen som brukes for å måle de ulike vurderingsområdene var for lite nyansert for å fange opp små endringer i studentenes vurderingsferdigheter. Studiens funn understreker at det er svært vanskelig å finne pålitelige vurderingsformer for elevtekster, og øke påliteligheten blant studenter gjennom trening i vurderingsområder og skriveforventinger. Det er et klart behov for mer forskning på hvordan en kan øke pålitelighet for tekstvurdering og finne didaktiske tilnærminger for å forbedre vurderingsevner blant studenter innen pedagogiske studier.Nøkkelord: skriving, vurdering, pålitelighet, skrivedidaktikk i høyere utdanningDoes training in a common set of assessment criteria lead to greater levels of agreement? A study of writing assessment as part of special educator preparationAbstractThe main goal of the study was to investigate whether teaching and training in a shared set of assessment criteria results in a greater degree of consistency in the assessment of writing performance. The study was based on data collected from the study “Developing national standards for writing. A tool for teaching and learning”, also known as the “the Norm project” (Berge et al., 2017). Forty preservice special educators rated the same 4 pupil-texts before and after an intervention consisting of lectures and seminars on writing norms and formal assessment criteria. The results showed no significant differences in agreement between students’ assessments before and after the intervention. There are several possible explanations for these findings. For example, the lack of change may be due to the limited scope of the intervention or connected to characteristics of the assessment tool. The findings also illustrate the difficulty associated with conducting reliable assessments of pupils’ writing and increasing the quality of preservice educators’ assessments through training. There is a clear need for more research on how to increase the reliability of writing assessment and find better approaches to improving the assessment abilities of future educational professionalsKeywords: writing, Assessment, Reliability, Teaching Assessment in Higher Education","PeriodicalId":36494,"journal":{"name":"Acta Didactica Norge","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2018-11-26","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47454763","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0