Pub Date : 2023-12-12DOI: 10.1007/s11943-023-00333-x
Oliver Trinkaus, Göran Kauermann
In this paper we discuss the use and potential advantages and disadvantages of machine learning driven models in rental guides. Rental guides are a formal legal instrument in Germany for surveying rents of flats in cities and municipalities, which are today based on regression models or simple contingency tables. We discuss if and how modern and timely methods of machine learning outperform existing and established routines. We make use of data from the Munich rental guide and mainly focus on the predictive power of these models. We discuss the “black-box” character making some of these models difficult to interpret and hence challenging for applications in the rental guide context. Still, it is of interest to see how “black-box” models perform with respect to prediction error. Moreover, we study adversarial effects, i.e. we investigate robustness in the sense how corrupted data influence the performance of the prediction models. With the data at hand we show that models with promising predictive performance suffer from being more vulnerable to corruptions than classic linear models including Ridge or Lasso regularization.
{"title":"Can machine learning algorithms deliver superior models for rental guides?","authors":"Oliver Trinkaus, Göran Kauermann","doi":"10.1007/s11943-023-00333-x","DOIUrl":"10.1007/s11943-023-00333-x","url":null,"abstract":"<div><p>In this paper we discuss the use and potential advantages and disadvantages of machine learning driven models in rental guides. Rental guides are a formal legal instrument in Germany for surveying rents of flats in cities and municipalities, which are today based on regression models or simple contingency tables. We discuss if and how modern and timely methods of machine learning outperform existing and established routines. We make use of data from the Munich rental guide and mainly focus on the predictive power of these models. We discuss the “black-box” character making some of these models difficult to interpret and hence challenging for applications in the rental guide context. Still, it is of interest to see how “black-box” models perform with respect to prediction error. Moreover, we study adversarial effects, i.e. we investigate robustness in the sense how corrupted data influence the performance of the prediction models. With the data at hand we show that models with promising predictive performance suffer from being more vulnerable to corruptions than classic linear models including Ridge or Lasso regularization.</p></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"17 3-4","pages":"305 - 330"},"PeriodicalIF":0.0,"publicationDate":"2023-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://link.springer.com/content/pdf/10.1007/s11943-023-00333-x.pdf","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"138987242","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"OA","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2023-12-07DOI: 10.1007/s11943-023-00330-0
Arnout van Delden, Joep Burger, Marco Puts
Machine learning (ML) is increasingly being used in official statistics with a range of different applications. The main focus of ML models is to accurately predict attributes of new, unlabeled cases whereas the focus of classical statistical models is to describe the relations between independent and dependent variables. There is already a lot of experience in the sound use of classical statistical models in official statistics, but for ML models this is still under development. Recent discussions concerning the quality aspects of using ML in official statistics have concentrated on its implications for existing quality frameworks. We are in favor of the use of ML in official statistics, but the main question remains as to what factors need to be considered when using ML models in official statistics. As a means of raising awareness regarding these factors, we pose ten propositions regarding the (sensible) use of ML in official statistics.
机器学习(ML)正越来越多地应用于官方统计中的一系列不同领域。ML 模型的主要重点是准确预测未标记的新案例的属性,而经典统计模型的重点是描述自变量和因变量之间的关系。在官方统计中合理使用经典统计模型方面已经有了很多经验,但对于 ML 模型来说,这仍处于发展阶段。最近有关在官方统计中使用 ML 的质量问题的讨论主要集中在其对现有质量框架的影响上。我们赞成在官方统计中使用 ML,但主要问题仍然是在官方统计中使用 ML 模型时需要考虑哪些因素。为了提高对这些因素的认识,我们提出了关于在官方统计中(合理)使用 ML 的十项主张。
{"title":"Ten propositions on machine learning in official statistics","authors":"Arnout van Delden, Joep Burger, Marco Puts","doi":"10.1007/s11943-023-00330-0","DOIUrl":"10.1007/s11943-023-00330-0","url":null,"abstract":"<div><p>Machine learning (ML) is increasingly being used in official statistics with a range of different applications. The main focus of ML models is to accurately predict attributes of new, unlabeled cases whereas the focus of classical statistical models is to describe the relations between independent and dependent variables. There is already a lot of experience in the sound use of classical statistical models in official statistics, but for ML models this is still under development. Recent discussions concerning the quality aspects of using ML in official statistics have concentrated on its implications for existing quality frameworks. We are in favor of the use of ML in official statistics, but the main question remains as to what factors need to be considered when using ML models in official statistics. As a means of raising awareness regarding these factors, we pose ten propositions regarding the (sensible) use of ML in official statistics.</p></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"17 3-4","pages":"195 - 221"},"PeriodicalIF":0.0,"publicationDate":"2023-12-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"138590780","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2023-11-29DOI: 10.1007/s11943-023-00331-z
Saeid Molladavoudi, Wesley Yung
Despite the fact that National Statistical Offices (NSOs) continue to embrace and adopt Machine Learning (ML) methods and tools in a variety of areas of their operations, including data collection, integration, and processing, it is still not clear how these complex and prediction-oriented approaches can be incorporated into the quality standards and frameworks within NSOs or if the frameworks themselves need to be modified. This article focuses on and builds upon two of the quality dimensions proposed in the Quality Framework for Statistical Algorithms (QF4SA): model explainability and accuracy (including uncertainty). The implications of the current methods for explainable ML and uncertainty quantification will be examined in further detail, as well as their possible uses in statistical production, such as continuous model monitoring in intermediate ML classifications and auto-coding phases. This strategy will ensure that human subject-matter experts, who are an essential component of every statistical program, are effectively integrated into the life cycle of ML projects. It will also guarantee to maintain the quality of ML models in production, adhere to the current quality frameworks within NSOs, and ultimately boost confidence and trust in these emerging technologies.
尽管各国国家统计局(NSO)在数据收集、整合和处理等多个业务领域不断接受并采用机器学习(ML)方法和工具,但目前仍不清楚如何将这些复杂且以预测为导向的方法纳入国家统计局的质量标准和框架,或者是否需要对框架本身进行修改。本文重点关注并借鉴了统计算法质量框架(QF4SA)中提出的两个质量维度:模型的可解释性和准确性(包括不确定性)。本文将进一步详细分析当前可解释 ML 和不确定性量化方法的影响,以及这些方法在统计生产中的可能用途,例如在中间 ML 分类和自动编码阶段对模型进行持续监控。这一战略将确保作为每个统计程序重要组成部分的人类主题专家有效融入 ML 项目的生命周期。它还将保证在生产过程中保持 ML 模型的质量,遵守国家统计局当前的质量框架,并最终增强人们对这些新兴技术的信心和信任。
{"title":"Exploring quality dimensions in trustworthy Machine Learning in the context of official statistics: model explainability and uncertainty quantification","authors":"Saeid Molladavoudi, Wesley Yung","doi":"10.1007/s11943-023-00331-z","DOIUrl":"10.1007/s11943-023-00331-z","url":null,"abstract":"<div><p>Despite the fact that National Statistical Offices (NSOs) continue to embrace and adopt Machine Learning (ML) methods and tools in a variety of areas of their operations, including data collection, integration, and processing, it is still not clear how these complex and prediction-oriented approaches can be incorporated into the quality standards and frameworks within NSOs or if the frameworks themselves need to be modified. This article focuses on and builds upon two of the quality dimensions proposed in the Quality Framework for Statistical Algorithms (QF4SA): model explainability and accuracy (including uncertainty). The implications of the current methods for explainable ML and uncertainty quantification will be examined in further detail, as well as their possible uses in statistical production, such as continuous model monitoring in intermediate ML classifications and auto-coding phases. This strategy will ensure that human subject-matter experts, who are an essential component of every statistical program, are effectively integrated into the life cycle of ML projects. It will also guarantee to maintain the quality of ML models in production, adhere to the current quality frameworks within NSOs, and ultimately boost confidence and trust in these emerging technologies.</p></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"17 3-4","pages":"223 - 252"},"PeriodicalIF":0.0,"publicationDate":"2023-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"139211742","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2023-11-27DOI: 10.1007/s11943-023-00332-y
Jacob Beck
The quality of Machine Learning (ML) applications is commonly assessed by quantifying how well an algorithm fits its respective training data. Yet, a perfect model that learns from and reproduces erroneous data will always be flawed in its real-world application. Hence, a comprehensive assessment of ML quality must include an additional data perspective, especially for models trained on human-annotated data. For the collection of human-annotated training data, best practices often do not exist and leave researchers to make arbitrary decisions when collecting annotations. Decisions about the selection of annotators or label options may affect training data quality and model performance.
In this paper, I will outline and summarize previous research and approaches to the collection of annotated training data. I look at data annotation and its quality confounders from two perspectives: the set of annotators and the strategy of data collection. The paper will highlight the various implementations of text and image annotation collection and stress the importance of careful task construction. I conclude by illustrating the consequences for future research and applications of data annotation. The paper is intended give readers a starting point on annotated data quality research and stress the necessity of thoughtful consideration of the annotation collection process to researchers and practitioners.
{"title":"Quality aspects of annotated data","authors":"Jacob Beck","doi":"10.1007/s11943-023-00332-y","DOIUrl":"10.1007/s11943-023-00332-y","url":null,"abstract":"<div><p>The quality of Machine Learning (ML) applications is commonly assessed by quantifying how well an algorithm fits its respective training data. Yet, a perfect model that learns from and reproduces erroneous data will always be flawed in its real-world application. Hence, a comprehensive assessment of ML quality must include an additional data perspective, especially for models trained on human-annotated data. For the collection of human-annotated training data, best practices often do not exist and leave researchers to make arbitrary decisions when collecting annotations. Decisions about the selection of annotators or label options may affect training data quality and model performance.</p><p>In this paper, I will outline and summarize previous research and approaches to the collection of annotated training data. I look at data annotation and its quality confounders from two perspectives: the set of <i>annotators</i> and the <i>strategy</i> of data collection. The paper will highlight the various implementations of text and image annotation collection and stress the importance of careful task construction. I conclude by illustrating the consequences for future research and applications of data annotation. The paper is intended give readers a starting point on annotated data quality research and stress the necessity of thoughtful consideration of the annotation collection process to researchers and practitioners.</p></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"17 3-4","pages":"331 - 353"},"PeriodicalIF":0.0,"publicationDate":"2023-11-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://link.springer.com/content/pdf/10.1007/s11943-023-00332-y.pdf","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"139230573","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"OA","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2023-11-17DOI: 10.1007/s11943-023-00329-7
Younes Saidani, Florian Dumpert, Christian Borgs, Alexander Brand, Andreas Nickl, Alexandra Rittmann, Johannes Rohde, Christian Salwiczek, Nina Storfinger, Selina Straub
Die amtliche Statistik zeichnet sich durch ihren gesetzlich auferlegten Fokus auf die Qualität ihrer Veröffentlichungen aus. Dabei folgt sie den europäischen Qualitätsrahmenwerken, die auf nationaler Ebene in Form von Qualitätshandbüchern konkretisiert und operationalisiert werden, sich jedoch bis dato hinsichtlich Ausgestaltung und Interpretation an den Anforderungen der „klassischen“ Statistikproduktion orientieren. Der zunehmende Einsatz maschineller Lernverfahren (ML) in der amtlichen Statistik muss daher zur Erfüllung des Qualitätsanspruchs durch ein spezifisches, darauf zugeschnittenes Qualitätsrahmenwerk begleitet werden. Das vorliegende Papier leistet einen Beitrag zur Erarbeitung eines solchen Qualitätsrahmenwerks für den Einsatz von ML in der amtlichen Statistik, indem es (1) durch den Vergleich mit bestehenden Qualitätsgrundsätzen des Verhaltenskodex für Europäische Statistiken relevante Qualitätsdimensionen für ML identifiziert und (2) diese unter Berücksichtigung der besonderen methodischen Gegebenheiten von ML ausarbeitet. Dabei (2a) ergänzt es bestehende Vorschläge durch den Aspekt der Robustheit, (2b) stellt Bezug zu den Querschnittsthemen Machine Learning Operations (MLOps) und Fairness her und (2c) schlägt vor, wie die Qualitätssicherung der einzelnen Dimensionen in der Praxis der amtlichen Statistik ausgestaltet werden kann. Diese Arbeit liefert die konzeptionelle Grundlage, um Qualitätsindikatoren für ML-Verfahren formell in die Instrumente des Qualitätsmanagements im Statistischen Verbund zu überführen und damit langfristig den hohen Qualitätsstandard amtlicher Statistik auch bei Nutzung neuer Verfahren zu sichern.
{"title":"Qualitätsdimensionen maschinellen Lernens in der amtlichen Statistik","authors":"Younes Saidani, Florian Dumpert, Christian Borgs, Alexander Brand, Andreas Nickl, Alexandra Rittmann, Johannes Rohde, Christian Salwiczek, Nina Storfinger, Selina Straub","doi":"10.1007/s11943-023-00329-7","DOIUrl":"10.1007/s11943-023-00329-7","url":null,"abstract":"<p>Die amtliche Statistik zeichnet sich durch ihren gesetzlich auferlegten Fokus auf die Qualität ihrer Veröffentlichungen aus. Dabei folgt sie den europäischen Qualitätsrahmenwerken, die auf nationaler Ebene in Form von Qualitätshandbüchern konkretisiert und operationalisiert werden, sich jedoch bis dato hinsichtlich Ausgestaltung und Interpretation an den Anforderungen der „klassischen“ Statistikproduktion orientieren. Der zunehmende Einsatz maschineller Lernverfahren (ML) in der amtlichen Statistik muss daher zur Erfüllung des Qualitätsanspruchs durch ein spezifisches, darauf zugeschnittenes Qualitätsrahmenwerk begleitet werden. Das vorliegende Papier leistet einen Beitrag zur Erarbeitung eines solchen Qualitätsrahmenwerks für den Einsatz von ML in der amtlichen Statistik, indem es (1) durch den Vergleich mit bestehenden Qualitätsgrundsätzen des Verhaltenskodex für Europäische Statistiken relevante Qualitätsdimensionen für ML identifiziert und (2) diese unter Berücksichtigung der besonderen methodischen Gegebenheiten von ML ausarbeitet. Dabei (2a) ergänzt es bestehende Vorschläge durch den Aspekt der Robustheit, (2b) stellt Bezug zu den Querschnittsthemen Machine Learning Operations (MLOps) und Fairness her und (2c) schlägt vor, wie die Qualitätssicherung der einzelnen Dimensionen in der Praxis der amtlichen Statistik ausgestaltet werden kann. Diese Arbeit liefert die konzeptionelle Grundlage, um Qualitätsindikatoren für ML-Verfahren formell in die Instrumente des Qualitätsmanagements im Statistischen Verbund zu überführen und damit langfristig den hohen Qualitätsstandard amtlicher Statistik auch bei Nutzung neuer Verfahren zu sichern.</p>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"17 3-4","pages":"253 - 303"},"PeriodicalIF":0.0,"publicationDate":"2023-11-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://link.springer.com/content/pdf/10.1007/s11943-023-00329-7.pdf","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"139266451","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"OA","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2023-10-26DOI: 10.1007/s11943-023-00326-w
Hendrik Christian Doll, Gabriela Alves Werb
In this article, we present a framework to assess the challenges in the climate-related data landscape. From our perspective, we describe challenges and opportunities for innovation to close existing gaps in selected data quality dimensions for central banks and statistical offices. We further examine the role of networks in promoting innovation and international collaboration, highlighting practical experiences with a case study of the Sustainable Finance Data Hub at the Deutsche Bundesbank. Finally, we discuss how these lessons can provide avenues to enhance data quality in central banks and official statistics and outline directions for future research.
{"title":"Innovation for improving climate-related data—Lessons learned from setting up a data hub","authors":"Hendrik Christian Doll, Gabriela Alves Werb","doi":"10.1007/s11943-023-00326-w","DOIUrl":"10.1007/s11943-023-00326-w","url":null,"abstract":"<div><p>In this article, we present a framework to assess the challenges in the climate-related data landscape. From our perspective, we describe challenges and opportunities for innovation to close existing gaps in selected data quality dimensions for central banks and statistical offices. We further examine the role of networks in promoting innovation and international collaboration, highlighting practical experiences with a case study of the Sustainable Finance Data Hub at the Deutsche Bundesbank. Finally, we discuss how these lessons can provide avenues to enhance data quality in central banks and official statistics and outline directions for future research.</p></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"17 3-4","pages":"355 - 380"},"PeriodicalIF":0.0,"publicationDate":"2023-10-26","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://link.springer.com/content/pdf/10.1007/s11943-023-00326-w.pdf","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"134908277","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"OA","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2023-09-19DOI: 10.1007/s11943-023-00327-9
Ulrich Rendtel
Zusammenfassung
Dieser Artikel enthält ein Interview mit der neuen Präsidentin des Statistischen Bundesamtes Dr. Ruth Brand.
摘要本文采访了美国联邦统计局新任主席鲁思·布兰德博士。
{"title":"Interview mit der Präsidentin des Statistischen Bundesamtes Dr. Ruth Brand","authors":"Ulrich Rendtel","doi":"10.1007/s11943-023-00327-9","DOIUrl":"10.1007/s11943-023-00327-9","url":null,"abstract":"<div><h2>Zusammenfassung</h2><div><p>Dieser Artikel enthält ein Interview mit der neuen Präsidentin des Statistischen Bundesamtes Dr. Ruth Brand.</p></div></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"17 2","pages":"183 - 190"},"PeriodicalIF":0.0,"publicationDate":"2023-09-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://link.springer.com/content/pdf/10.1007/s11943-023-00327-9.pdf","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"50497401","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"OA","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2023-08-28DOI: 10.1007/s11943-023-00325-x
Ulrich Rendtel, Yeonjoo Lee, Hartmut Gerks
In einer Umfrage unter den neu immatrikulierten Master-Studierenden wurden unter anderem der soziale Hintergrund, die Studienfinanzierung und die Motivation für den gewählten Studiengang erfragt. Durch die Verknüpfung von administrativen Prüfungsdaten mit den neuen Umfragedaten wird die Analyse der Studienverläufe und des Studienerfolgs im Zusammenhang mit individuellen Merkmalen ermöglicht. Damit vermeiden wir die Schwachstellen üblicher studentischer Befragungen mit hohem Non-response und Erinnerungsfehlern. Dieser Ansatz wird hier zum Vergleich von fünf Masterstudiengängen am Fachbereich (FB) Wirtschaftswissenschaft der Freien Universität Berlin (FU Berlin) benutzt. Nach der ersten Befragung wurden die Studierenden über die ersten 6 Fachsemester hinsichtlich des Erwerbs von Leistungspunkten (LP), dem Abschluss ihres Masterstudiums sowie den dabei erzielten Noten begleitet.
In den verknüpften Daten konnte ein Erfolgsbias der teilnahmebereiten Studierenden der Kohorte festgestellt werden, der aber durch eine geeignete Gewichtung über die Responserate gut beherrschbar ist. Wir vergleichen die Studiengänge in verschiedenen Phasen: Studieneingangsphase, Erreichen der Regelstudienzeit und Abschluss bis zum 6 Fachsemester. Weiterhin wird der Einfluss von Hintergrundmerkmalen auf die erreichte Note beim Studienabschluss untersucht. In der Studieneingangsphase ergeben sich deutliche Unterschiede zwischen den Studiengängen. Konditioniert man allerdings auf den Studienerfolg im ersten Semester, so verschwinden diese Unterschiede für die zweite Studienphase und den Abschluss des Studiums. Überraschend ist der geringe Einfluss der Bachelor-Note auf den Studienerfolg und die erzielte Master-Note. Die Ergebnisse zeigen die Möglichkeit auf, einen möglichen Studienabbruch schon relativ sicher anhand der erzielten LP in der Studieneingangsphase zu erkennen.
{"title":"Eine Analyse des Studienerfolgs im Masterstudium auf der Basis von Umfrage- und administrativen Prüfungsdaten: Ein Vergleich von fünf Masterstudiengängen am Fachbereich Wirtschaftswissenschaft der Freien Universität Berlin","authors":"Ulrich Rendtel, Yeonjoo Lee, Hartmut Gerks","doi":"10.1007/s11943-023-00325-x","DOIUrl":"10.1007/s11943-023-00325-x","url":null,"abstract":"<p>In einer Umfrage unter den neu immatrikulierten Master-Studierenden wurden unter anderem der soziale Hintergrund, die Studienfinanzierung und die Motivation für den gewählten Studiengang erfragt. Durch die Verknüpfung von administrativen Prüfungsdaten mit den neuen Umfragedaten wird die Analyse der Studienverläufe und des Studienerfolgs im Zusammenhang mit individuellen Merkmalen ermöglicht. Damit vermeiden wir die Schwachstellen üblicher studentischer Befragungen mit hohem Non-response und Erinnerungsfehlern. Dieser Ansatz wird hier zum Vergleich von fünf Masterstudiengängen am Fachbereich (FB) Wirtschaftswissenschaft der Freien Universität Berlin (FU Berlin) benutzt. Nach der ersten Befragung wurden die Studierenden über die ersten 6 Fachsemester hinsichtlich des Erwerbs von Leistungspunkten (LP), dem Abschluss ihres Masterstudiums sowie den dabei erzielten Noten begleitet.</p><p>In den verknüpften Daten konnte ein Erfolgsbias der teilnahmebereiten Studierenden der Kohorte festgestellt werden, der aber durch eine geeignete Gewichtung über die Responserate gut beherrschbar ist. Wir vergleichen die Studiengänge in verschiedenen Phasen: Studieneingangsphase, Erreichen der Regelstudienzeit und Abschluss bis zum 6 Fachsemester. Weiterhin wird der Einfluss von Hintergrundmerkmalen auf die erreichte Note beim Studienabschluss untersucht. In der Studieneingangsphase ergeben sich deutliche Unterschiede zwischen den Studiengängen. Konditioniert man allerdings auf den Studienerfolg im ersten Semester, so verschwinden diese Unterschiede für die zweite Studienphase und den Abschluss des Studiums. Überraschend ist der geringe Einfluss der Bachelor-Note auf den Studienerfolg und die erzielte Master-Note. Die Ergebnisse zeigen die Möglichkeit auf, einen möglichen Studienabbruch schon relativ sicher anhand der erzielten LP in der Studieneingangsphase zu erkennen.</p>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"18 1","pages":"37 - 76"},"PeriodicalIF":0.0,"publicationDate":"2023-08-28","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://link.springer.com/content/pdf/10.1007/s11943-023-00325-x.pdf","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"72934211","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"OA","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2023-08-25DOI: 10.1007/s11943-023-00323-z
Ronald Bachmann, Fernanda Martínez Flores, Christian Rulff
Die Lohnlücke zwischen Personen, die innerhalb und außerhalb der Zeitarbeit beschäftigt sind, wird in Deutschland auf Grundlage verschiedener Datensätze berechnet, was teilweise zu sehr unterschiedlichen Ergebnissen führt. Der vorliegende Artikel untersucht die Lohnlücke in der Zeitarbeit daher anhand zweier Datensätze, den Integrierten Erwerbsbiografien (IEB) des Instituts für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit und der Verdienststrukturerhebung (VSE) des Statistischen Bundesamtes. Hierzu wird die Lohnlücke auf Basis der beiden Mikrodatensätze mithilfe verschiedener ökonometrischer Verfahren analysiert.
Die Ergebnisse der Studie zeigen, dass beim Vergleich von öffentlichen Statistiken auf eine Vergleichbarkeit der zugrundeliegenden Stichprobe geachtet werden sollte. Die Lohnlücke bei den Monatslöhnen ist bei Verwendung von IEB-Daten etwas größer als bei VSE-Daten, was auf Unterschiede in der Zusammensetzung der Stichprobe zurückzuführen ist. Die ökonometrische Analyse der Monatslöhne ergibt für beide Datensätze, dass die bereinigte Lohnlücke, d. h. die Lohnlücke nach Kontrolle für beobachtbare Charakteristika, deutlich geringer ausfällt als die unbereinigte Lohnlücke. Eine zusätzliche Analyse der Stundenlöhne auf Grundlage der VSE zeigt, dass die bereinigte Lohnlücke nahe null liegt. Dies deutet darauf hin, dass die Arbeitszeit eine wichtige Rolle für die Lohnlücke spielt.
在德国,临时工与非临时工之间的工资差距是根据不同的数据集计算出来的,有时会得出截然不同的结果。因此,本文使用两个数据集,即联邦就业局就业研究所的综合就业传记 (IEB) 和联邦统计局的收入结构调查 (VSE),来研究临时工作的工资差距。研究结果表明,在比较公共统计数据时,应注意确保基础样本的可比性。由于样本构成的差异,使用国际教育指数数据时的月工资差距略大于使用创业就业指数数据时的月工资差距。对两个数据集的月工资进行的计量经济学分析表明,调整后的工资差距(即控制了可观测特征后的工资差距)明显小于未调整的工资差距。基于 VSE 对小时工资的额外分析表明,调整后的工资差距接近于零。这表明工时在工资差距中起着重要作用。
{"title":"Die Lohnlücke in der Zeitarbeit","authors":"Ronald Bachmann, Fernanda Martínez Flores, Christian Rulff","doi":"10.1007/s11943-023-00323-z","DOIUrl":"10.1007/s11943-023-00323-z","url":null,"abstract":"<p>Die Lohnlücke zwischen Personen, die innerhalb und außerhalb der Zeitarbeit beschäftigt sind, wird in Deutschland auf Grundlage verschiedener Datensätze berechnet, was teilweise zu sehr unterschiedlichen Ergebnissen führt. Der vorliegende Artikel untersucht die Lohnlücke in der Zeitarbeit daher anhand zweier Datensätze, den Integrierten Erwerbsbiografien (IEB) des Instituts für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit und der Verdienststrukturerhebung (VSE) des Statistischen Bundesamtes. Hierzu wird die Lohnlücke auf Basis der beiden Mikrodatensätze mithilfe verschiedener ökonometrischer Verfahren analysiert.</p><p>Die Ergebnisse der Studie zeigen, dass beim Vergleich von öffentlichen Statistiken auf eine Vergleichbarkeit der zugrundeliegenden Stichprobe geachtet werden sollte. Die Lohnlücke bei den Monatslöhnen ist bei Verwendung von IEB-Daten etwas größer als bei VSE-Daten, was auf Unterschiede in der Zusammensetzung der Stichprobe zurückzuführen ist. Die ökonometrische Analyse der Monatslöhne ergibt für beide Datensätze, dass die bereinigte Lohnlücke, d. h. die Lohnlücke nach Kontrolle für beobachtbare Charakteristika, deutlich geringer ausfällt als die unbereinigte Lohnlücke. Eine zusätzliche Analyse der Stundenlöhne auf Grundlage der VSE zeigt, dass die bereinigte Lohnlücke nahe null liegt. Dies deutet darauf hin, dass die Arbeitszeit eine wichtige Rolle für die Lohnlücke spielt.</p>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"18 1","pages":"15 - 36"},"PeriodicalIF":0.0,"publicationDate":"2023-08-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://link.springer.com/content/pdf/10.1007/s11943-023-00323-z.pdf","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"80341024","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"OA","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}