Pub Date : 2021-03-23DOI: 10.1007/s11943-021-00280-5
Heidi Kühnemann
Zusammenfassung
Im World Wide Web (kurz „Web“) sind große Datenmengen verfügbar, die auch die amtliche Statistik für sich nutzbar machen kann. Die Extraktion dieser Daten durch Web Scraping bietet vielfältige Potenziale, beispielsweise die Kosten für die Datenerhebung reduzieren, Befragte entlasten, die Qualität amtlicher Daten verbessern oder stichprobenrelevante Einheiten in Befragungen identifizieren. Am Beispiel der Preis‑, Tourismus‑, Arbeitsmarkt- und Unternehmensstatistik wird in diesem Beitrag aufgezeigt, wie die amtliche Statistik in Deutschland bereits Web Scraping nutzt. Viele der hier aufgeführten Anwendungen befinden sich noch in einem frühen Entwicklungsstadium. In anderen nationalen Statistikämtern werden Daten aus dem Web zum Teil bereits in einem größeren Ausmaß für experimentelle Statistiken und im Produktivbetrieb genutzt. Dies ist unter anderem auf eine teils unzureichende rechtliche Grundlage von Web Scraping in der amtlichen Statistik in Deutschland, auf eine für die Methode nicht adäquate IT-Infrastruktur sowie auf einen Mangel an Mitarbeitenden mit den notwendigen Qualifikationen zurückzuführen.
SummaryIn the World Wide Web(简称“Web”)有大量的数据可供官方统计使用。通过网络抓取提取这些数据具有广泛的潜力,例如降低数据收集成本、减轻受访者的负担、提高官方数据的质量或在调查中确定样本相关单位。本文以价格、旅游、劳动力市场和商业统计为例,展示了德国官方统计数据是如何使用网络抓取的。这里列出的许多应用程序仍处于早期开发阶段。其他国家统计局已经在更大程度上使用网络数据进行实验性统计和生产性业务。这在一定程度上是由于德国官方统计数据中网络抓取的法律依据不足,该方法的IT基础设施不足,以及缺乏具备必要资质的员工。
{"title":"Anwendungen des Web Scraping in der amtlichen Statistik","authors":"Heidi Kühnemann","doi":"10.1007/s11943-021-00280-5","DOIUrl":"10.1007/s11943-021-00280-5","url":null,"abstract":"<div><h2>Zusammenfassung</h2><div><p>Im World Wide Web (kurz „Web“) sind große Datenmengen verfügbar, die auch die amtliche Statistik für sich nutzbar machen kann. Die Extraktion dieser Daten durch Web Scraping bietet vielfältige Potenziale, beispielsweise die Kosten für die Datenerhebung reduzieren, Befragte entlasten, die Qualität amtlicher Daten verbessern oder stichprobenrelevante Einheiten in Befragungen identifizieren. Am Beispiel der Preis‑, Tourismus‑, Arbeitsmarkt- und Unternehmensstatistik wird in diesem Beitrag aufgezeigt, wie die amtliche Statistik in Deutschland bereits Web Scraping nutzt. Viele der hier aufgeführten Anwendungen befinden sich noch in einem frühen Entwicklungsstadium. In anderen nationalen Statistikämtern werden Daten aus dem Web zum Teil bereits in einem größeren Ausmaß für experimentelle Statistiken und im Produktivbetrieb genutzt. Dies ist unter anderem auf eine teils unzureichende rechtliche Grundlage von Web Scraping in der amtlichen Statistik in Deutschland, auf eine für die Methode nicht adäquate IT-Infrastruktur sowie auf einen Mangel an Mitarbeitenden mit den notwendigen Qualifikationen zurückzuführen.</p></div></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"15 1","pages":"5 - 25"},"PeriodicalIF":0.0,"publicationDate":"2021-03-23","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://sci-hub-pdf.com/10.1007/s11943-021-00280-5","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"50508319","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-12-03DOI: 10.1007/s11943-020-00278-5
Sören Pannier, Ulrich Rendtel, Hartmut Gerks
Zusammenfassung
Die Messung von Studienerfolg bzw. Studienabbruch erfolgt häufig retrospektiv anhand von Exmatrikulierten-Befragungen. Diese Erhebungen sind jedoch mit hohen Nonresponse-Raten verknüpft. Auch die retrospektive Selbsteinschätzung unterliegt Erinnerungsfehlern. Alternativ findet man auch prospektive Ansätze im Rahmen von Panelerhebungen, die jedoch von Stichprobenausfällen zwischen den Befragungswellen betroffen sind.
Dieser Artikel präsentiert einen neuen prospektiven Ansatz auf Basis von administrativen Prüfungsdaten und Umfragedaten. Hintergrundinformationen über die Studierenden werden zu Beginn des zweiten Fachsemesters im Rahmen einer Hörsaalbefragung erhoben. Die notwendige Einwilligung der Studierenden zur Verknüpfung mit den Prüfungsdaten wird fast immer erreicht, so dass der Einfluss von Hintergrundmerkmalen, Nebentätigkeit während des Studiums sowie der Studienmotivation auf den Studienabschluss ohne Stichprobenausfälle analysiert werden kann.
Dieser Ansatz wurde erstmalig am Fachbereich Wirtschaftswissenschaft der FU Berlin realisiert. Der Aufsatz beschreibt die Durchführung dieses Konzepts sowie Analyseergebnisse für den Studienverlauf und Studienabbrüche. Im Ergebnis erhalten wir, dass sich ein Studienabbruch schon in der Studieneingangsphase anhand der erworbenen Leistungspunkte und der Selbsteinschätzung der Studierenden sehr genau vorhersagen lässt. Hingegen liefern die Schulnote und die sozialen Hintergrundmerkmale keine zusätzliche Information für einen Studienabbruch.
{"title":"Die Prognose von Studienerfolg und Studienabbruch auf Basis von Umfrage- und administrativen Prüfungsdaten","authors":"Sören Pannier, Ulrich Rendtel, Hartmut Gerks","doi":"10.1007/s11943-020-00278-5","DOIUrl":"10.1007/s11943-020-00278-5","url":null,"abstract":"<div><h2>Zusammenfassung</h2><div><p>Die Messung von Studienerfolg bzw. Studienabbruch erfolgt häufig retrospektiv anhand von Exmatrikulierten-Befragungen. Diese Erhebungen sind jedoch mit hohen Nonresponse-Raten verknüpft. Auch die retrospektive Selbsteinschätzung unterliegt Erinnerungsfehlern. Alternativ findet man auch prospektive Ansätze im Rahmen von Panelerhebungen, die jedoch von Stichprobenausfällen zwischen den Befragungswellen betroffen sind.</p><p>Dieser Artikel präsentiert einen neuen prospektiven Ansatz auf Basis von administrativen Prüfungsdaten und Umfragedaten. Hintergrundinformationen über die Studierenden werden zu Beginn des zweiten Fachsemesters im Rahmen einer Hörsaalbefragung erhoben. Die notwendige Einwilligung der Studierenden zur Verknüpfung mit den Prüfungsdaten wird fast immer erreicht, so dass der Einfluss von Hintergrundmerkmalen, Nebentätigkeit während des Studiums sowie der Studienmotivation auf den Studienabschluss ohne Stichprobenausfälle analysiert werden kann.</p><p>Dieser Ansatz wurde erstmalig am Fachbereich Wirtschaftswissenschaft der FU Berlin realisiert. Der Aufsatz beschreibt die Durchführung dieses Konzepts sowie Analyseergebnisse für den Studienverlauf und Studienabbrüche. Im Ergebnis erhalten wir, dass sich ein Studienabbruch schon in der Studieneingangsphase anhand der erworbenen Leistungspunkte und der Selbsteinschätzung der Studierenden sehr genau vorhersagen lässt. Hingegen liefern die Schulnote und die sozialen Hintergrundmerkmale keine zusätzliche Information für einen Studienabbruch.</p></div></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"14 3-4","pages":"225 - 266"},"PeriodicalIF":0.0,"publicationDate":"2020-12-03","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://sci-hub-pdf.com/10.1007/s11943-020-00278-5","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"50444904","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-11-24DOI: 10.1007/s11943-020-00277-6
Marco Caliendo, Joachim Grammig, Hilmar Schneider
{"title":"Reinhard Hujer – Ein Forscherleben als Spiegelbild der Ökonometrie","authors":"Marco Caliendo, Joachim Grammig, Hilmar Schneider","doi":"10.1007/s11943-020-00277-6","DOIUrl":"10.1007/s11943-020-00277-6","url":null,"abstract":"","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"14 3-4","pages":"219 - 223"},"PeriodicalIF":0.0,"publicationDate":"2020-11-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://sci-hub-pdf.com/10.1007/s11943-020-00277-6","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"50511516","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-09-01DOI: 10.1007/s11943-020-00275-8
Tobias Schoch, André Müller
The credibility of microsimulation modeling with the research community and policymakers depends on high-quality baseline surveys. Quality problems with the baseline survey tend to impair the quality of microsimulation built on top of the survey data. We address two potential issues that both relate to skewed and heavy-tailed distributions.
First, we find that ultra-high-income households are under-represented in the baseline household survey. Moreover, the sample estimate of average income underestimates the known population average. Although the Deville–Särndal calibration method corrects the under-representation, it cannot achieve alignment of estimated average income in the right tail of the distribution with known population values without distorting the empirical income distribution. To overcome the problem, we introduce a Pareto tail model. With the help of the tail model, we can adjust the sample income distribution in the tail to meet the alignment targets. Our method can be a useful tool for microsimulation modelers working with survey income data.
The second contribution refers to the treatment of an outlier-prone variable that has been added to the survey by record linkage (our empirical example is health care cost). The nature of the baseline survey is not affected by record linkage, that is, the baseline survey still covers only a small part of the population. Hence, the sampling weights are relatively large. An outlying observation together with a high sampling weight can heavily influence or even ruin an estimate of a population characteristic. Thus, we argue that it is beneficial—in terms of mean square error—to use robust estimation and alignment methods, because robust methods are less affected by the presence of outliers.
{"title":"Treatment of sample under-representation and skewed heavy-tailed distributions in survey-based microsimulation: An analysis of redistribution effects in compulsory health care insurance in Switzerland","authors":"Tobias Schoch, André Müller","doi":"10.1007/s11943-020-00275-8","DOIUrl":"10.1007/s11943-020-00275-8","url":null,"abstract":"<div><p> The credibility of microsimulation modeling with the research community and policymakers depends on high-quality baseline surveys. Quality problems with the baseline survey tend to impair the quality of microsimulation built on top of the survey data. We address two potential issues that both relate to skewed and heavy-tailed distributions.</p><p>First, we find that ultra-high-income households are under-represented in the baseline household survey. Moreover, the sample estimate of average income underestimates the known population average. Although the Deville–Särndal calibration method corrects the under-representation, it cannot achieve alignment of estimated average income in the right tail of the distribution with known population values without distorting the empirical income distribution. To overcome the problem, we introduce a Pareto tail model. With the help of the tail model, we can adjust the sample income distribution in the tail to meet the alignment targets. Our method can be a useful tool for microsimulation modelers working with survey income data.</p><p>The second contribution refers to the treatment of an outlier-prone variable that has been added to the survey by record linkage (our empirical example is health care cost). The nature of the baseline survey is not affected by record linkage, that is, the baseline survey still covers only a small part of the population. Hence, the sampling weights are relatively large. An outlying observation together with a high sampling weight can heavily influence or even ruin an estimate of a population characteristic. Thus, we argue that it is beneficial—in terms of mean square error—to use robust estimation and alignment methods, because robust methods are less affected by the presence of outliers.</p></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"14 3-4","pages":"267 - 304"},"PeriodicalIF":0.0,"publicationDate":"2020-09-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://sci-hub-pdf.com/10.1007/s11943-020-00275-8","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"50437269","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-07-16DOI: 10.1007/s11943-020-00273-w
Bernd Fitzenberger, Arnim Seidlitz
Zusammenfassung
In Westdeutschland stieg zwischen 1980 und 2010 die Lohnungleichheit von Vollzeitbeschäftigten deutlich an. Der Anstieg beschränkte sich zunächst auf den oberen Bereich der Lohnverteilung und setzte sich ab Mitte der 1990er Jahre sowohl im oberen als auch im unteren Bereich der Lohnverteilung fort. Im Zeitraum 1995 bis 2010 ging die Entwicklung mit starken Reallohnverlusten im unteren Bereich der Lohnverteilung einher. Nach 2010 stiegen die Reallöhne über die gesamte Lohnverteilung deutlich an, aber die Lohnungleichheit für Vollzeitbeschäftigte verblieb auf hohem Niveau trotz eines leichten Rückgangs am untersten Ende der Verteilung ab 2015. Dieser Beitrag dokumentiert und interpretiert die Entwicklung der Lohnungleichheit und geht auf mögliche Datenprobleme ein.
{"title":"Die Lohnungleichheit von Vollzeitbeschäftigten in Deutschland: Rückblick und Überblick","authors":"Bernd Fitzenberger, Arnim Seidlitz","doi":"10.1007/s11943-020-00273-w","DOIUrl":"10.1007/s11943-020-00273-w","url":null,"abstract":"<div><h2>Zusammenfassung</h2><div><p> In Westdeutschland stieg zwischen 1980 und 2010 die Lohnungleichheit von Vollzeitbeschäftigten deutlich an. Der Anstieg beschränkte sich zunächst auf den oberen Bereich der Lohnverteilung und setzte sich ab Mitte der 1990er Jahre sowohl im oberen als auch im unteren Bereich der Lohnverteilung fort. Im Zeitraum 1995 bis 2010 ging die Entwicklung mit starken Reallohnverlusten im unteren Bereich der Lohnverteilung einher. Nach 2010 stiegen die Reallöhne über die gesamte Lohnverteilung deutlich an, aber die Lohnungleichheit für Vollzeitbeschäftigte verblieb auf hohem Niveau trotz eines leichten Rückgangs am untersten Ende der Verteilung ab 2015. Dieser Beitrag dokumentiert und interpretiert die Entwicklung der Lohnungleichheit und geht auf mögliche Datenprobleme ein.</p></div></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"14 2","pages":"125 - 143"},"PeriodicalIF":0.0,"publicationDate":"2020-07-16","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://sci-hub-pdf.com/10.1007/s11943-020-00273-w","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"50486817","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-07-14DOI: 10.1007/s11943-020-00272-x
Göran Kauermann, Michael Windmann, Ralf Münnich
Zusammenfassung
Der Artikel diskutiert die verschiedenen Methoden bei der Datenerhebung von Mietspiegeln. Es werden Vor- und Nachteile der in der Praxis zu findenden Methoden diskutiert und aus dem statistischen Blickwinkel beleuchtet. Dabei gehen wir den drei Fragen nach: Wer wird befragt? Wie wird befragt? Wie erfolgt die Stichprobenziehung? Neben statistischen Aspekten werden die Mietspiegel der 30 größten Städte als Beispiel herangezogen, um aufzuzeigen, dass die angewandte Methodik in der Praxis sehr heterogen ist.
{"title":"Datenerhebung bei Mietspiegeln: Überblick und Einordnung aus Sicht der Statistik","authors":"Göran Kauermann, Michael Windmann, Ralf Münnich","doi":"10.1007/s11943-020-00272-x","DOIUrl":"10.1007/s11943-020-00272-x","url":null,"abstract":"<div><h2>Zusammenfassung</h2><div><p>Der Artikel diskutiert die verschiedenen Methoden bei der Datenerhebung von Mietspiegeln. Es werden Vor- und Nachteile der in der Praxis zu findenden Methoden diskutiert und aus dem statistischen Blickwinkel beleuchtet. Dabei gehen wir den drei Fragen nach: Wer wird befragt? Wie wird befragt? Wie erfolgt die Stichprobenziehung? Neben statistischen Aspekten werden die Mietspiegel der 30 größten Städte als Beispiel herangezogen, um aufzuzeigen, dass die angewandte Methodik in der Praxis sehr heterogen ist.</p></div></div>","PeriodicalId":100134,"journal":{"name":"AStA Wirtschafts- und Sozialstatistisches Archiv","volume":"14 2","pages":"145 - 162"},"PeriodicalIF":0.0,"publicationDate":"2020-07-14","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://sci-hub-pdf.com/10.1007/s11943-020-00272-x","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"50480601","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}