Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación en la Encuesta Permanente de Hogares (EPH)

IF 0.1 Q4 ECONOMICS SaberEs Pub Date : 2017-06-30 DOI:10.35305/s.v9i1.132

Germán Rosati

{"title":"Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación en la Encuesta Permanente de Hogares (EPH)","authors":"Germán Rosati","doi":"10.35305/s.v9i1.132","DOIUrl":null,"url":null,"abstract":"El presente documento se propone exponer los avances realizados en la construccion de un modelo de imputacion de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentara la propuesta metodologica general y los resultados de las pruebas realizadas. Se evaluan dos tipos de modelos de imputacion de datos perdidos: 1) el metodo hot-deck (ampliamente utilizado por relevamientos importantes en el Sistema Estadistico Nacional, tales como la Encuesta Permanente de Hogares y la Encuesta Anual de Hogares de la Ciudad de Buenos Aires) y 2) un ensamble de modelos de regresion LASSO (Least Absolute Shrinkage and Selection Operator). El mismo se basa en la generacion de multiples modelos de regresion LASSO a traves del algoritmo bagging y de su agregacion para la generacion de la imputacion final. En la primera y segunda parte del documento plantea el problema de forma mas especifica y se pasa revista a los principales mecanismos de generacion de los valores perdidos y las implicancias que los mismos tienen al momento de generar modelos de imputacion. En el tercer apartado se resenan los metodos de imputacion mas habitualmente utilizados, enfatizando sus ventajas y limitaciones. En la cuarta parte, se desarrollan los fundamentos teoricos y metodologicos de las dos tecnicas de imputacion propuestas. Finalmente, en la quinta seccion, se presentan algunos resultados de la aplicacion de los metodos propuestos a datos de la Encuesta Permanente de Hogares.","PeriodicalId":40568,"journal":{"name":"SaberEs","volume":"54 93 1","pages":"68-89"},"PeriodicalIF":0.1000,"publicationDate":"2017-06-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"SaberEs","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35305/s.v9i1.132","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"ECONOMICS","Score":null,"Total":0}

引用次数: 1

Abstract

El presente documento se propone exponer los avances realizados en la construccion de un modelo de imputacion de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentara la propuesta metodologica general y los resultados de las pruebas realizadas. Se evaluan dos tipos de modelos de imputacion de datos perdidos: 1) el metodo hot-deck (ampliamente utilizado por relevamientos importantes en el Sistema Estadistico Nacional, tales como la Encuesta Permanente de Hogares y la Encuesta Anual de Hogares de la Ciudad de Buenos Aires) y 2) un ensamble de modelos de regresion LASSO (Least Absolute Shrinkage and Selection Operator). El mismo se basa en la generacion de multiples modelos de regresion LASSO a traves del algoritmo bagging y de su agregacion para la generacion de la imputacion final. En la primera y segunda parte del documento plantea el problema de forma mas especifica y se pasa revista a los principales mecanismos de generacion de los valores perdidos y las implicancias que los mismos tienen al momento de generar modelos de imputacion. En el tercer apartado se resenan los metodos de imputacion mas habitualmente utilizados, enfatizando sus ventajas y limitaciones. En la cuarta parte, se desarrollan los fundamentos teoricos y metodologicos de las dos tecnicas de imputacion propuestas. Finalmente, en la quinta seccion, se presentan algunos resultados de la aplicacion de los metodos propuestos a datos de la Encuesta Permanente de Hogares.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

从集合学习中丢失值的收入变量的归因模型的构建。在永久住户调查(EPH)中的申请

在这一过程中，我们发现了一种新的方法，在这种方法中，家庭调查变量的损失和无响应值归因模型的构建取得了进展。应提出一般的方法建议和所进行的测试的结果。evaluan两种类型的模型数据imputacion年数:1)方法hot-deck(广泛用于relevamientos Estadistico系统中的重要国家,如长期家庭调查和年度家庭调查(布宜诺斯艾利斯)和(2)组合regresion LASSO模型(最不绝对Shrinkage and Selection Operator)。本文提出了一种新的方法，在此基础上，通过使用套索算法生成多个套索回归模型，并将其聚合以生成最终归因。本文的第一部分和第二部分以更具体的方式提出了这个问题，并回顾了生成丢失值的主要机制以及它们在生成归因模型时的含义。第三部分概述了最常用的归因方法，强调了它们的优点和局限性。第四部分阐述了两种归因技术的理论和方法基础。最后，在第四部分，我们提出了一些方法应用于永久住户调查数据的结果。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

SaberEs ECONOMICS-

自引率

0.00%

发文量

审稿时长

34 weeks