Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación en la Encuesta Permanente de Hogares (EPH)
{"title":"Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación en la Encuesta Permanente de Hogares (EPH)","authors":"Germán Rosati","doi":"10.35305/s.v9i1.132","DOIUrl":null,"url":null,"abstract":"El presente documento se propone exponer los avances realizados en la construccion de un modelo de imputacion de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentara la propuesta metodologica general y los resultados de las pruebas realizadas. Se evaluan dos tipos de modelos de imputacion de datos perdidos: 1) el metodo hot-deck (ampliamente utilizado por relevamientos importantes en el Sistema Estadistico Nacional, tales como la Encuesta Permanente de Hogares y la Encuesta Anual de Hogares de la Ciudad de Buenos Aires) y 2) un ensamble de modelos de regresion LASSO (Least Absolute Shrinkage and Selection Operator). El mismo se basa en la generacion de multiples modelos de regresion LASSO a traves del algoritmo bagging y de su agregacion para la generacion de la imputacion final. En la primera y segunda parte del documento plantea el problema de forma mas especifica y se pasa revista a los principales mecanismos de generacion de los valores perdidos y las implicancias que los mismos tienen al momento de generar modelos de imputacion. En el tercer apartado se resenan los metodos de imputacion mas habitualmente utilizados, enfatizando sus ventajas y limitaciones. En la cuarta parte, se desarrollan los fundamentos teoricos y metodologicos de las dos tecnicas de imputacion propuestas. Finalmente, en la quinta seccion, se presentan algunos resultados de la aplicacion de los metodos propuestos a datos de la Encuesta Permanente de Hogares.","PeriodicalId":40568,"journal":{"name":"SaberEs","volume":"54 93 1","pages":"68-89"},"PeriodicalIF":0.2000,"publicationDate":"2017-06-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"SaberEs","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35305/s.v9i1.132","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"ECONOMICS","Score":null,"Total":0}
引用次数: 1
Abstract
El presente documento se propone exponer los avances realizados en la construccion de un modelo de imputacion de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentara la propuesta metodologica general y los resultados de las pruebas realizadas. Se evaluan dos tipos de modelos de imputacion de datos perdidos: 1) el metodo hot-deck (ampliamente utilizado por relevamientos importantes en el Sistema Estadistico Nacional, tales como la Encuesta Permanente de Hogares y la Encuesta Anual de Hogares de la Ciudad de Buenos Aires) y 2) un ensamble de modelos de regresion LASSO (Least Absolute Shrinkage and Selection Operator). El mismo se basa en la generacion de multiples modelos de regresion LASSO a traves del algoritmo bagging y de su agregacion para la generacion de la imputacion final. En la primera y segunda parte del documento plantea el problema de forma mas especifica y se pasa revista a los principales mecanismos de generacion de los valores perdidos y las implicancias que los mismos tienen al momento de generar modelos de imputacion. En el tercer apartado se resenan los metodos de imputacion mas habitualmente utilizados, enfatizando sus ventajas y limitaciones. En la cuarta parte, se desarrollan los fundamentos teoricos y metodologicos de las dos tecnicas de imputacion propuestas. Finalmente, en la quinta seccion, se presentan algunos resultados de la aplicacion de los metodos propuestos a datos de la Encuesta Permanente de Hogares.