在一致性和完整性维度上进行数据清理的“监督学习”

IF 0.5 Q4 ENGINEERING, MULTIDISCIPLINARY Ingenieria y Competitividad Pub Date : 2022-06-07 DOI:10.25100/iyc.v24i02.11361
Juan Carlos Amezquita Tovar, Hermes Javier Eslava Blanco
{"title":"在一致性和完整性维度上进行数据清理的“监督学习”","authors":"Juan Carlos Amezquita Tovar, Hermes Javier Eslava Blanco","doi":"10.25100/iyc.v24i02.11361","DOIUrl":null,"url":null,"abstract":"La información se ha convertido en un activo para las compañías debido a que la mayoría de las decisiones estratégicas de los negocios están basadas en el análisis de los datos, sin embargo, no siempre se obtienen los mejores resultados en estos análisis debido a la baja calidad de la información.  La calidad de la información tiene varias dimensiones de evaluación, lo cual hace compleja la tarea de lograr un nivel adecuado de calidad. Una de las principales actividades antes de proceder con cualquier tipo de análisis es el preprocesamiento de los datos. Esta actividad es una de las más demandantes en tiempo y no siempre se obtienen los niveles esperados de calidad o se cubren las dimensiones de evaluación de mayor impacto. Este trabajo propone el uso de machine learning como herramienta para realizar limpieza de datos en la dimensión de completitud y coherencia, su validación se hace sobre un conjunto de datos suministrado por una entidad estatal encargada de la protección de los derechos de los niños a nivel nacional. El trabajo de investigación inicia con la selección de las herramientas de procesamiento la información, el análisis descriptivo de los datos, la identificación puntual de los problemas a los cuales se aplicarán las técnicas de machine learning para mejorar la calidad de los datos, experimentación y evaluación de los diferentes modelos y finalmente la implementación del modelo de mejor desempeño. Dentro de los resultados de este trabajo se tiene una mejora en la dimensión de completitud disminuyendo en un 4.9% los datos nulos y en la dimensión de coherencia un 2.6% de los registros con contradicciones, validando de esta forma el uso de machine learning para la limpieza de datos.","PeriodicalId":43348,"journal":{"name":"Ingenieria y Competitividad","volume":null,"pages":null},"PeriodicalIF":0.5000,"publicationDate":"2022-06-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"“Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud\",\"authors\":\"Juan Carlos Amezquita Tovar, Hermes Javier Eslava Blanco\",\"doi\":\"10.25100/iyc.v24i02.11361\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"La información se ha convertido en un activo para las compañías debido a que la mayoría de las decisiones estratégicas de los negocios están basadas en el análisis de los datos, sin embargo, no siempre se obtienen los mejores resultados en estos análisis debido a la baja calidad de la información.  La calidad de la información tiene varias dimensiones de evaluación, lo cual hace compleja la tarea de lograr un nivel adecuado de calidad. Una de las principales actividades antes de proceder con cualquier tipo de análisis es el preprocesamiento de los datos. Esta actividad es una de las más demandantes en tiempo y no siempre se obtienen los niveles esperados de calidad o se cubren las dimensiones de evaluación de mayor impacto. Este trabajo propone el uso de machine learning como herramienta para realizar limpieza de datos en la dimensión de completitud y coherencia, su validación se hace sobre un conjunto de datos suministrado por una entidad estatal encargada de la protección de los derechos de los niños a nivel nacional. El trabajo de investigación inicia con la selección de las herramientas de procesamiento la información, el análisis descriptivo de los datos, la identificación puntual de los problemas a los cuales se aplicarán las técnicas de machine learning para mejorar la calidad de los datos, experimentación y evaluación de los diferentes modelos y finalmente la implementación del modelo de mejor desempeño. Dentro de los resultados de este trabajo se tiene una mejora en la dimensión de completitud disminuyendo en un 4.9% los datos nulos y en la dimensión de coherencia un 2.6% de los registros con contradicciones, validando de esta forma el uso de machine learning para la limpieza de datos.\",\"PeriodicalId\":43348,\"journal\":{\"name\":\"Ingenieria y Competitividad\",\"volume\":null,\"pages\":null},\"PeriodicalIF\":0.5000,\"publicationDate\":\"2022-06-07\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Ingenieria y Competitividad\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.25100/iyc.v24i02.11361\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"ENGINEERING, MULTIDISCIPLINARY\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Ingenieria y Competitividad","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25100/iyc.v24i02.11361","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"ENGINEERING, MULTIDISCIPLINARY","Score":null,"Total":0}
引用次数: 0

摘要

信息已成为一个活跃的公司由于业务大部分战略决策都是基于数据分析的,但是不一定获得最佳结果,这些分析由于信息质量偏低。信息质量有几个评价维度,这使得达到适当质量水平的任务变得复杂。在进行任何类型的分析之前,主要的活动之一是数据预处理。这一活动是最耗时的活动之一,并不总是达到预期的质量水平或涵盖影响最大的评价方面。这项工作建议使用机器学习作为工具,在完整性和一致性方面进行数据清理,其验证是在国家一级负责保护儿童权利的国家实体提供的一组数据上进行的。研究工作开始选择的信息处理工具、数据分析,及时识别技术,这些问题可能machine learning在提高数据质量、试验和评估各种模型和模型的最终实现更好的性能。在这个工作的结果是有指标改进completitud下滑4.9%空数据和一致性方面记录的2.6%与矛盾、validando这样利用machine learning清理数据。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
“Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud
La información se ha convertido en un activo para las compañías debido a que la mayoría de las decisiones estratégicas de los negocios están basadas en el análisis de los datos, sin embargo, no siempre se obtienen los mejores resultados en estos análisis debido a la baja calidad de la información.  La calidad de la información tiene varias dimensiones de evaluación, lo cual hace compleja la tarea de lograr un nivel adecuado de calidad. Una de las principales actividades antes de proceder con cualquier tipo de análisis es el preprocesamiento de los datos. Esta actividad es una de las más demandantes en tiempo y no siempre se obtienen los niveles esperados de calidad o se cubren las dimensiones de evaluación de mayor impacto. Este trabajo propone el uso de machine learning como herramienta para realizar limpieza de datos en la dimensión de completitud y coherencia, su validación se hace sobre un conjunto de datos suministrado por una entidad estatal encargada de la protección de los derechos de los niños a nivel nacional. El trabajo de investigación inicia con la selección de las herramientas de procesamiento la información, el análisis descriptivo de los datos, la identificación puntual de los problemas a los cuales se aplicarán las técnicas de machine learning para mejorar la calidad de los datos, experimentación y evaluación de los diferentes modelos y finalmente la implementación del modelo de mejor desempeño. Dentro de los resultados de este trabajo se tiene una mejora en la dimensión de completitud disminuyendo en un 4.9% los datos nulos y en la dimensión de coherencia un 2.6% de los registros con contradicciones, validando de esta forma el uso de machine learning para la limpieza de datos.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
Ingenieria y Competitividad
Ingenieria y Competitividad ENGINEERING, MULTIDISCIPLINARY-
自引率
20.00%
发文量
38
期刊最新文献
Análisis de biochar y metales: una revisión sistemática y análisis bibliométrico Algoritmos de inteligencia artificial basada en perfiles socio conductuales para la segmentación inteligente de clientes: estudio de caso Influencia del catalizador en las propiedades fisicoquímicas de metil ésteres obtenidos a partir de aceite de Chrysobalanus icaco Andamios porosos para ingeniería de tejidos óseos: características geométricas, requerimientos de uso, y materiales y métodos de manufactura aditiva Caracterización de líquidos en la región de microondas usando sensor de permitividad dieléctrica
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1