{"title":"大数据技术在哥伦比亚covid-19大流行状况分析中的应用","authors":"Jorge Luis Quintero López, Andrés Arismendi Ramírez, Angela Liceth Pérez Rendon","doi":"10.22490/25394088.5612","DOIUrl":null,"url":null,"abstract":"En la actualidad de la pandemia, se presenta la necesidad de procesar grandes volúmenes de información generados por casos reportados positivos, con el fin de identificar patrones que conlleven a afrontar la emergencia con medidas de contingencia oportunas. En el presente estudio se plantea el tratamiento de un data set de la población general de Colombia, con información comprendida del mes de marzo y abril del 2021, con el fin de caracterizar, georreferenciar y predecir para darle valor a los datos, en busca de una comprensión de la dinámica del virus, para lo que se utilizaron tres modelos Naive Bayes, Random Forest y árboles J-48, buscando identificar aquel con mayor precisión; al usar el aplicativo Weka se llega a la conclusión de que el modelo que mejor se ajusta a la predicción, es el algoritmo de clasificación de árboles J-48 con un nivel de clasificación de instancias correctas de 99.24%, con un valor de Kappa de 0.9266 informando que se aproxima al 100 % de concordancia en la clasificación de las clases, con una cantidad, para este caso, de estudio de 221.583 clases y la predicción con 30 clases tomadas de la base original que consta de aproximadamente 2.774.465 datos. Al aplicar pruebas estadísticas se logra identificar la correlación entre los atributos, que llevan a garantizar el correcto modelado para la predicción. Este proceso se convierte en un insumo potencial para apoyar los procesos de administración de la sociedad y que beneficie las decisiones que se toman en términos de salud pública.","PeriodicalId":32115,"journal":{"name":"Publicaciones e Investigacion","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2021-12-15","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Tecnología de Big Data en el análisis del estado de la pandemia por covid-19 en Colombia\",\"authors\":\"Jorge Luis Quintero López, Andrés Arismendi Ramírez, Angela Liceth Pérez Rendon\",\"doi\":\"10.22490/25394088.5612\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"En la actualidad de la pandemia, se presenta la necesidad de procesar grandes volúmenes de información generados por casos reportados positivos, con el fin de identificar patrones que conlleven a afrontar la emergencia con medidas de contingencia oportunas. En el presente estudio se plantea el tratamiento de un data set de la población general de Colombia, con información comprendida del mes de marzo y abril del 2021, con el fin de caracterizar, georreferenciar y predecir para darle valor a los datos, en busca de una comprensión de la dinámica del virus, para lo que se utilizaron tres modelos Naive Bayes, Random Forest y árboles J-48, buscando identificar aquel con mayor precisión; al usar el aplicativo Weka se llega a la conclusión de que el modelo que mejor se ajusta a la predicción, es el algoritmo de clasificación de árboles J-48 con un nivel de clasificación de instancias correctas de 99.24%, con un valor de Kappa de 0.9266 informando que se aproxima al 100 % de concordancia en la clasificación de las clases, con una cantidad, para este caso, de estudio de 221.583 clases y la predicción con 30 clases tomadas de la base original que consta de aproximadamente 2.774.465 datos. Al aplicar pruebas estadísticas se logra identificar la correlación entre los atributos, que llevan a garantizar el correcto modelado para la predicción. Este proceso se convierte en un insumo potencial para apoyar los procesos de administración de la sociedad y que beneficie las decisiones que se toman en términos de salud pública.\",\"PeriodicalId\":32115,\"journal\":{\"name\":\"Publicaciones e Investigacion\",\"volume\":\" \",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2021-12-15\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Publicaciones e Investigacion\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.22490/25394088.5612\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Publicaciones e Investigacion","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.22490/25394088.5612","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Tecnología de Big Data en el análisis del estado de la pandemia por covid-19 en Colombia
En la actualidad de la pandemia, se presenta la necesidad de procesar grandes volúmenes de información generados por casos reportados positivos, con el fin de identificar patrones que conlleven a afrontar la emergencia con medidas de contingencia oportunas. En el presente estudio se plantea el tratamiento de un data set de la población general de Colombia, con información comprendida del mes de marzo y abril del 2021, con el fin de caracterizar, georreferenciar y predecir para darle valor a los datos, en busca de una comprensión de la dinámica del virus, para lo que se utilizaron tres modelos Naive Bayes, Random Forest y árboles J-48, buscando identificar aquel con mayor precisión; al usar el aplicativo Weka se llega a la conclusión de que el modelo que mejor se ajusta a la predicción, es el algoritmo de clasificación de árboles J-48 con un nivel de clasificación de instancias correctas de 99.24%, con un valor de Kappa de 0.9266 informando que se aproxima al 100 % de concordancia en la clasificación de las clases, con una cantidad, para este caso, de estudio de 221.583 clases y la predicción con 30 clases tomadas de la base original que consta de aproximadamente 2.774.465 datos. Al aplicar pruebas estadísticas se logra identificar la correlación entre los atributos, que llevan a garantizar el correcto modelado para la predicción. Este proceso se convierte en un insumo potencial para apoyar los procesos de administración de la sociedad y que beneficie las decisiones que se toman en términos de salud pública.