{"title":"Nested and Repeated Cross Validation for Classification Model With High-Dimensional Data","authors":"Yi Zhong, Jianghua He, P. Chalise","doi":"10.15446/RCE.V43N1.80000","DOIUrl":null,"url":null,"abstract":"Con la llegada de las tecnologias de alto rendimiento, los conjuntos de datos de alta dimension estan cada vez mas disponibles. Esto no solo ha abierto una nueva vision acerca de los sistemas biologicos, sino que tambien plantea desafios analiticos. Un problema importante es la seleccion de subconjuntos de variables y la prediccion de resultados futuros. Es crucial que los modelos no sean sobreajustados y que den resultados precisos con nuevos datos. Ademas, la identificaci on confiable de variables informativas con alto poder predictivo (seleccion de caracteristicas) es de interes en entornos clinicos. Proponemos un procedimiento de dos etapas para la seleccion de variables y la construccion de modelos de clasificacion, el cual utiliza un metodo de validacion cruzada anidada y repetida. Evaluamos nu\\-estro enfoque utilizando tanto datos simulados como dos conjuntos de datos de expresion genica disponibles publicamente. El metodo propuesto mostro una precision predictiva comparativamente mejor para casos nuevos en comparacion con el metodo estandar de validacion cruzada.","PeriodicalId":54477,"journal":{"name":"Revista Colombiana De Estadistica","volume":"605 1","pages":"103-125"},"PeriodicalIF":0.0000,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"13","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Colombiana De Estadistica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.15446/RCE.V43N1.80000","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"Mathematics","Score":null,"Total":0}
引用次数: 13
Abstract
Con la llegada de las tecnologias de alto rendimiento, los conjuntos de datos de alta dimension estan cada vez mas disponibles. Esto no solo ha abierto una nueva vision acerca de los sistemas biologicos, sino que tambien plantea desafios analiticos. Un problema importante es la seleccion de subconjuntos de variables y la prediccion de resultados futuros. Es crucial que los modelos no sean sobreajustados y que den resultados precisos con nuevos datos. Ademas, la identificaci on confiable de variables informativas con alto poder predictivo (seleccion de caracteristicas) es de interes en entornos clinicos. Proponemos un procedimiento de dos etapas para la seleccion de variables y la construccion de modelos de clasificacion, el cual utiliza un metodo de validacion cruzada anidada y repetida. Evaluamos nu\-estro enfoque utilizando tanto datos simulados como dos conjuntos de datos de expresion genica disponibles publicamente. El metodo propuesto mostro una precision predictiva comparativamente mejor para casos nuevos en comparacion con el metodo estandar de validacion cruzada.
期刊介绍:
The Colombian Journal of Statistics publishes original articles of theoretical, methodological and educational kind in any branch of Statistics. Purely theoretical papers should include illustration of the techniques presented with real data or at least simulation experiments in order to verify the usefulness of the contents presented. Informative articles of high quality methodologies or statistical techniques applied in different fields of knowledge are also considered. Only articles in English language are considered for publication.
The Editorial Committee assumes that the works submitted for evaluation
have not been previously published and are not being given simultaneously for publication elsewhere, and will not be without prior consent of the Committee, unless, as a result of the assessment, decides not publish in the journal. It is further assumed that when the authors deliver a document for publication in the Colombian Journal of Statistics, they know the above conditions and agree with them.