Порівняння регресійних моделей за наявності викидів у наборі різнотипових даних

Н. І. Бойко, К. П. Газдюк
{"title":"Порівняння регресійних моделей за наявності викидів у наборі різнотипових даних","authors":"Н. І. Бойко, К. П. Газдюк","doi":"10.36930/40330212","DOIUrl":null,"url":null,"abstract":"У дослідженні зосереджено увагу на надійній статистиці, обґрунтовано вплив надійної регресії на подолання обмежень традиційного регресійного аналізу. Закцентовано на регресійному аналізі, який моделює зв'язок між однією чи кількома незалежними змінними та залежною змінною. Описано стандартні типи регресії, такі як звичайний метод найменших квадратів, що мають сприятливі властивості. Наведено приклади оцінювання за методом найменших квадратів для регресійних моделей. Проаналізовано критерії моделей, які чутливі до викидів. Розглянуто викиди із подвійною величиною помилки, аніж типове спостереження, та з більшою величиною, що впливає на квадратичну втрату помилки, і тому має більше важелів впливу на оцінки регресії. Розглянуто аналіз лінійних моделей за оцінками параметрів за методом найменших квадратів завжди виявлялися найкращими лінійними незміщеними оцінками. Наведено порівняння властивостей цих методів, що здійснюється за допомогою моделювання. Обґрунтовано критерії порівняння їх ефективності. Досліджено критерії для M-estimators, які можуть бути вразливими до спостережень із високим важелем. Робота зосереджена на даних, які містять викиди. Досліджено їх вплив на оцінки методом найменших квадратів. Обґрунтовано застосування функції втрат Хубера, яка є надійною альтернативою стандартним квадратичним втратам помилок, та зменшує кількість викидів у квадратичні втрати помилок. Розглядається випадки втрати помилок, які обмежують їхній вплив на оцінки регресії. Досліджено алгоритм Random Sample Consensus (RANSAC) для надійної підгонки моделей. Показано його надійність у процесі аналізу викидів у експериментальних даних. Проаналізовано критерії, за яких алгоритм здатний інтерпретувати та згладжувати дані, які містять значний відсоток грубих помилок. Обґрунтовано процес генерування статистики, який покладається на звичайний метод найменших квадратів (МНК) у моделі лінійної регресії завдяки його оптимальним властивостям і простоті обчислень. Обґрунтовано МНК, який дає незміщену та мінімальну дисперсію серед усіх незміщених лінійних оцінок, коли помилки є незалежними, однаково та нормально розподіленими із середнім значенням 0 та постійною дисперсією 2σ. Показано однорідності дисперсій помилок (гомоскедастичність), що є важливим припущенням у лінійній регресії, для якої оцінки методом найменших квадратів мають властивість мінімальної дисперсії. Проведено порівняльний аналіз таких регресійних моделей: лінійна регресія (англ. Linear Regression, not Robust); регресія Губера (англ. Huber Regression); RANSA (англ. RANdom SAmple Consensus); оцінююча функція Тейла-Сена (англ. Theil-Sen Regression). У роботі проведено дослідження на вибірках із різними показниками викидів для чотирьох моделей регресій, зокрема першої не надійної (LR). Оцінено точність отриманих моделей для даних із викидами та без. Наведено дослідження, які демонструють важливість аналізу викидів у наборі даних та вибору правильного методу регресії. Розглянуто різні алгоритми, що по-різному пріоритезують важливість елементів вибірки та дають результати різної точності залежно від кількості викидів та однорідності даних.","PeriodicalId":33529,"journal":{"name":"Naukovii visnik NLTU Ukrayini","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-04-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Naukovii visnik NLTU Ukrayini","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36930/40330212","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

У дослідженні зосереджено увагу на надійній статистиці, обґрунтовано вплив надійної регресії на подолання обмежень традиційного регресійного аналізу. Закцентовано на регресійному аналізі, який моделює зв'язок між однією чи кількома незалежними змінними та залежною змінною. Описано стандартні типи регресії, такі як звичайний метод найменших квадратів, що мають сприятливі властивості. Наведено приклади оцінювання за методом найменших квадратів для регресійних моделей. Проаналізовано критерії моделей, які чутливі до викидів. Розглянуто викиди із подвійною величиною помилки, аніж типове спостереження, та з більшою величиною, що впливає на квадратичну втрату помилки, і тому має більше важелів впливу на оцінки регресії. Розглянуто аналіз лінійних моделей за оцінками параметрів за методом найменших квадратів завжди виявлялися найкращими лінійними незміщеними оцінками. Наведено порівняння властивостей цих методів, що здійснюється за допомогою моделювання. Обґрунтовано критерії порівняння їх ефективності. Досліджено критерії для M-estimators, які можуть бути вразливими до спостережень із високим важелем. Робота зосереджена на даних, які містять викиди. Досліджено їх вплив на оцінки методом найменших квадратів. Обґрунтовано застосування функції втрат Хубера, яка є надійною альтернативою стандартним квадратичним втратам помилок, та зменшує кількість викидів у квадратичні втрати помилок. Розглядається випадки втрати помилок, які обмежують їхній вплив на оцінки регресії. Досліджено алгоритм Random Sample Consensus (RANSAC) для надійної підгонки моделей. Показано його надійність у процесі аналізу викидів у експериментальних даних. Проаналізовано критерії, за яких алгоритм здатний інтерпретувати та згладжувати дані, які містять значний відсоток грубих помилок. Обґрунтовано процес генерування статистики, який покладається на звичайний метод найменших квадратів (МНК) у моделі лінійної регресії завдяки його оптимальним властивостям і простоті обчислень. Обґрунтовано МНК, який дає незміщену та мінімальну дисперсію серед усіх незміщених лінійних оцінок, коли помилки є незалежними, однаково та нормально розподіленими із середнім значенням 0 та постійною дисперсією 2σ. Показано однорідності дисперсій помилок (гомоскедастичність), що є важливим припущенням у лінійній регресії, для якої оцінки методом найменших квадратів мають властивість мінімальної дисперсії. Проведено порівняльний аналіз таких регресійних моделей: лінійна регресія (англ. Linear Regression, not Robust); регресія Губера (англ. Huber Regression); RANSA (англ. RANdom SAmple Consensus); оцінююча функція Тейла-Сена (англ. Theil-Sen Regression). У роботі проведено дослідження на вибірках із різними показниками викидів для чотирьох моделей регресій, зокрема першої не надійної (LR). Оцінено точність отриманих моделей для даних із викидами та без. Наведено дослідження, які демонструють важливість аналізу викидів у наборі даних та вибору правильного методу регресії. Розглянуто різні алгоритми, що по-різному пріоритезують важливість елементів вибірки та дають результати різної точності залежно від кількості викидів та однорідності даних.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
不同数据集中排放量回归模型的比较
这项研究的重点是基于可靠回归对克服传统回归分析局限性的影响的可靠统计数据。专注于模拟一个或多个自变量和一个自变量之间关系的回归分析。描述了标准回归类型,例如具有有利性质的最小二乘法。给出了回归模型的最小二乘法的例子。分析了排放敏感模型标准。预期的圆盘具有比默认值双倍的误差,并且具有更大的影响误差平方损失的值,因此对回归评估具有更重要的影响。使用最小二乘法对基于参数估计的线性模式进行分析一直是最佳的线性常数估计。通过建模对这些方法的性能进行了比较。比较其有效性的标准是有依据的。已经研究了可能容易受到高权重观测影响的M-估计量的标准。这项工作的重点是排放。研究了它们对最小二乘法的影响。这是基于Huber损失函数,该函数是标准平方误差损失的可靠替代方案,并将输出数量减少到平方误差损失。考虑错误丢失的情况,这些情况限制了它们对回归评估的影响。随机样本一致性(RANSAC)算法研究的可靠性建模。信任体现在实验排放分析中。分析了算法可以解释和平滑包含显著百分比总误差的数据的标准。基于典型的最小平方法(Minimum Square)在线性回归模型中由于其最优性质和计算简单。基于MRI,当误差是独立的、均匀正态分布的,平均值为0000,恒定色散为2p时,MRI在所有不平衡线性额定值之间给出恒定和最小的色散。显示了色散误差等价性(同质性),这是线性回归中的一个重要假设,其中最小二乘法估计具有最小的色散特性。对以下回归模型进行了比较:线性回归(不稳健);以及Huber回归;RANSA(随机抽样共识);评估Theil Sen回归。对四个回归模型中具有不同排放指标的样本进行了研究,包括第一个不可靠模型(LR)。估算了获得的排放和非排放数据模型的准确性。有研究表明,在数据集中分析排放量并选择正确的回归方法非常重要。已经探索了不同的算法,这些算法不同地优先考虑样本元素的重要性,并根据排放数量和数据的一致性给出不同精度的结果。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
41
审稿时长
4 weeks
期刊最新文献
Особливості фракційного впливу підстилки на надходження мікроелементів у ґрунт в умовах Жеребківського лісництва ДП "Ананьївське лісове господарство" Особливості застосування систем дистанційного навчання у формуванні компетентностей під час підготовки фахівців з інформаційних технологій Збереження та невиснажливе використання заплавних лісів України з урахуванням підходів оселищної концепції охорони природи Аналіз проблеми застосування методів машинного навчання для оцінювання та прогнозування дефектів програмного забезпечення Міждисциплінарні зв'язки інвазійної геоботаніки в контексті структури сучасного природознавства
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1