Development of Data Evaluation Benchmark for Data Wrangling Recommendation System

arXiv - CS - Databases Pub Date : 2024-09-16 DOI:arxiv-2409.10635

Yuqing Wang, Anna Fariha

引用次数: 0

Abstract

CoWrangler is a data-wrangling recommender system designed to streamline data processing tasks. Recognizing that data processing is often time-consuming and complex for novice users, we aim to simplify the decision-making process regarding the most effective subsequent data operation. By analyzing over 10,000 Kaggle notebooks spanning approximately 1,000 datasets, we derive insights into common data processing strategies employed by users across various tasks. This analysis helps us understand how dataset quality influences wrangling operations, informing our ongoing efforts to possibly expand our dataset sources in the future.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

为数据整理推荐系统开发数据评估基准

CoWrangler 是一个数据整理推荐系统，旨在简化数据处理任务。我们认识到数据处理对于新手用户来说往往既耗时又复杂，因此旨在简化有关最有效的后续数据操作的决策过程。通过分析跨越约 1,000 个数据集的 10,000 多本 Kaggle 笔记本，我们深入了解了用户在各种任务中采用的常见数据处理策略。这项分析有助于我们了解数据集质量如何影响数据重组操作，为我们未来可能扩大数据集来源的持续努力提供信息。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

arXiv - CS - Databases

自引率

0.00%

发文量

期刊最新文献

Development of Data Evaluation Benchmark for Data Wrangling Recommendation System Messy Code Makes Managing ML Pipelines Difficult? Just Let LLMs Rewrite the Code! Fast and Adaptive Bulk Loading of Multidimensional Points Matrix Profile for Anomaly Detection on Multidimensional Time Series Extending predictive process monitoring for collaborative processes