203 / 2024-09-04 20:09:46
迭代式数据聚焦工具
全文待审
吴潼 / 西南科技大学
左来盼 / 西南科技大学
朱永洁 / 西南科技大学
作品提出了一种基于数据字段 属性频数统计特征 (AFSFR) 的自动化数据切片方法,并结合 AutoVis 和 Data Preprocessing Methods 设计开发了 AutoEDA-Segment。针对数据探索分析的 聚焦字段 序列 (CFS) 问题,本研究结合多种分类模型,利用 AFSFR 结合 field type 和指数特征的 拐点最优 (EIP) 设 计了 一套字段类型识别及字段价值评估方法。对于聚焦分析效果评估题,方案围绕自定义 CFS 的方式, 提供聚类可视效果和基于 字段类型搜索树 (FST) 的分析方案和簇类对比画像。此外,为了提升聚焦子集分 析数据的价值,方案引入 平行坐标过滤器 (PCF),形成 EDA 闭环,以达到 迭代式数据探索 (IEDA- UC)。最后,我们邀请不同经验水平的可视化方向研究生进行合作和讨论,结合 Kaggle 开放结构化数据,验证了方案的有效性和可行性。在面对一份新的结构化数据时,在聚焦分析目标中,用户往往会带着一些分析需求,例如如何进行数据切片、如何进行数据字段的选择以及如何比较聚焦数据和原始数据的区别等。现有工作在自动化数据探索、可视化推荐和迭代式分析方面取得了重要进展,但仍缺乏一个综合性的框架来有效地整合字段感知、CFS驱动的可视化和聚类分析,以及基于这些元素的迭代式探索流程。我们提出的EDA-Segment方法旨在弥补这一空白,通过AFSFR、CFS驱动的分析和IEDA-UC流程,为自动化数据探索分析提供了一个更全面、高效的解决方案。
重要日期
  • 会议日期

    10月30日

    2024

    10月31日

    2024

  • 11月30日 2024

    初稿截稿日期

主办单位
中国虚拟现实大赛组委会
中国虚拟现实大赛指导委员会
承办单位
长春大学
VR中国
联系方式
历届会议
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询