• 首页
  • 期刊简介
  • 编委会
  • 投稿指南
  • 收录情况
  • 杂志订阅
  • 联系我们
引用本文:郭开彦,王洪亚,程炜东.基于主动学习的数据清洗系统[J].软件工程,2018,21(9):37-40.【点击复制】
【打印本页】   【下载PDF全文】   【查看/发表评论】  【下载PDF阅读器】  
←前一篇|后一篇→ 过刊浏览
分享到: 微信 更多
基于主动学习的数据清洗系统
郭开彦,王洪亚,程炜东
(东华大学计算机科学与技术学院,上海 201620)
摘 要: ADC(Active learning based data cleaning system)运用主动学习的方法,在高效的清洗过程中,部分 利用用户交互,提升模型清洗能力,提高数据质量。ADC包含学习模块和选择模块。在学习模块中,模块维护一个概 率分类器,计算确定度(模型对修复结果的确定程度),利用确定度为数据修复做决策。在选择模块中,模块运行数据选 择算法,选择最不确定、最有利于数据质量提升的数据交给用户清洗,再选择高分类贡献度的干净数据补充到训练集 中,逐步提升模型的修复能力。系统演示表明,ADC系统只需要很少的用户参与,就可以极大地提高数据质量,从而 提升了数据清洗的效率。
关键词: 数据清洗;主动学习;确定度
中图分类号: TP319    文献标识码: A
基金项目: 本文工作受国家自然科学基金(编号61370205),上海市自然科学基金(编号13ZR1400800)资助.
The Active Learning Based Data Cleaning System
GUO Kaiyan,WANG Hongya,CHENG Weidong
( School of Computer Science and Technology, Donghua University, Shanghai 201620, China)
Abstract: In order to enhance cleaning capability of the model and improve data quality,ADC (Active-learning-based Data Cleaning system) uses active learning methods to partially utilize user interactions during the process of efficient cleaning.ADC contains two modules:the learning module and the selection module.The learning module maintains a probability classifier,calculates certainty (how the model determines the repair result),and uses certainty to make decisions for data repair.The selection module runs a data selection algorithm,which selects the data that is most uncertain and most conducive to the improvement of data quality,and then sends the results to the user for cleaning.Following this the selection module selects the clean data with high classification contribution to supplement the training set,and then gradually enhances the repair ability of the model.
Keywords: data cleaning;active learning;certainty


版权所有:软件工程杂志社
地址:辽宁省沈阳市浑南区新秀街2号 邮政编码:110179
电话:0411-84767887 传真:0411-84835089 Email:semagazine@neusoft.edu.cn
备案号:辽ICP备17007376号-1
技术支持:北京勤云科技发展有限公司

用微信扫一扫

用微信扫一扫