• 首页
  • 期刊简介
  • 编委会
  • 投稿指南
  • 收录情况
  • 杂志订阅
  • 联系我们
引用本文:刘 晨,焦合军.基于HADOOP集群的数据采集和清洗[J].软件工程,2016,19(11):20-24.【点击复制】
【打印本页】   【下载PDF全文】   【查看/发表评论】  【下载PDF阅读器】  
←前一篇|后一篇→ 过刊浏览
分享到: 微信 更多
基于HADOOP集群的数据采集和清洗
刘 晨1,焦合军2
(1.71320部队,河南 开封 475000
2.河南工程学院计算机学院,河南 郑州 451191)
摘 要: 互联网的到来,使计算机行业蓬勃发展,各公司的业务数据也都到达P级别的数据量。本文结合Hadoop 框架的中Hive和Hbase,对各个模块进行了详细的描述,重点分析了集群搭建步骤,及如何对集群的数据进行采集和清 洗,并通过建立表来存储分析结果。
关键词: 海量数据;Hadoop;hive;数据采集;数据清洗
中图分类号: TP311    文献标识码: A
Data Acquisition and Data Cleaning Based on the Hadoop Cluster
LIU Chen,JIAO Hejun1,2
1.( 1.Unit 71320, Kaifeng 475000, China;2.School of Computer Science, Henan University of Engineering, Zhengzhou 451191, China)
Abstract: With the flourishing development of computer industry,the business data in enterprises has reached level-P. Based on Hive and Hbase in the Hadoop framework,this paper elaborates on each module and analyzes the process of cluster construction, data acquisition,data cleaning and table construction to store analysis results.
Keywords: mass data;Hadoop;hive;data acquisition;data cleaning


版权所有:软件工程杂志社
地址:辽宁省沈阳市浑南区新秀街2号 邮政编码:110179
电话:0411-84767887 传真:0411-84835089 Email:semagazine@neusoft.edu.cn
备案号:辽ICP备17007376号-1
技术支持:北京勤云科技发展有限公司

用微信扫一扫

用微信扫一扫