• 首页
  • 期刊简介
  • 编委会
  • 投稿指南
  • 收录情况
  • 杂志订阅
  • 联系我们
引用本文:黄春梅,王松磊.基于词袋模型和TF-IDF的短文本分类研究[J].软件工程,2020,23(3):1-3.【点击复制】
【打印本页】   【下载PDF全文】   【查看/发表评论】  【下载PDF阅读器】  
←前一篇|后一篇→ 过刊浏览
分享到: 微信 更多
基于词袋模型和TF-IDF的短文本分类研究
黄春梅,王松磊
(哈尔滨师范大学计算机科学与信息工程学院,黑龙江 哈尔滨 150025)
摘 要: 自然语言处理是人工智能领域中的一个热门方向,而文本分类作为自然语言处理中的关键技术受到专家 学者的广泛关注。随着计算机网络的发展,海量的文本踊跃出来。文本越来越多,通过人工对文本进行分类的成本越来 越高。本文针对短文本分类问题,使用词袋模型从词向量中提取词频矩阵,删除停止词与低频词。再使用TF-IDF算法 提取文本特征,进行文本分类研究,最终可以使短文本以较高的正确率归类。
关键词: 自然语言处理;短文本分类;词袋模型;TF-IDF
中图分类号: TP391.1    文献标识码: A
基金项目: 国家自然科学基金项目(61202458/61403109);黑龙江省自然科学基金项目(F2017021).
Research on Short Text Classification Based on Bag of Words and TF-IDF
HUANG Chunmei,WANG Songlei
( College of Computer Science and Information Engineering, Harbin Normal University, Harbin 150025, China)
Abstract: Natural language processing (NLP) is a hot field in the field of artificial intelligence.Text categorization,as a key technology in NLP,has attracted extensive attention from experts and scholars.With the development of computer networks,massive texts have come out enthusiastically.As there are more and more texts,it becomes more and more expensive to classify them manually.In this paper,we use the bag of words model to extract the word frequency matrix from the word vectors and delete the stop words and low-frequency words.Then TF-IDF algorithm is used to extract text features and conduct text classification research so that the short text can be classified with high accuracy.
Keywords: natural language processing;short text classification;bag of words;TF-IDF


版权所有:软件工程杂志社
地址:辽宁省沈阳市浑南区新秀街2号 邮政编码:110179
电话:0411-84767887 传真:0411-84835089 Email:semagazine@neusoft.edu.cn
备案号:辽ICP备17007376号-1
技术支持:北京勤云科技发展有限公司

用微信扫一扫

用微信扫一扫