• 首页
  • 期刊简介
  • 编委会
  • 投稿指南
  • 收录情况
  • 杂志订阅
  • 联系我们
引用本文:张小川,余林峰,桑瑞婷,张宜浩.融合CNN和LDA的短文本分类研究[J].软件工程,2018,21(6):17-21.【点击复制】
【打印本页】   【下载PDF全文】   【查看/发表评论】  【下载PDF阅读器】  
←前一篇|后一篇→ 过刊浏览
分享到: 微信 更多
融合CNN和LDA的短文本分类研究
张小川,余林峰,桑瑞婷,张宜浩
(重庆理工大学计算机科学与工程学院,重庆 401320)
摘 要: 应用卷积神经网络分类文本是自然语言处理领域的研究热点,针对神经网络输入矩阵只提取词粒度层面 的词向量矩阵,忽略了文本粒度层面整体语义特征的表达,导致文本特征表示不充分,影响分类准确度的问题。本文提 出一种结合word2vec和LDA主题模型的文本表示矩阵,结合词义特征和语义特征,输入卷积神经网络进行文本分类, 以丰富池化层特征,达到精确分类的效果。对本文提出模型进行文本分类实验,结果表明,本文算法相比传统特征输入 的卷积神经网络文本分类,在F度量值上取得一定程度的提升。
关键词: 卷积神经网络;主题模型;LDA;word2vec
中图分类号: TP391    文献标识码: A
基金项目: 本文受国家自然科学基金(NO.61702063),重庆市重大科技项目(cstc2013jcsf-jcssX0020).
A Study of the Short Text Classification with CNN and LDA
ZHANG Xiaochuan,YU Linfeng,SANG Ruiting,ZHANG Yihao
( School of Computer Science and Engineering, Chongqing University of Technology, Chongqing 401320)
Abstract: The application of convolution neural network to classify texts is a research hotspot in the field of natural language processing.The traditional input matrix only extracts the word vector matrix in the word granularity level,neglects the expression of the whole semantic feature of the text granularity level,which leads to the problem of insufficient text features representation.This paper proposes a text representation matrix,which combines word2vec and LDA topic model,not only considers the word meaning and ,but also combines thematic semantic features,and inputs CNN to classify the text,so as to enrich the characteristics of the pool layer and achieve the effect of precise classification.The text classification experiment shows that proposed method achieves a certain degree of improvement in F value compared with KNN and SVM classification algorithms.
Keywords: convolution neural network;theme model;LDA;word2vec


版权所有:软件工程杂志社
地址:辽宁省沈阳市浑南区新秀街2号 邮政编码:110179
电话:0411-84767887 传真:0411-84835089 Email:semagazine@neusoft.edu.cn
备案号:辽ICP备17007376号-1
技术支持:北京勤云科技发展有限公司

用微信扫一扫

用微信扫一扫