一种基于多粒度文本特征表示的微博用户兴趣识别方法,包括:对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;
从主题层、词序层和词汇层三个方面构造文本向量;
对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;
将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。
本发明提供的方法,综合多粒度文本特征的考量,提高了模型的表征能力,进而提高文本分类的准确性,达到精准分类的效果,能够解决社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题。