【技术实现步骤摘要】
一种基于自然语言处理的文本主题聚类算法
本专利技术涉及自然语言处理领域,更具体地,涉及一种基于自然语言处理的文本主题聚类算法。
技术介绍
目前,在传统的文本聚类算法中主要有以下缺点:(1)目前的中文文本分词算法的准确性不高;(2)目前的文本主题模型构建算法的准确性不高;(3)目前的文本主题聚类算法无法很好地去除历史记录对当前决策的影响,即无法与人类一样慢慢遗忘掉过于陈旧的评价文本,从而造成所挖掘到的用户关注点偏离用户最新的关注点,进而造成商家、如智能家居设备经营商改进思路的错误,造成严重的经济损失。与本专利技术最相近的方法有张万山等人(张万山,肖瑶,梁俊杰,等.基于主题的Web文本聚类方法[J].计算机应用,2014,34(11):3140-3143.)在上述已完成的研究中针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。
技术实现思路
本 ...
【技术保护点】
1.一种基于自然语言处理的文本主题聚类算法,其特征在于,包括以下步骤:S1.获取用户评论文本;S2.对用户评论文本进行数据预处理,得到用户评论文本语料库;S3.对用户评论文本语料库进行中文分词,得到用户评论文本词项库;S4.对用户评论文本词项库进行建模,得到评论文本的主题模型;S5.采用文本主题聚类算法,得到用户关注点。
【技术特征摘要】
1.一种基于自然语言处理的文本主题聚类算法,其特征在于,包括以下步骤:S1.获取用户评论文本;S2.对用户评论文本进行数据预处理,得到用户评论文本语料库;S3.对用户评论文本语料库进行中文分词,得到用户评论文本词项库;S4.对用户评论文本词项库进行建模,得到评论文本的主题模型;S5.采用文本主题聚类算法,得到用户关注点。2.根据权利要求1所述的基于自然语言处理的文本主题聚类算法,其特征在于,所述步骤S2中的数据预处理具体过程如下:对用户评论文本语料库进行格式规范化处理,去除标点符号、高频虚词和低频词,得到经过预处理的用户评论文本语料库。3.根据权利要求1所述的基于自然语言处理的文本主题聚类算法,其特征在于,所述步骤S3的中文分词采用基于Attention、BiLSTM网络和CRF条件随机场的中文分词算法,具体包括以下步骤:S301.通过Attention注意力机制,得到若干个候选词项;S302.将所述步骤301中的候选词项均作为LSTM单元代入BiLSTM网络中,经过CRF条件随机场进行筛选出具有有效信息的词项,完成分词操作。4.根据权利要求1所述的基于自然语言处理的文本主题聚类算法,其特征在于,所述步骤S4中的建模具体包括以下步骤:S401.对所述用户评论文本词项库中的词项进行向量化,得到每个词项的词向量,形成文本的词项空间;S402.将所述步骤402中的词向量映射到所述用户评论文本词项库的文本向量中,使文本从词项空间转换到主题空间...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。