一种基于自然语言处理的文本主题聚类算法制造技术

技术编号：20160512 阅读：44 留言：0更新日期：2019-01-19 00:13

本发明专利技术公开了一种基于自然语言处理的文本主题聚类算法，首先形成针对本发明专利技术的中文语料库；其次，针对该中文语料库中文本进行数据预处理以降低后续算法的计算成本；接着，实现新颖的中文分词以及文本词项的特征向量化算法，实现评论文本的词项从词项文本空间到向量空间的转化；然后，将针对生成的文本词项向量空间进行降维压缩，实现文本词项向量空间到文本主题空间的转换；最后，将根据生成的文本主题模型进行文本主题聚类，以得到进行评论的用户对某商品的关注点，并最终给出针对某商品的一些改进方向，以求产品愈来愈接近大部分用户的需求，如质量方面或价格方面需要进行改进等类似的建议。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言处理的文本主题聚类算法
本专利技术涉及自然语言处理领域，更具体地，涉及一种基于自然语言处理的文本主题聚类算法。
技术介绍
目前，在传统的文本聚类算法中主要有以下缺点：(1)目前的中文文本分词算法的准确性不高；(2)目前的文本主题模型构建算法的准确性不高；(3)目前的文本主题聚类算法无法很好地去除历史记录对当前决策的影响，即无法与人类一样慢慢遗忘掉过于陈旧的评价文本，从而造成所挖掘到的用户关注点偏离用户最新的关注点，进而造成商家、如智能家居设备经营商改进思路的错误，造成严重的经济损失。与本专利技术最相近的方法有张万山等人(张万山,肖瑶,梁俊杰,等.基于主题的Web文本聚类方法[J].计算机应用,2014,34(11):3140-3143.)在上述已完成的研究中针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。
技术实现思路
本...

【技术保护点】
1.一种基于自然语言处理的文本主题聚类算法，其特征在于，包括以下步骤：S1.获取用户评论文本；S2.对用户评论文本进行数据预处理，得到用户评论文本语料库；S3.对用户评论文本语料库进行中文分词，得到用户评论文本词项库；S4.对用户评论文本词项库进行建模，得到评论文本的主题模型；S5.采用文本主题聚类算法，得到用户关注点。

【技术特征摘要】
1.一种基于自然语言处理的文本主题聚类算法，其特征在于，包括以下步骤：S1.获取用户评论文本；S2.对用户评论文本进行数据预处理，得到用户评论文本语料库；S3.对用户评论文本语料库进行中文分词，得到用户评论文本词项库；S4.对用户评论文本词项库进行建模，得到评论文本的主题模型；S5.采用文本主题聚类算法，得到用户关注点。2.根据权利要求1所述的基于自然语言处理的文本主题聚类算法，其特征在于，所述步骤S2中的数据预处理具体过程如下：对用户评论文本语料库进行格式规范化处理，去除标点符号、高频虚词和低频词，得到经过预处理的用户评论文本语料库。3.根据权利要求1所述的基于自然语言处理的文本主题聚类算法，其特征在于，所述步骤S3的中文分词采用基于Attention、BiLSTM网络和CRF条件随机场的中文分词算法，具体包括以下步骤：S301.通过Attention注意力机制，得到若干个候选词项；S302.将所述步骤301中的候选词项均作为LSTM单元代入BiLSTM网络中，经过CRF条件随机场进行筛选出具有有效信息的词项，完成分词操作。4.根据权利要求1所述的基于自然语言处理的文本主题聚类算法，其特征在于，所述步骤S4中的建模具体包括以下步骤：S401.对所述用户评论文本词项库中的词项进行向量化，得到每个词项的词向量，形成文本的词项空间；S402.将所述步骤402中的词向量映射到所述用户评论文本词项库的文本向量中，使文本从词项空间转换到主题空间...

【专利技术属性】
技术研发人员：梁天恺，曾碧，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人