一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置制造方法及图纸

技术编号：19057597 阅读：111 留言：0更新日期：2018-09-29 12:19

本发明专利技术涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括：1)使用词向量模型对语料进行训练，得到词向量；2)在语义空间内对词向量进行聚类；3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离，将得到的距离作为待表示文档的语义表示。进而，通过计算文档的语义表示向量之间的相似性，实现文档的分类。本发明专利技术依据文本的语义信息和单词频率等信息，通过WMD模型计算文本单词和聚类集合之间的转移代价，将文本表示成一个低维稠密、包含语义信息的向量，能更好地表示文本信息，分类任务准确性高，可应用在信息检索、文本分类等自然语言处理任务中。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
本专利技术属于信息
，具体涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和相应的装置。
技术介绍
文本向量表示是文本挖掘和自然语言处理等领域的关键技术之一，良好的文档语义表示方法，能够提升信息检索、文本分类等任务的效果。本专利技术是基于主题词类相似度的文档语义表示方法，是针对词袋模型的高维稀疏、无语义所提出的改进，目前以词袋模型为基础的文档表示方法有：1)传统词袋模型表示方法(Bagofwords,BOW)，将单词出现的频率作为文本表示。2)词频-逆文档频率模型表示方法(TermFrequency–InverseDocumentFrequency,TF-IDF)，该模型是在BOW上进行改进的，不仅考虑文本中单词的频率，同时考虑该单词在整个语料库中的重要程度。3)模糊词袋模型表示方法(Fuzzybagofwords,FBOW)，利用词向量表示文本语义信息，将单词与基础词表的余弦距离作为文本表示。现有的词袋模型文档表示方法存在一些不足，其中BOW模型仅考虑单词的出现频率，不考虑单词的语义信息；TF-IDF模型通过词频和逆文档频率的组合将文本表示成向量，并没有考虑文本的语义信息，容易遭受数据稀疏的问题；而FBOW模型使用词语在语义空间中的位置关系来表示词语之间的相关性，而没有从文档整体所表示的语义信息进行表示。因此，文档语义向量表示方法还有很大的提升空间。
技术实现思路
本专利技术的目的是提出一种基于主题词类相似性的文档语义表示方法、文本分类方法和相应的装置，利用自然语言处理领域的词向量...

【技术保护点】
1.一种基于主题词类相似性的文档语义表示方法，其特征在于，包括以下步骤：1)使用词向量模型对语料进行训练，得到词向量；2)在语义空间内对词向量进行聚类；3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离，将得到的距离作为待表示文档的语义表示。

【技术特征摘要】
1.一种基于主题词类相似性的文档语义表示方法，其特征在于，包括以下步骤：1)使用词向量模型对语料进行训练，得到词向量；2)在语义空间内对词向量进行聚类；3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离，将得到的距离作为待表示文档的语义表示。2.根据权利要求1所述的方法，其特征在于，步骤1)包括：1-1)将语料集进行数据清洗，去除语料中的标点、停用词信息；1-2)使用词向量模型训练语料，生成词向量。3.根据权利要求1所述的方法，其特征在于，步骤2)使用高斯混合模型进行所述聚类，包括：2-1)估计词向量由每个高斯分布生成的概率；通过极大似然估计更新高斯混合模型的参数；并重复迭代，直到高斯混合模型的似然函数收敛为止；2-2)利用高斯混合模型预测词向量类别，得到词向量类别分布。4.根据权利要求3所述的方法，其特征在于，根据时间、空间、词表大小对采用高斯混合模型进行聚类的聚类大小进行动态设置。5.根据权利要求4所述的方法，其特征在于，设置聚类大小为原有词项的10％。6.根据权利要求1所述的方法，其特征在于，步骤3)包括：3-1)对输入的待表示文档doc进行数据清洗；3-2)计算doc的权重矩阵d＝[d1,d2,…,dm]，其中m是doc出现的词项个数，di代表第i个词项在doc中出现的频率；3-3)使用WMD算法计算K个聚类类别与doc之间的距离z1,z2,…,zK；3-4)输出doc的向量表示z＝[z1,z2,…,zK]。7.根据权利要求6所述的方法，其特征在于，步骤3-3)计...

【专利技术属性】
技术研发人员：陈小军，王大魁，时金桥，白离，胡兰兰，文新，张闯，马建伟，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人