一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置制造方法及图纸

技术编号:19057597 阅读:111 留言:0更新日期:2018-09-29 12:19
本发明专利技术涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明专利技术依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。

【技术实现步骤摘要】
一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
本专利技术属于信息
,具体涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和相应的装置。
技术介绍
文本向量表示是文本挖掘和自然语言处理等领域的关键技术之一,良好的文档语义表示方法,能够提升信息检索、文本分类等任务的效果。本专利技术是基于主题词类相似度的文档语义表示方法,是针对词袋模型的高维稀疏、无语义所提出的改进,目前以词袋模型为基础的文档表示方法有:1)传统词袋模型表示方法(Bagofwords,BOW),将单词出现的频率作为文本表示。2)词频-逆文档频率模型表示方法(TermFrequency–InverseDocumentFrequency,TF-IDF),该模型是在BOW上进行改进的,不仅考虑文本中单词的频率,同时考虑该单词在整个语料库中的重要程度。3)模糊词袋模型表示方法(Fuzzybagofwords,FBOW),利用词向量表示文本语义信息,将单词与基础词表的余弦距离作为文本表示。现有的词袋模型文档表示方法存在一些不足,其中BOW模型仅考虑单词的出现频率,不考虑单词的语义信息;TF-IDF模型通过词频和逆文档频率的组合将文本表示成向量,并没有考虑文本的语义信息,容易遭受数据稀疏的问题;而FBOW模型使用词语在语义空间中的位置关系来表示词语之间的相关性,而没有从文档整体所表示的语义信息进行表示。因此,文档语义向量表示方法还有很大的提升空间。
技术实现思路
本专利技术的目的是提出一种基于主题词类相似性的文档语义表示方法、文本分类方法和相应的装置,利用自然语言处理领域的词向量模型、词袋模型和WMD(WordMover’sDistance)模型等语义分析技术,将文本表示为低维稠密具有语义信息的向量的文档语义表示。本专利技术采用的技术方案如下:一种基于主题词类相似性的文档语义表示方法,其特征在于,包括以下步骤:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进一步地,步骤1)包括:1-1)将语料集进行数据清洗,去除语料中的标点、停用词信息;1-2)使用词向量模型训练语料,生成词向量。进一步地,步骤2)使用高斯混合模型进行所述聚类,包括:2-1)估计词向量由每个高斯分布生成的概率;通过极大似然估计更新高斯混合模型的参数;并重复迭代,直到高斯混合模型的似然函数收敛为止;2-2)利用高斯混合模型预测词向量类别,得到词向量类别分布。进一步地,根据时间、空间、词表大小对采用高斯混合模型进行聚类的聚类大小进行动态设置。进一步地,步骤3)包括:3-1)对输入的待表示文档doc进行数据清洗;3-2)计算doc的权重矩阵d=[d1,d2,…,dm],其中m是doc出现的词项个数,di代表第i个词项在doc中出现的频率;3-3)使用WMD算法计算K个聚类类别与doc之间的距离z1,z2,…,zK;3-4)输出doc的向量表示z=[z1,z2,…,zK]。一种基于主题词类相似性的文档语义表示装置,其包括:词向量训练模块,负责使用词向量模型对语料进行训练,得到词向量;聚类模块,负责在语义空间内对词向量进行聚类;语义表示模块,负责使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。一种文本分类方法,包括以下步骤:1)采用上面所述方法对文档进行语义表示,得到文档的语义表示向量;2)通过计算文档的语义表示向量之间的相似性,实现文档的分类。相似度大于一定阈值时可认为是一类。一种文本分类装置,其包括:文档语义表示模块,负责采用上面所述方法对文档进行语义表示,得到文档的语义表示向量;分类模块,负责通过计算文档的语义表示向量之间的相似性,实现文档的分类。与现有技术相比,本专利技术的有益效果是:本专利技术依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息;与现有的BOW模型、TF-IDF模型和FBOW模型在文本分类上做了对比,本专利技术在分类任务准确性上都高于这三者,提高了文本分类任务的效果。本专利技术能够应用在信息检索、文本分类等自然语言处理任务中。附图说明图1为本专利技术实施例中文档语义表示方法的流程图。图2为本专利技术与BOW模型、TF-IDF模型和FBOW模型在两个数据集Reuters和WebKB的文本分类任务表现,横轴显示数据集,纵轴显示文本分类准确率。图3为本专利技术的聚类大小对文本分类效果的影响分析,横轴x代表聚类大小为100*x,纵轴表示文本分类准确率。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步详细说明。本实施例的基于主题词类相似性的文档语义表示方法,主要包含两个方面:1)词袋模型聚类:首先使用词向量模型对语料进行训练,得到词向量;将训练好的词向量使用高斯混合模型(GaussianMixtureModel,GMM)在语义空间内对其进行聚类,将相似语义的单词归属到一个类别中。每一个聚类类别都代表一组语义相关的单词。其中语料可以是英文语料、中文语料(需进行分词)或者其它语言的语料。2)文本语义表示:将每一个聚类类别视为一个独立的聚类“文本”,使用WMD模型计算文档和每个聚类类别之间的文本转移代价(即WMD距离)。文档的语义表示为给定文档与各个类别“文本”之间的WMD距离,每个维度是该维度所对应的聚类“文本”与给定文本之间的WMD距离。在词袋模型聚类过程中,使用GMM模型对词向量进行聚类。GMM模型是一种软聚类方法,它不单纯把数据分配给某一个类别,而是计算该数据所属类别的概率。GMM算法假设数据服从高斯分布,通过多个高斯分布拟合数据分布,通过增加聚类大小,GMM算法可以任意拟合任何连续的数据分布。GMM算法假设有K个高斯分布组成,每个高斯分布称为一个“Component”,这些Component线性加成在一起就组成GMM的概率密度函数。具体流程如下:设输入参数t是训练词向量语料集,K为聚类大小,输出为语料词向量类别分布c和词向量wv。1.将语料集进行数据清洗,去除语料中标点、停用词信息;2.训练语料,生成词向量wv。3.估计词向量由每个Component生成的概率;通过极大似然估计更新GMM模型参数;重复迭代前面两步,直到GMM模型的似然函数收敛为止。4.用上述GMM模型预测词向量类别,得到词向量类别分布c。由此可见采用GMM模型对词向量进行聚类,仅仅依赖聚类大小K的设置。实际应用中可根据时间、空间、词表大小进行动态设置。如果设置过小,会影响文本语义表示准确性,设置过大,文本语义效果提升不大,当设置聚类大小为词表10%左右效果较好。在得到词向量类别分布之后,本专利技术使用WMD算法计算给定文本和聚类类别之间的距离,以此作为文本语义表示。WMD模型是Kusner等人在2015年提出的WordMover’sDistance语义相似性计算模型。该模型基于词向量(word2vec)和线性规划模型EMD(EarthMover’sDistance),该模型不仅本文档来自技高网...

【技术保护点】
1.一种基于主题词类相似性的文档语义表示方法,其特征在于,包括以下步骤:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。

【技术特征摘要】
1.一种基于主题词类相似性的文档语义表示方法,其特征在于,包括以下步骤:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。2.根据权利要求1所述的方法,其特征在于,步骤1)包括:1-1)将语料集进行数据清洗,去除语料中的标点、停用词信息;1-2)使用词向量模型训练语料,生成词向量。3.根据权利要求1所述的方法,其特征在于,步骤2)使用高斯混合模型进行所述聚类,包括:2-1)估计词向量由每个高斯分布生成的概率;通过极大似然估计更新高斯混合模型的参数;并重复迭代,直到高斯混合模型的似然函数收敛为止;2-2)利用高斯混合模型预测词向量类别,得到词向量类别分布。4.根据权利要求3所述的方法,其特征在于,根据时间、空间、词表大小对采用高斯混合模型进行聚类的聚类大小进行动态设置。5.根据权利要求4所述的方法,其特征在于,设置聚类大小为原有词项的10%。6.根据权利要求1所述的方法,其特征在于,步骤3)包括:3-1)对输入的待表示文档doc进行数据清洗;3-2)计算doc的权重矩阵d=[d1,d2,…,dm],其中m是doc出现的词项个数,di代表第i个词项在doc中出现的频率;3-3)使用WMD算法计算K个聚类类别与doc之间的距离z1,z2,…,zK;3-4)输出doc的向量表示z=[z1,z2,…,zK]。7.根据权利要求6所述的方法,其特征在于,步骤3-3)计...

【专利技术属性】
技术研发人员:陈小军王大魁时金桥白离胡兰兰文新张闯马建伟
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1