一种短文本相似度计算方法技术

技术编号:19634994 阅读:20 留言:0更新日期:2018-12-01 15:44
本发明专利技术公开一种短文本相似度计算方法;包括如下步骤:1)利用距离共现相关度得到词项的关联权重;2)通过词项的关联权重计算词项的内联关系,接着利用链接词产生的路径的共享熵来表征外联关系,然后耦合这两种关系得到基于耦合距离区分度的短文本相似度;3)接下来利用加类标数据得到每个类别的强类别特征集合,并利用强类别特征词项的上下文信息进行语义消歧,基于文本包含每个类的强类别特征越多则越相似的思想,得到强类别特征相似度;4)通过平衡因子来调节两种相似度来得到最终的短文本相似度。本发明专利技术方法能够解决短文本内容简短、特征稀疏,以及传统的短文本相似度计算忽略类别信息等问题,同时能够避免一词多义对相似度计算的影响。

A Method for Computing Similarity of Short Texts

The invention discloses a method for calculating short text similarity, which includes the following steps: 1) obtaining the association weight of terms by using distance co-occurrence correlation degree; 2) calculating the inline relationship of terms by the association weight of terms, and then using the shared entropy of the path generated by links to represent the outreach relationship, and then coupling the two relationships to obtain. Short text similarity based on coupling distance discrimination; 3) Next, strong category feature sets of each category are obtained by adding class label data, and context information of strong category feature terms is used for semantic disambiguation. Based on the idea that the more strong category features of each class are contained in the text, the more similar the strong category features are, the stronger category feature similarity is obtained. Degree; 4) The final short text similarity can be obtained by adjusting the two similarities through the balance factor. The method can solve such problems as short text content, sparse features, neglect of category information in traditional short text similarity calculation, and avoid the influence of polysemy on similarity calculation.

【技术实现步骤摘要】
一种短文本相似度计算方法
本专利技术涉及一种融合耦合距离区分度和强类别特征的短文本相似度计算方法,属于文本信息处理领域,具体地说是一种短文本相似度计算方法。
技术介绍
随着互联网技术的飞速发展。微博,微信,手机短信凭借开放性和便捷性等优势,已发展成为人们社交和娱乐的主流媒体,是人们了解时事动态,人际交往和发表观点和评论的主要平台。面对这些应用产生的超大规模短文本数据,怎样挖掘隐藏在数据中的巨大的潜在价值是研究的热点和难点。而短文本相似度的计算的优劣对于挖掘数据隐藏的价值起着至关重要的作用,被大量用于文本分类,文本聚类,舆情分析,兴趣推荐,信息检索等多个领域。当前短文本相似度的计算方法主要分为两大类,即基于统计信息的和基于外部语料库的方法。第一类方法常见的是在向量空间模型(VectorSpaceModel,VSM)的基础上,通过统计分词过后文档的词语及其词频生成字典,把每个字典看作一个多维向量,从而将计算文档的相似度转换为计算向量间的相似度,典型的工作有:利用共现词项的概率相关度来计算词项在文本中的权重改进了相似度计算方法;利用一种耦合词项间的关系模型来表示文档,分析内联关系(词项间的共现)和外联关系(链接词产生路径)来表示词项间的关系。该类方法虽然考虑到了词项加权和利用共现关系来衡量词项间的相似度,进而通过词项间的关系来衡量文本间的关系,但是该类方法都是基于简单的词频统计和共现关系,并未很好的描述词项间更深层次的关系。基于外部语料库的方法通常是利用外部知识语料库和深度学习框架来计算文本间的相似度,常见的方法有:利用大规模语义网络Probase将两个词项映射到概念空间中,并对这个概念空间聚类,最后在聚类后的概念空间中计算词项的相似度,利用词项的相似度计算文本间的相似度;或者结合显性语义分析(ESA)表示和Word2Vec表示产生词项的稀疏表示,作者利用该向量表示来计算文本相似度。基于语料库的方法虽然考虑到了词项的词性、语义,但是基于语料库的方法有这样的局限:只能处理语料库中的词项,不能处理语料库中未出现的词项。而基于Word2Vec模型的方法,词项的向量表示只有一个,因此不能区分有一词多义的词项,从而导致信息的缺失,影响相似度计算的精确度。
技术实现思路
本专利技术的目的在于提出一种短文本相似度计算方法,通过融合耦合距离区分度和强类别特征的短文本相似度计算方法(CombiningCoupledDistanceDiscriminationandStrongClassificationFeaturesforShortTextSimilarityCalculation,CDDCF),综合考虑词项间的距离、区分度,内联关系,外联关系和类别信息,能够在脱离外部语料库的情况下挖掘词项间的语义关系。为实现上述目的,本专利技术所述一种短文本相似度计算方法,实现步骤如下:1)获取文本,进行文本预处理;2)计算词项间的共现距离区分度来对词项加权,得到词项的关联权重;3)利用词项的关联权重计算词项的内联关系,接着利用链接词产生的路径的共享熵来表征外联关系,然后耦合这两种关系得到基于耦合距离区分度的文本相似度;4)利用有监督的方法来衡量文本间的相似度,即利用加类标数据得到每个类别的强类别特征集合,并利用强类别特征词项的上下文信息进行语义消歧,基于文本包含每个类的强类别特征越多则越相似,得到强类别特征相似度;5)通过平衡因子来调节两种相似度来得到最终的融合共现距离区分度和强类别特征的短文本相似度计算方法。所述步骤1)中文本预处理的方法,其步骤如下:a.获取需要计算的文本,所述文本由若干数目的句子组成;b.文本除去所有的目录、标题、图、表等,只留下文本信息;c.对文本进行分词,对于英文文本,基于简单的空格进行分词;对于中文文本,使用常用的分词算法进行分词;d.将文本进行停用词过滤;e.去除每个句子之中重复的词语。所述步骤2)中计算词项间的共现距离区分度来对词项加权,得到词项的关联权重,其步骤如下:a.建立词典,由给定短文本集合D={d1,d2,...dm}和词项集T={t1,t2...tn},首先计算词项ti与词项tj在特定短文本ds中间隔的词的个数为b.计算词项ti与词项tj间的共现距离为;c.计算文本中所有与词项ti共现过的词项间的共现距离的和值d.计算整个文本集上词项ti与词项tj间的共现距离区分度为:e.求对称后的词项间的距离区分度:f.求词项在文本集中的词频g.求文本ds中词项的个数和词项ti在文本ds中的初始权重为;h.求词项的逆文档频率idf:i.求词项在文本ds中的关联权重为:所述步骤3)中计算文本间的耦合距离区分度的相似度算法,其步骤如下:a.得到词项ti与词项tj共现过得文本集合H,并计算得到H中文本的个数为|H|;b.计算词项ti与词项tj间的未归一化的内联关系为:c.计算词项ti与词项tj间归一化后的内联关系为:d.计算对称化后的内联关系为:e.构建外联关系图,其中顶点为词项,边表示词项间的关系,当且仅当词对在文本中共现则结点存在连边;f.求得词项间的外联路径,对于任意两个词项ti和tj,存在一条或多条从词项ti开始,且有序的链接多个词项后以tj结束的词项序列称为路径,这个路径被定义为外联路径:其中词项ti为起始点,tj为终止点,代表路径Path(ti→tj)上的词项,即链接词,g是路径中链接词的个数,为Path(ti→tj)上特定路径P上所有点的集合,eij表示两个点之间有边,E为所有边的集合,第P条路径上所有经过边的集合,θ是用户为限制数量(即链接词个数)所定义的阈值;g.求得词项ti到tj的路径Path(ti→tj)上任一路径p上的所有词项的集合为链接词项集且计算该集合的长度为h:h.计算词项ti到tj的第p条路径的链接词集Tp-link上词对间的共享熵其中,J(Tp-link)为该路径上链接词间的联合熵公式如下:i.求得第p条路径的外联关系为:j.求得词项ti与词项tj间的外联关系,即选取词对所有路径中共享熵最大值来表征词对ti与tj间的外联关系:IeR(ti,tj)=max{IeRp(ti,tj)}(15);k.利用介于[0,1]直接的参数α来平衡内外联关系得到耦合的距离区分度为:l.选取CR(ti,tj)≥0.3的词对(ti,tj)放入集合M中作为候选词对;m.通过耦合的内外联关系得到基于耦合距离相似度的文本相似度为:其中h(ti)={tj|tj∈d2∧(ti,tj)∈M}。所述步骤4)中强类别特征的文本相似度算法,其步骤如下:a.文档集Dl={d1l,d2l,…,dyl},带标签的数据分别属于类别集合C={C1,C2,…,Cr,…,Ck},通过计算类别Cr中的词项ti携带的短文本内容信息,定义词项ti在Cr类中的关联权重为:其中|Cr(ti)|表示在Cr类中包含词项ti的文本个数;b.求词项ti在类别Cr中的权重为:c.词项ti在其他类别的中的权重值定义为;d.词项ti在除了Cr类别中剩下k-1个类别中的平均权重:g.词项ti在类别Cr中的最终权重为:其中idf被定义为h.对类别Cr中的词项按值进行降序排列,其他类采取相似度的操作,最后取每个类中前K个词项构成强类别特征集合S={s1,s2,…,本文档来自技高网
...

【技术保护点】
1.一种短文本相似度计算方法,其特征在于:1)获取文本,进行文本预处理;2)计算词项间的共现距离区分度来对词项加权,得到词项的关联权重;3)利用词项的关联权重计算词项的内联关系,接着利用链接词产生的路径的共享熵来表征外联关系,最终耦合这两种关系得到基于耦合距离区分度的文本相似度;4)利用有监督的方法来衡量文本间的相似度,即利用加类标数据得到每个类别的强类别特征集合,并利用强类别特征词项的上下文信息进行语义消歧,基于文本包含每个类的强类别特征越多则越相似,得到强类别特征相似度;5)通过平衡因子来调节两种相似度(基于耦合距离区分度的文本相似度和强类别相似度)来得到最终的融合共现距离区分度和强类别特征的短文本相似度计算方法。

【技术特征摘要】
1.一种短文本相似度计算方法,其特征在于:1)获取文本,进行文本预处理;2)计算词项间的共现距离区分度来对词项加权,得到词项的关联权重;3)利用词项的关联权重计算词项的内联关系,接着利用链接词产生的路径的共享熵来表征外联关系,最终耦合这两种关系得到基于耦合距离区分度的文本相似度;4)利用有监督的方法来衡量文本间的相似度,即利用加类标数据得到每个类别的强类别特征集合,并利用强类别特征词项的上下文信息进行语义消歧,基于文本包含每个类的强类别特征越多则越相似,得到强类别特征相似度;5)通过平衡因子来调节两种相似度(基于耦合距离区分度的文本相似度和强类别相似度)来得到最终的融合共现距离区分度和强类别特征的短文本相似度计算方法。2.如权利要求1所述一种短文本相似度计算方法,其特征在于:所述步骤1)中文本预处理的方法,其步骤如下:a.获取需要计算的文本,所述文本由若干数目的句子组成;b.文本除去所有的目录、标题、图、表等,只留下文本信息;c.对文本进行分词,对于英文文本,基于简单的空格进行分词;对于中文文本,使用常用的分词算法进行分词;d.将文本进行停用词过滤;e.去除每个句子之中重复的词语。3.如权利要求2所述一种短文本相似度计算方法,其特征在于:所述步骤2)中计算词项间的共现距离区分度来对词项加权,得到词项的关联权重,其步骤如下:a.建立词典,由给定短文本集合D={d1,d2,...dm}和词项集T={t1,t2...tn},首先计算词项ti与词项tj在特定短文本ds中间隔的词的个数为b.计算词项ti与词项tj间的共现距离为;c.计算文本中所有与词项ti共现过的词项间的共现距离的和值d.计算整个文本集上词项ti与词项tj间的共现距离区分度为:e.求对称后的词项间的距离区分度:f.求词项在文本集中的词频g.求文本ds中词项的个数和词项ti在文本ds中的初始权重为;h.求词项的逆文档频率idf:i.求词项在文本ds中的关联权重为:4.如权利要求3所述一种短文本相似度计算方法,其特征在于:所述步骤3)中计算文本间的耦合距离区分度的相似度算法,其步骤如下:a.得到词项ti与词项tj共现过的文本集合H,并计算得到H中文本的个数为|H|;b.计算词项ti与词项tj间的未归一化的内联关系为:c.计算词项ti与词项tj间归一化后的内联关系为:d.计算对称化后的内联关系为:e.构建外联关系图,其中顶点为词项,边表示词项间的关系,当且仅当词对在文本中共现则结点存在连边;f.求得词项间的外联路径,对于任意两个词项ti和tj,存在一条或多条从词项ti开始,且有序的链接多个词项后以tj结束的词项序列称为路径,这个路径被定义为外联路径:其中词项ti为起始点,tj为终止点,代表路径Path(ti→tj)上的词项,即链接词,g是路径中链接词的个数,为Path(ti→tj)上特定路径P上所有点的集合,eij表示两个点之间有边,E为所有边的集合,为Path(ti→tj)第P条路径上所...

【专利技术属性】
技术研发人员:马慧芳刘文李志欣
申请(专利权)人:西北师范大学
类型:发明
国别省市:甘肃,62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1