一种短文本相似度计算方法技术

技术编号：19634994 阅读：20 留言：0更新日期：2018-12-01 15:44

本发明专利技术公开一种短文本相似度计算方法；包括如下步骤：1)利用距离共现相关度得到词项的关联权重；2)通过词项的关联权重计算词项的内联关系，接着利用链接词产生的路径的共享熵来表征外联关系，然后耦合这两种关系得到基于耦合距离区分度的短文本相似度；3)接下来利用加类标数据得到每个类别的强类别特征集合，并利用强类别特征词项的上下文信息进行语义消歧，基于文本包含每个类的强类别特征越多则越相似的思想，得到强类别特征相似度；4)通过平衡因子来调节两种相似度来得到最终的短文本相似度。本发明专利技术方法能够解决短文本内容简短、特征稀疏，以及传统的短文本相似度计算忽略类别信息等问题，同时能够避免一词多义对相似度计算的影响。

A Method for Computing Similarity of Short Texts

The invention discloses a method for calculating short text similarity, which includes the following steps: 1) obtaining the association weight of terms by using distance co-occurrence correlation degree; 2) calculating the inline relationship of terms by the association weight of terms, and then using the shared entropy of the path generated by links to represent the outreach relationship, and then coupling the two relationships to obtain. Short text similarity based on coupling distance discrimination; 3) Next, strong category feature sets of each category are obtained by adding class label data, and context information of strong category feature terms is used for semantic disambiguation. Based on the idea that the more strong category features of each class are contained in the text, the more similar the strong category features are, the stronger category feature similarity is obtained. Degree; 4) The final short text similarity can be obtained by adjusting the two similarities through the balance factor. The method can solve such problems as short text content, sparse features, neglect of category information in traditional short text similarity calculation, and avoid the influence of polysemy on similarity calculation.

全部详细技术资料下载

【技术实现步骤摘要】
一种短文本相似度计算方法
本专利技术涉及一种融合耦合距离区分度和强类别特征的短文本相似度计算方法，属于文本信息处理领域，具体地说是一种短文本相似度计算方法。
技术介绍
随着互联网技术的飞速发展。微博，微信，手机短信凭借开放性和便捷性等优势，已发展成为人们社交和娱乐的主流媒体，是人们了解时事动态，人际交往和发表观点和评论的主要平台。面对这些应用产生的超大规模短文本数据，怎样挖掘隐藏在数据中的巨大的潜在价值是研究的热点和难点。而短文本相似度的计算的优劣对于挖掘数据隐藏的价值起着至关重要的作用，被大量用于文本分类，文本聚类，舆情分析，兴趣推荐，信息检索等多个领域。当前短文本相似度的计算方法主要分为两大类，即基于统计信息的和基于外部语料库的方法。第一类方法常见的是在向量空间模型(VectorSpaceModel，VSM)的基础上，通过统计分词过后文档的词语及其词频生成字典，把每个字典看作一个多维向量，从而将计算文档的相似度转换为计算向量间的相似度，典型的工作有：利用共现词项的概率相关度来计算词项在文本中的权重改进了相似度计算方法；利用一种耦合词项间的关系模型来表示文档，分析内联关系(词项间的共现)和外联关系(链接词产生路径)来表示词项间的关系。该类方法虽然考虑到了词项加权和利用共现关系来衡量词项间的相似度，进而通过词项间的关系来衡量文本间的关系，但是该类方法都是基于简单的词频统计和共现关系，并未很好的描述词项间更深层次的关系。基于外部语料库的方法通常是利用外部知识语料库和深度学习框架来计算文本间的相似度，常见的方法有：利用大规模语义网络Probase将两个词项映射...

【技术保护点】
1.一种短文本相似度计算方法，其特征在于：1)获取文本，进行文本预处理；2)计算词项间的共现距离区分度来对词项加权，得到词项的关联权重；3)利用词项的关联权重计算词项的内联关系，接着利用链接词产生的路径的共享熵来表征外联关系，最终耦合这两种关系得到基于耦合距离区分度的文本相似度；4)利用有监督的方法来衡量文本间的相似度，即利用加类标数据得到每个类别的强类别特征集合，并利用强类别特征词项的上下文信息进行语义消歧，基于文本包含每个类的强类别特征越多则越相似，得到强类别特征相似度；5)通过平衡因子来调节两种相似度(基于耦合距离区分度的文本相似度和强类别相似度)来得到最终的融合共现距离区分度和强类别特征的短文本相似度计算方法。

【技术特征摘要】
1.一种短文本相似度计算方法，其特征在于：1)获取文本，进行文本预处理；2)计算词项间的共现距离区分度来对词项加权，得到词项的关联权重；3)利用词项的关联权重计算词项的内联关系，接着利用链接词产生的路径的共享熵来表征外联关系，最终耦合这两种关系得到基于耦合距离区分度的文本相似度；4)利用有监督的方法来衡量文本间的相似度，即利用加类标数据得到每个类别的强类别特征集合，并利用强类别特征词项的上下文信息进行语义消歧，基于文本包含每个类的强类别特征越多则越相似，得到强类别特征相似度；5)通过平衡因子来调节两种相似度(基于耦合距离区分度的文本相似度和强类别相似度)来得到最终的融合共现距离区分度和强类别特征的短文本相似度计算方法。2.如权利要求1所述一种短文本相似度计算方法，其特征在于：所述步骤1)中文本预处理的方法，其步骤如下：a.获取需要计算的文本，所述文本由若干数目的句子组成；b.文本除去所有的目录、标题、图、表等，只留下文本信息；c.对文本进行分词，对于英文文本，基于简单的空格进行分词；对于中文文本，使用常用的分词算法进行分词；d.将文本进行停用词过滤；e.去除每个句子之中重复的词语。3.如权利要求2所述一种短文本相似度计算方法，其特征在于：所述步骤2)中计算词项间的共现距离区分度来对词项加权，得到词项的关联权重，其步骤如下：a.建立词典，由给定短文本集合D＝{d1,d2,...dm}和词项集T＝{t1,t2...tn},首先计算词项ti与词项tj在特定短文本ds中间隔的词的个数为b.计算词项ti与词项tj间的共现距离为；c.计算文本中所有与词项ti共现过的词项间的共现距离的和值d.计算整个文本集上词项ti与词项tj间的共现距离区分度为：e.求对称后的词项间的距离区分度：f.求词项在文本集中的词频g.求文本ds中词项的个数和词项ti在文本ds中的初始权重为；h.求词项的逆文档频率idf：i.求词项在文本ds中的关联权重为：4.如权利要求3所述一种短文本相似度计算方法，其特征在于：所述步骤3)中计算文本间的耦合距离区分度的相似度算法，其步骤如下：a.得到词项ti与词项tj共现过的文本集合H，并计算得到H中文本的个数为|H|；b.计算词项ti与词项tj间的未归一化的内联关系为：c.计算词项ti与词项tj间归一化后的内联关系为：d.计算对称化后的内联关系为：e.构建外联关系图，其中顶点为词项，边表示词项间的关系，当且仅当词对在文本中共现则结点存在连边；f.求得词项间的外联路径，对于任意两个词项ti和tj，存在一条或多条从词项ti开始，且有序的链接多个词项后以tj结束的词项序列称为路径，这个路径被定义为外联路径：其中词项ti为起始点，tj为终止点，代表路径Path(ti→tj)上的词项，即链接词，g是路径中链接词的个数，为Path(ti→tj)上特定路径P上所有点的集合，eij表示两个点之间有边，E为所有边的集合，为Path(ti→tj)第P条路径上所...

【专利技术属性】
技术研发人员：马慧芳，刘文，李志欣，
申请(专利权)人：西北师范大学，
类型：发明
国别省市：甘肃,62

全部详细技术资料下载我是这个专利的主人