一种改进的文本相似度求解方法技术

技术编号：15276269 阅读：62 留言：0更新日期：2017-05-04 20:15

一种改进的文本相似度求解方法，先对两文本进行分词和去停用词处理，基于信息论方法，计算特征词汇在文本中的权重，再根据词汇位置信息，计算词汇在文本中的位置权重，综合上述因子，得到特征词汇目标函数，进而提取到两特征词汇向量，文本相似度问题转化为向量间距离问题。本发明专利技术比传统文本相似度计算方法准确度更高，适用性更广，同时为后续的文本聚类提供良好的理论基础。

An improved method for solving text similarity

An improved text similarity method, the first of the two word text and to stop word processing, information theory based on the method of calculating the feature words in the text, vocabulary according to location information, calculate the position weight vocabulary in the text of the above factors, get the objective function and extract feature words, to two the vocabulary feature vector, text similarity problems into the distance between vectors. Compared with the traditional text similarity calculation method, the method has higher accuracy and wider applicability, and provides a good theoretical basis for subsequent text clustering.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语义网络
，具体涉及一种改进的文本相似度求解方法。
技术介绍
目前主要的文本相似度计算方法有两类，第一类是基于数理统计的方法，例如经典的向量空间模型方法。这类方法计算简单，能在词汇出现的频度和频率层面上反映两个文本的相似程度。但是一个有实际意义的文本，它有自己想表达的中心思想，这是语义层面上的概念，数理统计方法提取出来的中心思想与文本实际表达的中心思想相差甚远。因此，如果想要准确的计算文本之间的相似度，必须从语义层面上进行着手；第二类是基于语义分析的方法，这类方法利用语义词典对文本中的词汇进行语义分析，但没有深入语义间的内在联系，也没有考虑文本中特征词汇中不同词汇对文本的重要程度的差异问题，因此计算的准确率较低。为了满足上述需求，本专利技术提供了一种改进的文本相似度求解方法。
技术实现思路
针对于文本中特征词汇中不同词汇对文本的重要程度的差异问题，本专利技术提供了一种改进的文本相似度求解方法。为了解决上述问题，本专利技术是通过以下技术方案实现的：步骤1：初始化文本语料库模块，对待比较文本(W1，W2)的进行预处理。步骤2：基于信息论方法，计算词汇在文本中权重值WI。步骤3：根据词汇位置信息，计算词汇在文本中的权重值步骤4：综合考虑上述两因子，构造提取文本(W1，W2)中的特征值目标函数分别提取文本(W1，W2)中的特征值。步骤5：求解待比较文本(W1，W2)间的文本相似度sim(W1，W2)。本专利技术有益效果是：1、此方法比传统的文本相似度计算方法得到的结果具有更高的准确性，更符合人工提取的结果。2、此方法在信息检索、机器翻译、自动问答...
一种改进的文本相似度求解方法

【技术保护点】
一种改进的文本相似度求解方法，本专利技术涉及语义网络技术领域，具体涉及一种改进的文本相似度求解方法，其特征是，包括如下步骤：步骤1：初始化文本语料库模块，对待比较文本的进行预处理步骤2：基于信息论方法，计算词汇在文本中权重值步骤3：根据词汇位置信息，计算词汇在文本中的权重值步骤4：综合考虑上述两因子，构造提取文本中的特征值目标函数，分别提取文本中的特征值步骤5：求解待比较文本间的文本相似度。

【技术特征摘要】
1.一种改进的文本相似度求解方法，本发明涉及语义网络技术领域，具体涉及一种改进的文本相似度求解方法，其特征是，包括如下步骤：步骤1：初始化文本语料库模块，对待比较文本的进行预处理步骤2：基于信息论方法，计算词汇在文本中权重值步骤3：根据词汇位置信息，计算词汇在文本中的权重值步骤4：综合考虑上述两因子，构造提取文本中的特征值目标函数，分别提取文本中的特征值步骤5：求解待比较文本间的文本相似度。2.根据权利要求1中所述的一种改进的文本相似度求解方法，其特征是，以上所述步骤2中具体计算过程如下：步骤2：基于信息论方法，计算词汇在文本中权重值，其具体计算过程如下：基于信息论词频的计算公式有：上式为词汇关于词频在文档中所具有的信息量，分别为词、在文本中的概率值基于信息论文档频率的计算公式有：为词汇关于文档频率在文档库中所具有的信息量，为分别含有、的文档数，N为文档库中文档的总个数综上所述，有基于信息论计算词汇权重的函数，如下式：。3.根据权利要求1中所述的一种改进的文本相似度求解方法，其特征是，以上所述步骤3中具体计算过程如下：步骤3：根据词汇位置信息，计算词汇在文本中的权重值，其具体计算过程如下：根...

【专利技术属性】
技术研发人员：金平艳，
申请(专利权)人：四川用联信息技术有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人