一种改进的文本相似度求解方法技术

技术编号:15276269 阅读:62 留言:0更新日期:2017-05-04 20:15
一种改进的文本相似度求解方法,先对两文本进行分词和去停用词处理,基于信息论方法,计算特征词汇在文本中的权重,再根据词汇位置信息,计算词汇在文本中的位置权重,综合上述因子,得到特征词汇目标函数,进而提取到两特征词汇向量,文本相似度问题转化为向量间距离问题。本发明专利技术比传统文本相似度计算方法准确度更高,适用性更广,同时为后续的文本聚类提供良好的理论基础。

An improved method for solving text similarity

An improved text similarity method, the first of the two word text and to stop word processing, information theory based on the method of calculating the feature words in the text, vocabulary according to location information, calculate the position weight vocabulary in the text of the above factors, get the objective function and extract feature words, to two the vocabulary feature vector, text similarity problems into the distance between vectors. Compared with the traditional text similarity calculation method, the method has higher accuracy and wider applicability, and provides a good theoretical basis for subsequent text clustering.

【技术实现步骤摘要】

本专利技术涉及语义网络
,具体涉及一种改进的文本相似度求解方法
技术介绍
目前主要的文本相似度计算方法有两类,第一类是基于数理统计的方法,例如经典的向量空间模型方法。这类方法计算简单,能在词汇出现的频度和频率层面上反映两个文本的相似程度。但是一个有实际意义的文本,它有自己想表达的中心思想,这是语义层面上的概念,数理统计方法提取出来的中心思想与文本实际表达的中心思想相差甚远。因此,如果想要准确的计算文本之间的相似度,必须从语义层面上进行着手;第二类是基于语义分析的方法,这类方法利用语义词典对文本中的词汇进行语义分析,但没有深入语义间的内在联系,也没有考虑文本中特征词汇中不同词汇对文本的重要程度的差异问题,因此计算的准确率较低。为了满足上述需求,本专利技术提供了一种改进的文本相似度求解方法。
技术实现思路
针对于文本中特征词汇中不同词汇对文本的重要程度的差异问题,本专利技术提供了一种改进的文本相似度求解方法。为了解决上述问题,本专利技术是通过以下技术方案实现的:步骤1:初始化文本语料库模块,对待比较文本(W1,W2)的进行预处理。步骤2:基于信息论方法,计算词汇在文本中权重值WI。步骤3:根据词汇位置信息,计算词汇在文本中的权重值步骤4:综合考虑上述两因子,构造提取文本(W1,W2)中的特征值目标函数分别提取文本(W1,W2)中的特征值。步骤5:求解待比较文本(W1,W2)间的文本相似度sim(W1,W2)。本专利技术有益效果是:1、此方法比传统的文本相似度计算方法得到的结果具有更高的准确性,更符合人工提取的结果。2、此方法在信息检索、机器翻译、自动问答系统等领域都具有更好的适用性。3、为后续的文本聚类提供良好的理论基础。附图说明图1一种改进的文本相似度求解方法的结构流程图具体实施方式为了解决文本中特征词汇中不同词汇对文本的重要程度的差异,结合图1对本专利技术进行了详细说明,其具体实施步骤如下:步骤1:初始化文本语料库模块,对待比较文本(W1,W2)的进行预处理,其具体描述过程如下:利用分词系统和停用表分别对文本(W1,W2)进行分词和去停用词处理。步骤2:基于信息论方法,计算词汇在文本中权重值WI,其具体计算过程如下:基于信息论词频的计算公式有:上式为词汇关于词频在文档中所具有的信息量,p(c1,2)分别为词c1、c2在文本中的概率值。基于信息论文档频率的计算公式有:为词汇关于文档频率在文档库中所具有的信息量,为分别含有c1、c2的文档数,N为文档库中文档的总个数。综上所述,有基于信息论计算词汇权重的函数,如下式:步骤3:根据词汇位置信息,计算词汇在文本中的权重值其具体计算过程如下:根据调研资料显示,特征词越在文本靠前位置,越能代表文本的中心思想。通过步骤2得到词汇在文本的权重值,取前20个特征词汇。对这些词汇进行位置权重划分。有位置向量,如下:词汇位置权重函数为:上式ai与bj分别为特征词最靠前出现的段落位置和对应段落所在的句子位置。步骤4:综合考虑上述两因子,构造提取文本(W1,W2)中的特征值目标函数分别提取文本(W1,W2)中的特征值,其具体计算过程如下:提取文本(W1,W2)中的特征值目标函数为:上式α、β分别为WI、对特征提取影响的权重系数,α+β=1,一般α>β,即基于信息论得到的词频与文档频率的权重函数对文本(W1,W2)中特征提取的影响更大,其值可以根据实验测试出来。步骤5:求解待比较文本(W1,W2)间的文本相似度sim(W1,W2),其具体计算过程如下:根据步骤4计算得出的特征词汇权重值,相关领域专家选取前m位关键词,这里m<20,既分别有文本(W1,W2)对应的特征词向量。根据欧式距离计算两特征词向量间的距离最后得到两文本(W1,W2)间的文本相似度sim(W1,W2):上式ω为平滑因子,可以根据实验得出最佳值。本文档来自技高网...
一种改进的文本相似度求解方法

【技术保护点】
一种改进的文本相似度求解方法,本专利技术涉及语义网络技术领域,具体涉及一种改进的文本相似度求解方法,其特征是,包括如下步骤:步骤1:初始化文本语料库模块,对待比较文本的进行预处理步骤2:基于信息论方法,计算词汇在文本中权重值步骤3:根据词汇位置信息,计算词汇在文本中的权重值步骤4:综合考虑上述两因子,构造提取文本中的特征值目标函数,分别提取文本中的特征值步骤5:求解待比较文本间的文本相似度。

【技术特征摘要】
1.一种改进的文本相似度求解方法,本发明涉及语义网络技术领域,具体涉及一种改进的文本相似度求解方法,其特征是,包括如下步骤:步骤1:初始化文本语料库模块,对待比较文本的进行预处理步骤2:基于信息论方法,计算词汇在文本中权重值步骤3:根据词汇位置信息,计算词汇在文本中的权重值步骤4:综合考虑上述两因子,构造提取文本中的特征值目标函数,分别提取文本中的特征值步骤5:求解待比较文本间的文本相似度。2.根据权利要求1中所述的一种改进的文本相似度求解方法,其特征是,以上所述步骤2中具体计算过程如下:步骤2:基于信息论方法,计算词汇在文本中权重值,其具体计算过程如下:基于信息论词频的计算公式有:上式为词汇关于词频在文档中所具有的信息量,分别为词、在文本中的概率值基于信息论文档频率的计算公式有:为词汇关于文档频率在文档库中所具有的信息量,为分别含有、的文档数,N为文档库中文档的总个数综上所述,有基于信息论计算词汇权重的函数,如下式:。3.根据权利要求1中所述的一种改进的文本相似度求解方法,其特征是,以上所述步骤3中具体计算过程如下:步骤3:根据词汇位置信息,计算词汇在文本中的权重值,其具体计算过程如下:根...

【专利技术属性】
技术研发人员:金平艳
申请(专利权)人:四川用联信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1