一种基于动词的中文文本相似度计算方法技术

技术编号:26032761 阅读:41 留言:0更新日期:2020-10-23 21:10
本发明专利技术涉及一种基于动词的中文文本相似度计算方法,包括以下步骤:S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;S2:分别对预处理完成的第一文本和第二文本的提取动词序列;S3:基于动词序列计算第一文本与第二文本的语法相似度f

【技术实现步骤摘要】
一种基于动词的中文文本相似度计算方法
本专利技术涉及语义分析
,尤其是涉及一种基于动词的中文文本相似度计算方法。
技术介绍
在信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统和文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。近年来,一些方法提出利用文本相似度计算对已签订的合同进行智能评审,实现对合同文本中潜在的法律风险进行自动预警,使中文文本相似度计算方法的应用得到进一步的扩展应用,也对中文文本相似度计算提出了新的要求。目前文本相似度计算方法包括基于字符串的方法、基于本体的方法和基于语料库的方法等,其中基于字符串的方法仅从字面上考虑了字符串的匹配或者共现,没有考虑到文本中包含的语义信息,基于本体的方法受限于人类构建的本体规模,不在本体中的词语无法计算相似度,而基于语料库的方法通过神经网络训练词向量,把句子表示成向量形式,在一定程度上能够捕获文本中的语法和语义的信息。但是这些方法均没有结合汉语语言学以及自然语言处理的规律与经验,且没有有效结合,不能高效、准确地进行中文文本相似度的计算。而合同评审关系到签订双方的重要利益,如电网工程建设中,合同条款的制定是十分重要的环节,如果此类条款存在责任不明确等问题,就会存在引起纠纷并导致损失等风险,需要进行准确精细的审批。所以目前的中文文本相似度计算方法不能适用于合同智能评审,需要设计一种新的中文文本相似度计算方法,高效、准确地进行中文文本相似度的计算。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种提高计算精确度和计算速度的基于动词的中文文本相似度计算方法。本专利技术的目的可以通过以下技术方案来实现:一种基于动词的中文文本相似度计算方法,包括以下步骤:S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;S2:分别对预处理完成的第一文本和第二文本的提取动词序列;S3:基于动词序列计算第一文本与第二文本的语法相似度f1;S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2;S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。进一步地,所述的预处理具体包括:对第一文本和第二文本进行分词,并去除停用词。在分词的过程中,我们可以发现一些对文本内容意义不大但出现频率很高的词、符号和标点等。如“这、的、也、对、了、吗”等词基本上都会出现在任何一篇汉语文章中,但把这些词运用到文章中似乎并没有什么意义,它们在文章中的地位也变得可有可无,去除它们也并不影响文章所要表达的具体含义以及它的可读性。因此这些词就作为停用词在预处理的过程中进行取出,本专利技术采用四川大学机器智能实验室的停用词库,通过构造一个去除词表(RemoveWordsList),过滤掉这些无意义词。进一步地,所述的步骤S3具体包括:S31:将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串;S32:获取第一文本特征字符串到第二文本特征字符串的公共子串个数,记为第一公共子串个数;S33:获取第二文本特征字符串到第一文本特征字符串的公共子串个数,记为第二公共子串个数;S34:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;S35:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1。更进一步地,所述的语法相似度f1的计算公式为:其中,c为实际公共子串个数,a为第一文本的动词序列中动词的个数,b为第二文本的动词序列中动词的个数。进一步地,所述的步骤S4具体包括:S41:基于语义向量空间模型,构建语义主题空间P中的特征项向量表;S42:分别提取第一文本和第二文本中所有的特征项,得到第一文本特征项集合和第二文本特征项集合;S43:分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数;S44:利用特征项向量表,获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量;S45:根据特征项向量,计算第一文本对应的特征向量和第二文本对应的特征向量,并分别做标准化处理,得到第一文本特征向量和第二文本特征向量;S46:根据第一文本特征向量和第二文本特征向量,计算第一文本和第二文本的语义相似度f2。更进一步地,所述的第一文本对应的特征向量的计算式为:其中,fi,k为第一文本特征项集合中第k个特征项出现的次数,n为第一文本中所有特征项的个数,为第一文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量;所述的第二文本对应的特征向量的计算式为:其中,fj,k为第二文本特征项集合中第k个特征项出现的次数,m为第二文本中所有特征项的个数,第二文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量。更进一步地,所述的语义相似度f2的计算式为:其中,为第一文本特征向量,为第二文本特征向量,wi,j为第一文本特征向量与第二文本特征向量之间的夹角。更进一步地,所述的步骤S41具体包括:S411:确定语义向量空间模型中使用的语义主题集合VT={τ1,τ2,…,τd},确定语义主题空间P;S412:确定语义向量空间模型中非语义主题的文本特征项,记为集合VN;S413:将语义主题和特征项表示为集合V,以集合的元素为结点,元素之间的语义关系为边,组织语义关联图G=<V,E>;S414:根据语义关联图G=<V,E>,确定所有语义主题对应的向量;S415:计算各个特征项的向量表示,构建语义主题空间P中的特征项向量表。进一步优选地,所述的特征项为文本中的各个词语。进一步地,所述的文本间相似度计算式为:f=α*f1+β*f2其中,α为语法加权系数,其值优选为0.4,β为语义加权系数,其值优选为0.6,该值根据文中语法结构、语义结构在度量文本相似性时的权重确定。与现有技术相比,本专利技术具有以下优点:1)本专利技术通过引入“动词中心词”的概念,扩展停用词的范围,将文本中去掉停用词后的动词组成动词序列作为文本特征串,结合串匹配算法,计算出中文文本间语法相似度f1,算法简单,提高计算速度;2)本专利技术根据IFIDF方法提取两篇文本的特征项,进行权重计算,并利用语义主题作为向量空间的维度提取文本的特征向量,计算出语义相似性f2,有效解决简单以词语作为文本的特征项而忽略近义词和同义异形词替换的问题,有效提高计算结果的精准度;3)本专利技术结合文本间语法相似度f1和语义相似性f2得到文本间相似度f作为最终文本相似度的结果,从语法和语义两方面同时考虑,提高文本相似度计算的精确度。附图说明图1为本专利技术的流程示意图;图2为语法相似度本文档来自技高网...

【技术保护点】
1.一种基于动词的中文文本相似度计算方法,其特征在于,包括以下步骤:/nS1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;/nS2:分别对预处理完成的第一文本和第二文本的提取动词序列;/nS3:基于动词序列计算第一文本与第二文本的语法相似度f

【技术特征摘要】
1.一种基于动词的中文文本相似度计算方法,其特征在于,包括以下步骤:
S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;
S2:分别对预处理完成的第一文本和第二文本的提取动词序列;
S3:基于动词序列计算第一文本与第二文本的语法相似度f1;
S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2;
S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。


2.根据权利要求1所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的预处理具体包括:
对第一文本和第二文本进行分词,并去除停用词。


3.根据权利要求1所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的步骤S3具体包括:
S31:将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串;
S32:获取第一文本特征字符串到第二文本特征字符串的公共子串个数,记为第一公共子串个数;
S33:获取第二文本特征字符串到第一文本特征字符串的公共子串个数,记为第二公共子串个数;
S34:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S35:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1。


4.根据权利要求3所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的语法相似度f1的计算公式为:



其中,c为实际公共子串个数,a为第一文本的动词序列中动词的个数,b为第二文本的动词序列中动词的个数。


5.根据权利要求4所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的步骤S4具体包括:
S41:基于语义向量空间模型,构建语义主题空间P中的特征项向量表;
S42:分别提取第一文本和第二文本中所有的特征项,得到第一文本特征项集合和第二文本特征项集合;
S43:分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数;
S44:利用特征项向量表,获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量;
S45:根据特征项向量,计算第一文本对应的特征向量和第二文本对应...

【专利技术属性】
技术研发人员:陈凯玲顾闻史松峰韩东徐雪莲
申请(专利权)人:国网上海市电力公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1