一种基于动词的中文文本相似度计算方法技术

技术编号：26032761 阅读：41 留言：0更新日期：2020-10-23 21:10

本发明专利技术涉及一种基于动词的中文文本相似度计算方法，包括以下步骤：S1：获取需要进行相似度计算的第一文本和第二文本，并进行预处理；S2：分别对预处理完成的第一文本和第二文本的提取动词序列；S3：基于动词序列计算第一文本与第二文本的语法相似度f

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动词的中文文本相似度计算方法
本专利技术涉及语义分析
，尤其是涉及一种基于动词的中文文本相似度计算方法。
技术介绍
在信息处理中，文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统和文本挖掘等领域，是一个非常基础而关键的问题，长期以来一直是人们研究的热点和难点。近年来，一些方法提出利用文本相似度计算对已签订的合同进行智能评审，实现对合同文本中潜在的法律风险进行自动预警，使中文文本相似度计算方法的应用得到进一步的扩展应用，也对中文文本相似度计算提出了新的要求。目前文本相似度计算方法包括基于字符串的方法、基于本体的方法和基于语料库的方法等，其中基于字符串的方法仅从字面上考虑了字符串的匹配或者共现，没有考虑到文本中包含的语义信息，基于本体的方法受限于人类构建的本体规模，不在本体中的词语无法计算相似度，而基于语料库的方法通过神经网络训练词向量，把句子表示成向量形式，在一定程度上能够捕获文本中的语法和语义的信息。但是这些方法均没有结合汉语语言学以及自然语言处理的规律与经验，且没有有效结合，不能高效、准确地进行中文文本相似度的计算。而合同评审关系到签订双方的重要利益，如电网工程建设中，合同条款的制定是十分重要的环节，如果此类条款存在责任不明确等问题，就会存在引起纠纷并导致损失等风险，需要进行准确精细的审批。所以目前的中文文本相似度计算方法不能适用于合同智能评审，需要设计一种新的中文文本相似度计算方法，高效、准确地进行中文文本相似度的计算。
技术实现思路
本专利技术...

【技术保护点】
1.一种基于动词的中文文本相似度计算方法，其特征在于，包括以下步骤：/nS1：获取需要进行相似度计算的第一文本和第二文本，并进行预处理；/nS2：分别对预处理完成的第一文本和第二文本的提取动词序列；/nS3：基于动词序列计算第一文本与第二文本的语法相似度f

【技术特征摘要】
1.一种基于动词的中文文本相似度计算方法，其特征在于，包括以下步骤：
S1：获取需要进行相似度计算的第一文本和第二文本，并进行预处理；
S2：分别对预处理完成的第一文本和第二文本的提取动词序列；
S3：基于动词序列计算第一文本与第二文本的语法相似度f1；
S4：基于预处理完成的第一文本和第二文本，计算两文本的语义相似度f2；
S5：结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。

2.根据权利要求1所述的一种基于动词的中文文本相似度计算方法，其特征在于，所述的预处理具体包括：
对第一文本和第二文本进行分词，并去除停用词。

3.根据权利要求1所述的一种基于动词的中文文本相似度计算方法，其特征在于，所述的步骤S3具体包括：
S31：将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串；
S32：获取第一文本特征字符串到第二文本特征字符串的公共子串个数，记为第一公共子串个数；
S33：获取第二文本特征字符串到第一文本特征字符串的公共子串个数，记为第二公共子串个数；
S34：选取第一公共子串个数和第二公共子串个数中最大公共子串个数，作为实际公共子串个数；
S35：利用实际公共子串个数，计算第一文本与第二文本的语法相似度f1。

4.根据权利要求3所述的一种基于动词的中文文本相似度计算方法，其特征在于，所述的语法相似度f1的计算公式为：

其中，c为实际公共子串个数，a为第一文本的动词序列中动词的个数，b为第二文本的动词序列中动词的个数。

5.根据权利要求4所述的一种基于动词的中文文本相似度计算方法，其特征在于，所述的步骤S4具体包括：
S41：基于语义向量空间模型，构建语义主题空间P中的特征项向量表；
S42：分别提取第一文本和第二文本中所有的特征项，得到第一文本特征项集合和第二文本特征项集合；
S43：分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数；
S44：利用特征项向量表，获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量；
S45：根据特征项向量，计算第一文本对应的特征向量和第二文本对应...

【专利技术属性】
技术研发人员：陈凯玲，顾闻，史松峰，韩东，徐雪莲，
申请(专利权)人：国网上海市电力公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人