一种基于语义的相似度计算方法、装置及存储介质制造方法及图纸

技术编号:33286472 阅读:22 留言:0更新日期:2022-04-30 23:54
本发明专利技术公开了一种基于语义的相似度计算方法、装置及存储介质,所述方法包括:对所提供的业务文档进行处理,以生成模板;所述处理包括对业务文档的分词处理和对所述分词构建空间向量;对生成的模板设置与文档语义相关联的关键词和关键句;将待匹配文档按照生成所述模板相同的方式进行处理后,再与所述模板进行匹配计算,以得到匹配相似度;所述匹配计算包括词频相似度、加权关键词匹配度和加权关键句匹配度计算;若所述匹配相似度达到设定阈值,则所述待匹配文档为需要特定保护的文档;其有益效果是:整个方案除了常规的词频相似度计算,还加入了关联语义的关键词和关键句的加权处理,从而使匹配结果更加准确,进而减少相应误判情形的发生。判情形的发生。判情形的发生。

【技术实现步骤摘要】
一种基于语义的相似度计算方法、装置及存储介质


[0001]本专利技术涉及文本相似度
,具体涉及一种基于语义的相似度计算方法、装置及存储介质。

技术介绍

[0002]在端点安全行业中,需要检测用户特定业务文档是否被其他文本引用,常见匹配方式有通过提前定义敏感词,采用字符串比较的方式在文件中查找,匹配特定敏感词则认为属于敏感文件需要保护,然而这种方式准确度不高,是因为通过字符串比较的方式只能判断文本中包含特定敏感词,需要通过多次迭代文本通过字符串比较的方式判断,并且这种方式速度慢,需要提前定义敏感词,这种定义敏感词的方式,不能很好结合用户的业务特点,而且准确度不高。
[0003]虽然现有技术中,出现了通过分词向量的方式来判断相似度的方案,但没有基于文档内容和语义来判断,从而使得匹配结果易产生误判。

技术实现思路

[0004]针对现有技术中的技术缺陷,本专利技术实施例的目的在于提供一种可使匹配结果更加准确从而减少误判的一种基于语义的相似度计算方法、装置及存储介质。
[0005]为实现上述目的,第一方面,本专利技术实施例提供了一种基于语义的相似度计算方法,所述方法包括:
[0006]对所提供的业务文档进行处理,以生成模板;其中,所述处理包括对所述业务文档的分词处理和对所述分词构建空间向量;
[0007]对生成的所述模板设置与文档语义相关联的关键词和关键句;
[0008]将待匹配文档按照生成所述模板相同的方式进行处理后,再与所述模板进行匹配计算,以得到匹配相似度;其中,所述匹配计算包括词频相似度、加权关键词匹配度和加权关键句匹配度计算;
[0009]若所述匹配相似度达到设定阈值,则所述待匹配文档为需要特定保护的文档。
[0010]优选地,所述匹配计算时,先判断所述待匹配文档是否为所述业务文档的子集,若是,则无需计算,直接判定所述待匹配文档为需要特定保护的文档。
[0011]优选地,所述加权关键词匹配度通过以下步骤得出:
[0012]首先分别获取所述业务文档的分词列表和待匹配文档的分词列表;
[0013]然后以分词多的列表作为分母,将所述业务文档和待匹配文档中最长的相同分词部分片段的数量作为分子,以得到关键词匹配度;
[0014]最后再将所述关键词匹配度结合预设的关键词权重值,得到所述加权关键词匹配度。
[0015]优选地,所述加权关键句匹配度通过以下步骤得出:
[0016]在所述业务文档和待匹配文档中分别提取关键句,以形成各自的关键句列表;
[0017]以关键句多的列表作为计算分母,两列表中关键句相近的句子数量作为分子,以得到关键句匹配度;
[0018]最后再将所述关键句匹配度结合预设的关键句权重值,得到所述加权关键句匹配度。
[0019]第二方面,本专利技术实施例还提供了一种基于语义的相似度计算装置,包括:
[0020]模板生成模块,用于对所提供的业务文档进行处理,以生成模板;其中,所述处理包括对所述业务文档的分词处理和对所述分词构建空间向量;
[0021]设置模块,用于对生成的所述模板设置与文档语义相关联的关键词和关键句;
[0022]待匹配文档生成模块,用于将待匹配文档按照生成所述模板相同的方式进行处理;
[0023]相似度计算模块,用于:
[0024]将所述待匹配文档处理后,与所述模板进行匹配计算,以得到匹配相似度;其中,所述匹配计算包括词频相似度、加权关键词匹配度和加权关键句匹配度计算;
[0025]若所述匹配相似度达到设定阈值,则所述待匹配文档为需要特定保护的文档;
[0026]返回模块,用于展示所述相似度计算模块所得到的匹配计算结果。
[0027]优选地,所述匹配计算时,先判断所述待匹配文档是否为所述业务文档的子集,若是,则无需计算,直接判定所述待匹配文档为需要特定保护的文档。
[0028]优选地,所述加权关键词匹配度通过以下步骤得出:
[0029]首先分别获取所述业务文档的分词列表和待匹配文档的分词列表;
[0030]然后以分词多的列表作为分母,将所述业务文档和待匹配文档中最长的相同分词部分片段的数量作为分子,以得到关键词匹配度;
[0031]最后再将所述关键词匹配度结合预设的关键词权重值,得到所述加权关键词匹配度。
[0032]优选地,所述加权关键句匹配度通过以下步骤得出:
[0033]在所述业务文档和待匹配文档中分别提取关键句,以形成各自的关键句列表;
[0034]以关键句多的列表作为计算分母,两列表中关键句相近的句子数量作为分子,以得到关键句匹配度;
[0035]最后再将所述关键句匹配度结合预设的关键句权重值,得到所述加权关键句匹配度。
[0036]第三方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中提供的所述方法的步骤。
[0037]实施本专利技术实施例,通过对提供素材的业务文档进行处理,以生成模板,并设置相关联的关键词和关键句,然后再将待匹配文档按照生成所述模板相同的方式进行处理后,再与所述模板进行词频相似度、加权关键词匹配度和加权关键句匹配度计算;整个方案除了常规的词频相似度计算,还加入了关联语义的关键词和关键句的加权处理,从而使匹配结果更加准确,进而减少相应误判情形的发生。
附图说明
[0038]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
[0039]图1是本专利技术实施例提供的一种基于语义的相似度计算方法的流程图;
[0040]图2是本专利技术实施例提供的一种基于语义的相似度计算装置的结构框图。
具体实施方式
[0041]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]请参考图1,本专利技术实施例提供的一种基于语义的相似度计算方法,所述方法包括:
[0043]S101,对所提供的业务文档进行处理,以生成模板;其中,所述处理包括对所述业务文档的分词处理和对所述分词构建空间向量。
[0044]具体地,所述业务文档是针对用户实际应用过程的业务场景所提供的素材文档;例如,企业中涉及机密内容的营销策略、计划报表等;
[0045]先对素材文档进行学习,通过提取文档内容,进行分词处理、去除停用词、计算词频、构建词频向量等多个步骤,以生成所述模板。
[0046]S102,对生成的所述模板设置与文档语义相关联的关键词和关键句。
[0047]具体地,所述设置包括两种设置方式;其中一种是根据词频量所得,另一种是根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义的相似度计算方法,其特征在于,所述方法包括:对所提供的业务文档进行处理,以生成模板;其中,所述处理包括对所述业务文档的分词处理和对所述分词构建空间向量;对生成的所述模板设置与文档语义相关联的关键词和关键句;将待匹配文档按照生成所述模板相同的方式进行处理后,再与所述模板进行匹配计算,以得到匹配相似度;其中,所述匹配计算包括词频相似度、加权关键词匹配度和加权关键句匹配度计算;若所述匹配相似度达到设定阈值,则所述待匹配文档为需要特定保护的文档。2.如权利要求1所述的一种基于语义的相似度计算方法,其特征在于,所述匹配计算时,先判断所述待匹配文档是否为所述业务文档的子集,若是,则无需计算,直接判定所述待匹配文档为需要特定保护的文档。3.如权利要求1或2所述的一种基于语义的相似度计算方法,其特征在于,所述加权关键词匹配度通过以下步骤得出:首先分别获取所述业务文档的分词列表和待匹配文档的分词列表;然后以分词多的列表作为分母,将所述业务文档和待匹配文档中最长的相同分词部分片段的数量作为分子,以得到关键词匹配度;最后再将所述关键词匹配度结合预设的关键词权重值,得到所述加权关键词匹配度。4.如权利要求3所述的一种基于语义的相似度计算方法,其特征在于,所述加权关键句匹配度通过以下步骤得出:在所述业务文档和待匹配文档中分别提取关键句,以形成各自的关键句列表;以关键句多的列表作为计算分母,两列表中关键句相近的句子数量作为分子,以得到关键句匹配度;最后再将所述关键句匹配度结合预设的关键句权重值,得到所述加权关键句匹配度。5.一种基于语义的相似度计算装置,其特征在于,包括:模板生成模块,用于对所提供的业务文档进行处理,以生成模板;其中,所述处理包括对所述业务文档的分词处理和对所述分词构建空间向量...

【专利技术属性】
技术研发人员:胡成
申请(专利权)人:北京杰思安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1