一种相似度分析的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:22330356 阅读:31 留言:0更新日期:2019-10-19 12:19
本发明专利技术提供了一种相似度分析的方法、装置、存储介质及电子设备,其中,该方法包括:获取待比较的第一文本和第二文本,以及第一分词和第二分词;确定第一分词中所包含的第一字在多种字体下的第一字图像,并确定第一字形向量;同理确定第二分词的第二字形向量;根据第一分词所包含的所有第一字的第一字形向量生成第一分词向量,同理生成第二分词向量;根据所有第一分词向量和所有第二分词向量确定第一文本与第二文本之间的相似度。通过本发明专利技术实施例提供的相似度分析的方法、装置、存储介质及电子设备,结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征,在判断相似度时引入字形特征,可以提高相似度判断的准确性。

【技术实现步骤摘要】
一种相似度分析的方法、装置、存储介质及电子设备
本专利技术涉及自然语言理解处理
,具体而言,涉及一种相似度分析的方法、装置、存储介质及电子设备。
技术介绍
随着自然语言理解处理技术的发展,出现了越来越多的文本处理需求,比如在文档复制检查、信息检索和机器翻译等场景需要判断两个文本是否相同。传统判断两个文本是否相同的方法是基于语义相似度进行计算;例如基于词语共现信息得到词向量,再通过词向量进行语义相似度分析。虽然基于语义相似度的判断方法与人对自然语言的理解较为符合,但是该传统方法在判断一些含有罕见词的语句时,由于词语共现次数过少难以获取足够的信息,导致语义相似分析不准确。例如,“邓紫棋”和“邓紫琪”之间的语义相似度可能过低,容易将二者识别为不相关的词语。
技术实现思路
为解决上述问题,本专利技术实施例的目的在于提供一种相似度分析的方法、装置、存储介质及电子设备。第一方面,本专利技术实施例提供了一种相似度分析的方法,包括:获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。在一种可能的实现方式中,所述确定所述第一字图像的第一字形特征包括:基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述第一中间字形特征的深度;根据所述第一中间字形特征生成所述第一字图像的第一字形特征。在一种可能的实现方式中,所述基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征包括:基于H个1×1的卷积核,将所述中间卷积层的c×c的输入向量转换为c×c×H的第一中间字形特征。在一种可能的实现方式中,所述根据所述第一中间字形特征生成所述第一字图像的第一字形特征包括:在深度方向上将所述第一中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的所述子字形特征进行卷积处理,并根据所有组的所述子字形特征的卷积处理结果生成所述第一字图像的第一字形特征,所述第一字形特征为1×1×K的向量,K为所述第一字形特征的深度。在一种可能的实现方式中,所述根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量包括:对所有所述第一字的第一字形向量进行拼接处理,生成N×M的第一词形张量,N为所述第一字的个数,M为所述第一字形向量的深度;在拼接的维度上对所述第一词形张量进行池化处理,生成M维的第一词形向量,并根据所述第一词形向量生成所述第一分词的第一分词向量。在一种可能的实现方式中,所述根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量包括:确定所述第一分词的第一语义向量,根据所述第一语义向量以及所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量。第二方面,本专利技术实施例还提供了一种相似度分析的装置,包括:文本获取模块,用于获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;字形向量生成模块,用于确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;分词向量生成模块,用于根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;相似度分析模块,用于根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。在一种可能的实现方式中,所述字形向量生成模块确定所述第一字图像的第一字形特征包括:基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述第一中间字形特征的深度;根据所述第一中间字形特征生成所述第一字图像的第一字形特征。第三方面,本专利技术实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的相似度分析的方法。第四方面,本专利技术实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的相似度分析的方法。本专利技术实施例上述第一方面提供的方案中,提取在相应字体下的字图像的字形特征,并结合多种字体下的字图像的字形特征综合确定每个字的字形特征,进而可以确定包含一个或多个字的分词的字形特征,并生成包含字形特征的分词向量,之后基于该分词向量即可判断两个分词或两个文本之间字形特征的相似度,判断二者是否相似。本实施例中结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征,在判断相似度时引入字形特征,可以提高相似度判断的准确性;尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致判断不准确的缺陷。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术实施例所提供的一种相似度分析的方法的流程图;图2示出了本专利技术实施例所提供的相似度分析的方法中,卷积神经网络的一种结构示意图;图3示出了本专利技术实施例所提供的一种相似度分析的装置的结构示意图;图4示出了本专利技术实施例所提供的用于执行相似度分析的方法的电子设备的结构示意图。具体实施方式在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、本文档来自技高网...

【技术保护点】
1.一种相似度分析的方法,其特征在于,包括:获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。

【技术特征摘要】
1.一种相似度分析的方法,其特征在于,包括:获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。2.根据权利要求1所述的方法,其特征在于,所述确定所述第一字图像的第一字形特征包括:基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述第一中间字形特征的深度;根据所述第一中间字形特征生成所述第一字图像的第一字形特征。3.根据权利要求2所述的方法,其特征在于,所述基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征包括:基于H个1×1的卷积核,将所述中间卷积层的c×c的输入向量转换为c×c×H的第一中间字形特征。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一中间字形特征生成所述第一字图像的第一字形特征包括:在深度方向上将所述第一中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的所述子字形特征进行卷积处理,并根据所有组的所述子字形特征的卷积处理结果生成所述第一字图像的第一字形特征,所述第一字形特征为1×1×K的向量,K为所述第一字形特征的深度。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量包括:对所有所述第一字的第一字形向量进行拼接处理,生成N×M的第一词形张量,N为所述第一字的个数,M为所述第一字形向量的深度;在拼接的维度上对所述第一词形张量进行池...

【专利技术属性】
技术研发人员:孟昱先
申请(专利权)人:北京香侬慧语科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1