【技术实现步骤摘要】
一种相似度分析的方法、装置、存储介质及电子设备
本专利技术涉及自然语言理解处理
,具体而言,涉及一种相似度分析的方法、装置、存储介质及电子设备。
技术介绍
随着自然语言理解处理技术的发展,出现了越来越多的文本处理需求,比如在文档复制检查、信息检索和机器翻译等场景需要判断两个文本是否相同。传统判断两个文本是否相同的方法是基于语义相似度进行计算;例如基于词语共现信息得到词向量,再通过词向量进行语义相似度分析。虽然基于语义相似度的判断方法与人对自然语言的理解较为符合,但是该传统方法在判断一些含有罕见词的语句时,由于词语共现次数过少难以获取足够的信息,导致语义相似分析不准确。例如,“邓紫棋”和“邓紫琪”之间的语义相似度可能过低,容易将二者识别为不相关的词语。
技术实现思路
为解决上述问题,本专利技术实施例的目的在于提供一种相似度分析的方法、装置、存储介质及电子设备。第一方面,本专利技术实施例提供了一种相似度分析的方法,包括:获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含 ...
【技术保护点】
1.一种相似度分析的方法,其特征在于,包括:获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。
【技术特征摘要】
1.一种相似度分析的方法,其特征在于,包括:获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。2.根据权利要求1所述的方法,其特征在于,所述确定所述第一字图像的第一字形特征包括:基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述第一中间字形特征的深度;根据所述第一中间字形特征生成所述第一字图像的第一字形特征。3.根据权利要求2所述的方法,其特征在于,所述基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征包括:基于H个1×1的卷积核,将所述中间卷积层的c×c的输入向量转换为c×c×H的第一中间字形特征。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一中间字形特征生成所述第一字图像的第一字形特征包括:在深度方向上将所述第一中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的所述子字形特征进行卷积处理,并根据所有组的所述子字形特征的卷积处理结果生成所述第一字图像的第一字形特征,所述第一字形特征为1×1×K的向量,K为所述第一字形特征的深度。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量包括:对所有所述第一字的第一字形向量进行拼接处理,生成N×M的第一词形张量,N为所述第一字的个数,M为所述第一字形向量的深度;在拼接的维度上对所述第一词形张量进行池...
【专利技术属性】
技术研发人员:孟昱先,
申请(专利权)人:北京香侬慧语科技有限责任公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。