一种文本相似度确定方法及设备技术

技术编号:36897572 阅读:15 留言:0更新日期:2023-03-18 09:18
本申请涉及自然语言处理技术领域,公开了一种文本相似度确定方法及设备,包括:在对第一文本、第二文本进行分词处理后,确定每个分词的词嵌入向量,其中词嵌入向量为确定分词的词全局信息后,利用分词以及分词的词全局信息确定分词的词局部信息过程中得到的,然后利用第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定第一文本的句子向量,并利用第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定第二文本的句子向量,最后通过第一文本的句子向量和第二文本的句子向量,确定第一文本和第二文本的相似度,进而提高确定文本相似度的准确率。进而提高确定文本相似度的准确率。进而提高确定文本相似度的准确率。

【技术实现步骤摘要】
一种文本相似度确定方法及设备


[0001]本申请涉及自然语言处理
,尤其涉及一种文本相似度确定方法及设备。

技术介绍

[0002]随着电子产品智能化程度的不断提高,在智能问答、信息检索等应用场景中,对文本进行自动识别和相似度比对的要求越来越高。相关技术中,通过比对两个文本中关键词词语重合度确定两个文本的相似度,但是针对语义丰富的词语来说,在不同的文本中可能具有不同的含义,进而导致确定两个文本相似度的准确率较低。

技术实现思路

[0003]本申请实施例提供一种文本相似度确定方法及设备,从而可以提高确定文本相似度的准确率。
[0004]第一方面,本申请一实施例提供了一种文本相似度确定方法,包括:
[0005]对第一文本、第二文本进行分词处理,得到第一分词集合、第二分词集合;
[0006]针对所述第一分词集合和所述第二分词集合中的每个分词,确定所述分词对应的词嵌入向量;其中,所述词嵌入向量为确定所述分词的词全局信息后,利用所述分词以及所述分词的词全局信息确定所述分词的词局部信息过程中得到的;
[0007]利用所述第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定所述第一文本的句子向量;并利用所述第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定所述第二文本的句子向量;
[0008]通过所述第一文本的句子向量和所述第二文本的句子向量,确定所述第一文本和所述第二文本的相似度。
[0009]相对于现有技术中,仅根据文本中关键词词语确定文本相似度,或者对第一文本、第二文本分词处理后,将每个分词分别输入给单个模型得到每个分词的词嵌入向量,再将每个分词的词嵌入向量进行加和平均得到文本的句子向量,进而确定文本相似度来说,本申请提出了一种文本相似度确定方法,结合分词的词局部信息和词全局信息确定第一文本、第二文本中分词的词嵌入向量,并在确定每个分词的权重值后分别确定第一文本、第二文本的句子向量,最后根据第一文本、第二文本的句子向量确定第一文本、第二文本的相似度,从而提高确定文本相似度的准确率。
[0010]可选的,在对第一文本、第二文本进行分词处理,得到第一分词集合、第二分词集合后,所述方法还包括:
[0011]针对所述第一分词集合和所述第二分词集合中的每个分词,根据预设规则确定所述分词的向量特征;所述预设规则为对所述分词所在的分句进行指定次数的向量特征提取;
[0012]利用所述分词的向量特征,确定所述分词对应的实体类别;
[0013]所述通过所述第一文本的句子向量和所述第二文本的句子向量确定所述第一文
本和所述第二文本的相似度,包括:
[0014]确定所述第一文本的句子向量和所述第二文本的句子向量之间的余弦距离;
[0015]通过所述余弦距离和每个分词对应的实体类别,确定所述第一文本和所述第二文本的相似度。
[0016]从多个角度准确识别第一分词集合和第二分词集合中的每个分词,进而提高文本相似度的准确率。
[0017]可选的,所述通过所述余弦距离和每个分词对应的实体类别,确定所述第一文本和所述第二文本的相似度,包括:
[0018]确定所述第一分词集合和所述第二分词集合中每个相同实体类别的分词的关联度值;
[0019]将多个所述关联度值相乘后再乘以所述余弦距离的乘积结果确定为所述第一文本和所述第二文本的相似度。
[0020]通过构建多个关联度值计算关系,可以更准确计算文本的相似度。
[0021]可选的,所述确定所述第一分词集合和所述第二分词集合中任意一个相同实体类别的分词的关联度值,包括:
[0022]确定所述第一分词集合和所述第二分词集合中属于所述任意一个相同实体类别的相同分词的个数以及不同分词的个数;
[0023]将相同分词个数与不同分词个数之间的商确定为分词的关联度值。
[0024]通过构建第一分词集合和第二分词集合中每个相同实体类别的分词的关联度值的概念,可以更准确计算文本的相似度。
[0025]可选的,所述第一权重和所述第二权重为逆文本频率指数值时,所述方法还包括:
[0026]根据所述第一文本的文本信息确定所述第一分词集合中每个分词的逆文本频率指数值;并根据所述第二文本的文本信息确定所述第二分词集合中每个分词的逆文本频率指数值。
[0027]通过计算每个分词的逆文本频率指数值作为每个分词的词嵌入向量权重值,进而可以更准确确定第一文本的句子向量和第二文本的句子向量。
[0028]第二方面,本申请一实施例提供了一种文本相似度确定设备,包括:处理器和显示器;
[0029]所述显示器,用于显示用户操作界面;
[0030]所述处理器,被配置为执行:
[0031]对第一文本、第二文本进行分词处理,得到第一分词集合、第二分词集合;
[0032]针对所述第一分词集合和所述第二分词集合中的每个分词,确定所述分词对应的词嵌入向量;其中,所述词嵌入向量为确定所述分词的词全局信息后,利用所述分词以及所述分词的词全局信息确定所述分词的词局部信息过程中得到的;
[0033]利用所述第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定所述第一文本的句子向量;并利用所述第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定所述第二文本的句子向量;
[0034]通过所述第一文本的句子向量和所述第二文本的句子向量,确定所述第一文本和所述第二文本的相似度。
[0035]可选的,所述处理器被配置为执行对第一文本、第二文本进行分词处理,得到第一分词集合、第二分词集合后,还被配置为执行:
[0036]针对所述第一分词集合和所述第二分词集合中的每个分词,根据预设规则确定所述分词的向量特征;所述预设规则为对所述分词所在的分句进行指定次数的向量特征提取;
[0037]利用所述分词的向量特征,确定所述分词对应的实体类别;
[0038]所述处理器被配置为执行通过所述第一文本的句子向量和所述第二文本的句子向量确定所述第一文本和所述第二文本的相似度时,具体被配置为执行:
[0039]确定所述第一文本的句子向量和所述第二文本的句子向量之间的余弦距离;
[0040]通过所述余弦距离和每个分词对应的实体类别,确定所述第一文本和所述第二文本的相似度。
[0041]可选的,所述处理器被配置为执行通过所述余弦距离和每个分词对应的实体类别,确定所述第一文本和所述第二文本的相似度时,具体被配置为执行:
[0042]确定所述第一分词集合和所述第二分词集合中每个相同实体类别的分词的关联度值;
[0043]将多个所述关联度值相乘后再乘以所述余弦距离的乘积结果确定为所述第一文本和所述第二文本的相似度。
[0044]可选的,所述处理器被配置为执行确定所述第一分词集合和所述第二分词集合中任意一个相同实体类别的分词的关联度值时,具体被配置为执行:...

【技术保护点】

【技术特征摘要】
1.一种文本相似度确定方法,其特征在于,所述方法包括:对第一文本、第二文本进行分词处理,得到第一分词集合、第二分词集合;针对所述第一分词集合和所述第二分词集合中的每个分词,确定所述分词对应的词嵌入向量;其中,所述词嵌入向量为确定所述分词的词全局信息后,利用所述分词以及所述分词的词全局信息确定所述分词的词局部信息过程中得到的;利用所述第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定所述第一文本的句子向量;并利用所述第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定所述第二文本的句子向量;通过所述第一文本的句子向量和所述第二文本的句子向量,确定所述第一文本和所述第二文本的相似度。2.根据权利要求1所述的方法,其特征在于,在对第一文本、第二文本进行分词处理,得到第一分词集合、第二分词集合后,所述方法还包括:针对所述第一分词集合和所述第二分词集合中的每个分词,根据预设规则确定所述分词的向量特征;所述预设规则为对所述分词所在的分句进行指定次数的向量特征提取;利用所述分词的向量特征,确定所述分词对应的实体类别;所述通过所述第一文本的句子向量和所述第二文本的句子向量确定所述第一文本和所述第二文本的相似度,包括:确定所述第一文本的句子向量和所述第二文本的句子向量之间的余弦距离;通过所述余弦距离和每个分词对应的实体类别,确定所述第一文本和所述第二文本的相似度。3.根据权利要求2所述的方法,其特征在于,所述通过所述余弦距离和每个分词对应的实体类别,确定所述第一文本和所述第二文本的相似度,包括:确定所述第一分词集合和所述第二分词集合中每个相同实体类别的分词的关联度值;将多个所述关联度值相乘后再乘以所述余弦距离的乘积结果确定为所述第一文本和所述第二文本的相似度。4.根据权利要求3所述的方法,其特征在于,所述确定所述第一分词集合和所述第二分词集合中任意一个相同实体类别的分词的关联度值,包括:确定所述第一分词集合和所述第二分词集合中属于所述任意一个相同实体类别的相同分词的个数以及不同分词的个数;将相同分词个数与不同分词个数之间的商确定为分词的关联度值。5.根据权利要求1所述的方法,其特征在于,所述第一权重和所述第二权重为逆文本频率指数值时,所述方法还包括:根据所述第一文本的文本信息确定所述第一分词集合中每个分词的逆文本频率指数值;并根据所述第二文本的文本信息确定所述第二分词集合中每个分词的逆文本频率指数值。6.一种文本相似度确定设备,其特征在于,包括:处理器和显示器;所述显示器,用于显示用户操作界面;所述处理器,被配...

【专利技术属性】
技术研发人员:李浩李建伟孙永良陈维强
申请(专利权)人:青岛国创智慧云脑科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1