文本相似度的确定方法、装置、存储介质及电子装置制造方法及图纸

技术编号:34130050 阅读:12 留言:0更新日期:2022-07-14 15:11
本申请公开了一种文本相似度的确定方法、装置、存储介质及电子装置,涉及智慧家庭技术领域,该方法包括:将获取的目标文本输入至第一目标模型,得到第一目标模型输出的目标文本的目标向量;基于目标向量从预设数据库中获取N个向量,其中,N是大于或等于1的自然数;利用N个向量和目标向量,确定N个向量中每个向量对应的文本与目标文本之间的相似度。应的文本与目标文本之间的相似度。应的文本与目标文本之间的相似度。

【技术实现步骤摘要】
文本相似度的确定方法、装置、存储介质及电子装置


[0001]本申请涉及文本处理领域,具体而言,涉及一种文本相似度的确定方法、装置、存储介质及电子装置。

技术介绍

[0002]在现如今的大数据时代,每天产生着海量的结构化和非结构化数据,其中文本数据在搜索领域,对话领域等呈几何式的增量增长。网络化时代算法逐渐改变着人们的生活和生活方式,其中在自然语言领域,文本相似度算法在当今海量文本的网络时代越来越重要,任何涉及到知识和信息的场景下都有可能用到文本相似度算法。当前最典型是在搜索引擎、推荐系统、论文鉴定、机器翻译、自动应答、拼写纠错等领域有着广泛的应用。传统的文本检索算法和相似度计算算法在大数据量场景下已经显得力不从心。

技术实现思路

[0003]本专利技术实施例提供了一种文本相似度的确定方法、装置、存储介质及电子装置,以至少解决相关技术中对文本的匹配不准确的问题。
[0004]根据本专利技术的一个实施例,提供了一种文本相似度的确定方法,包括:将获取的目标文本输入至第一目标模型,得到上述第一目标模型输出的上述目标文本的目标向量;基于上述目标向量从预设数据库中获取N个向量,其中,上述N是大于或等于1的自然数;利用上述N个向量和上述目标向量,确定上述N个向量中每个向量对应的文本与上述目标文本之间的相似度。
[0005]根据本专利技术的另一个实施例,提供了一种文本相似度的确定装置,包括:第一输入模块,用于将获取的目标文本输入至第一目标模型,得到上述第一目标模型输出的上述目标文本的目标向量;第一获取模块,用于基于上述目标向量从预设数据库中获取N个向量,其中,上述N是大于或等于1的自然数;第一确定模块,用于利用上述N个向量和上述目标向量,确定上述N个向量中每个向量对应的文本与上述目标文本之间的相似度。
[0006]在一个示例性实施例中,上述第一输入模块,包括:第一提取单元,用于通过上述第一目标模型中的多头注意力网络提取上述目标文本的特征变量;第一转化单元,用于利用上述第一目标模型中的嵌入层Embedding将上述特征变量转化为特征向量,得到上述目标文本的目标向量。
[0007]在一个示例性实施例中,上述第一获取模块,包括:第一确定单元,用于确定上述目标向量存储至上述预设数据库中的向量索引;第一计算单元,用于计算上述目标向量的向量索引与上述预设数据库中每个向量的向量索引之间的距离,确定M个距离,其中,上述M是大于或等于上述N的自然数;第二确定单元,用于将上述M个距离中大于预设阈值的距离所对应的向量,确定为上述N个向量。
[0008]在一个示例性实施例中,上述第一确定模块,包括:第三确定单元,用于确定上述N个向量中每个向量对应的文本,确定N个文本;第一输入单元,用于将上述目标文本和上述N
个文本输入至第二目标模型,得到上述第二目标模型输出的上述每个向量对应的文本与上述目标文本之间的相似结果。
[0009]在一个示例性实施例中,上述第一输入单元,包括:第一输入子单元,用于将上述目标文本和上述N个文本输入至上述第二目标模型中的实体结构中,得到上述目标文本的目标嵌入向量和上述N个文本的N个嵌入向量;第一计算子单元,用于计算上述目标嵌入向量和上述N个嵌入向量中每个嵌入向量之间的差值;第一拼接子单元,用于将上述目标嵌入向量、上述每个嵌入向量,以及上述目标嵌入向量和上述每个嵌入向量之间的差值进行拼接,确定N个拼接向量;第一输出子单元,用于基于上述N个拼接向量输出上述相似结果。
[0010]在一个示例性实施例中,上述第一输出子单元,包括:第一输入子模块,用于将上述每个拼接向量输入至上述第二目标模型中的全连接层,得到上述全连接层输出的对上述每个拼接向量进行二分类的概率值;第一输出子模块,用于基于上述概率值输出上述相似结果。
[0011]在一个示例性实施例中,通过以下方式基于上述概率值输出上述相似结果:将上述概率值与第二预设阈值进行比较;利用比较结果输出上述相似结果。
[0012]在一个示例性实施例中,上述装置还包括:第一提取模块,用于基于上述目标向量从预设数据库中获取N个向量之前,通过上述第一目标模型中的多头注意力网络提取M个文本的特征变量,其中,上述M是大于或等于上述N的自然数;第一转化模块,用于利用上述第一目标模型中的嵌入层将上述M个文本的特征变量转化为特征向量,得到上述M个向量;第一存储模块,用于按照上述M个文本的索引和向量化表征,将上述M个向量存储至上述预设数据库中。
[0013]根据本专利技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0014]根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[0015]通过本专利技术,通过将获取的目标文本输入至第一目标模型,得到第一目标模型输出的目标文本的目标向量;基于目标向量从预设数据库中获取N个向量,其中,N是大于或等于1的自然数;利用N个向量和目标向量,确定N个向量中每个向量对应的文本与目标文本之间的相似度。并不是通过提取关键词来进行海量文本中的召回计算。而是从文本层面进行匹配,实现了文本之间的精确匹配。因此,可以解决相关技术中对文本的匹配不准确的问题,达到提高文本匹配的准确度的效果。
附图说明
[0016]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0017]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是根据本申请实施例的一种文本相似度的确定方法的硬件环境示意图;
[0019]图2是根据本专利技术实施例的文本相似度的确定方法的流程图;
[0020]图3是根据本专利技术实施例的文本相似度的确定方法的整体流程图;
[0021]图4是根据本专利技术实施例的文本相似度的确定装置的结构框图。
具体实施方式
[0022]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0023]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本相似度的确定方法,其特征在于,包括:将获取的目标文本输入至第一目标模型,得到所述第一目标模型输出的所述目标文本的目标向量;基于所述目标向量从预设数据库中获取N个向量,其中,所述N是大于或等于1的自然数;利用所述N个向量和所述目标向量,确定所述N个向量中每个向量对应的文本与所述目标文本之间的相似度。2.根据权利要求1所述的方法,其特征在于,将获取的目标文本输入至第一目标模型,得到所述第一目标模型输出的所述目标文本的目标向量,包括:通过所述第一目标模型中的多头注意力网络提取所述目标文本的特征变量;利用所述第一目标模型中的嵌入层Embedding将所述特征变量转化为特征向量,得到所述目标文本的目标向量。3.根据权利要求1或2所述的方法,其特征在于,基于所述目标向量从预设数据库中获取N个向量,包括:确定所述目标向量存储至所述预设数据库中的向量索引;计算所述目标向量的向量索引与所述预设数据库中每个向量的向量索引之间的距离,确定M个距离,其中,所述M是大于或等于所述N的自然数;将所述M个距离中大于预设阈值的距离所对应的向量,确定为所述N个向量。4.根据权利要求1

3任一项所述的方法,其特征在于,利用所述N个向量和所述目标向量,确定所述N个向量中每个向量对应的文本与所述目标文本之间的相似度,包括:确定所述N个向量中每个向量对应的文本,确定N个文本;将所述目标文本和所述N个文本输入至第二目标模型,得到所述第二目标模型输出的所述每个向量对应的文本与所述目标文本之间的相似结果。5.根据权利要求4所述的方法,其特征在于,将所述目标文本和所述N个文本输入至第二目标模型,得到所述第二目标模型输出的所述每个向量对应的文本与所述目标文本之间的相似结果,包括:将所述目标文本和所述N个文本输入至所述第二目标模型中的实体结构中,得到所述目标文本的目标嵌入向量和所述...

【专利技术属性】
技术研发人员:刘建国王迪李昱涧
申请(专利权)人:海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1