文本相似度确定方法技术

技术编号:39572934 阅读:10 留言:0更新日期:2023-12-03 19:24
本公开提供了一种文本相似度确定方法

【技术实现步骤摘要】
文本相似度确定方法、装置、设备及存储介质


[0001]本公开涉及人工智能
,更具体地,涉及一种文本相似度确定方法

装置

电子设备及存储介质


技术介绍

[0002]随着人工智能

互联网和计算机技术的快速发展,文本相似度计算在很多领域得以应用

例如,在自然语言处理领域中,通常用于诸如文本匹配

句子相似度计算

文本聚类和分类等任务;在推荐系统中,文本相似度可用于推荐系统中的项目相似度计算,为用户提供个性化的推荐内容;在情感分析中,文本相似度可用于比较和分析不同文本之间的情感倾向和情绪相似度;在问答系统中,相似度可用于问答系统中的问题匹配和答案推荐,以提供准确和相关的答案

[0003]但是,现有的文本相似度方法往往难以准确地捕捉文本的语义信息和上下文含义,难以捕捉到上下文信息的变化,在计算大规模文本数据集的文本相似度时复杂度高,在不同的语言和领域中计算性能可能下降

在实现本公开构思的过程中,专利技术人发现现有技术中至少存在如下问题:无法捕捉文中的上下文信息,进而使得模型无法利用语义信息而导致确定的相似度结果精度低


技术实现思路

[0004]有鉴于此,本公开提供了一种文本相似度确定方法

装置

电子设备及存储介质

[0005]本公开的一个方面提供了一种文本相似度确定方法,包括:对两个待处理文本分别执行下述操作,得到两个文本特征:对上述待处理文本进行切词,得到文本词序列;对上述文本词序列进行向量表示,得到词矩阵;基于上述词矩阵和可调节参数矩阵,得到注意力权重向量,其中,上述可调节参数矩阵包括用于提取上述文本词序列中多个文本词之间的语义相关性的学习向量;基于上述注意力权重向量和上述词矩阵,生成文本特征;基于上述两个文本特征,确定上述两个待处理文本之间的相似度

[0006]根据本公开的实施例,上述词矩阵包括多个词向量;上述基于上述词矩阵和可调节参数矩阵,得到注意力权重向量,包括:针对上述词矩阵中的每个词向量,确定上述词向量的向量维度;基于上述向量维度

上述可调节参数矩阵

查询向量以及键向量,得到上述词向量的注意力权重;基于上述多个词向量各自的注意力权重,得到上述注意力权重向量

[0007]根据本公开的实施例,上述基于上述注意力权重向量和上述词矩阵,生成文本特征,包括:基于上述注意力权重向量,对上述词矩阵中的多个词向量进行加权,得到加权后的词矩阵;基于上述加权后的词矩阵,生成上述文本特征

[0008]根据本公开的实施例,上述基于上述加权后的词矩阵,生成上述文本特征,包括:对上述加权后的词矩阵和上述词矩阵进行拼接,得到初始文本特征;上述初始文本特征进行特征编码,得到上述文本特征

[0009]根据本公开的实施例,上述基于上述向量维度

上述可调节参数矩阵

查询向量以
及键向量,得到上述词向量的注意力权重,包括:基于上述可调节参数矩阵和上述查询向量,得到线性变换后的查询向量;基于上述可调节参数矩阵和上述键向量,得到线性变换后的键向量;基于上述线性变换后的查询向量

上述线性变换后的键向量和上述向量维度,得到注意力权重矩阵;对上述注意力权重矩阵进行回归,得到上述注意力权重

[0010]根据本公开的实施例,上述对上述文本词序列进行向量表示,得到词矩阵,包括:确定上述文本词序列的词数量;在确定上述词数量不满足预定数量阈值的情况下,基于预定词序列,对上述文本词序列进行增补,得到满足上述预定数量阈值的目标文本词序列;对上述目标文本词序列进行向量表示,得到上述词矩阵

[0011]根据本公开的实施例,上述方法还包括:确定样本文本对各自的样本词矩阵;基于上述样本词矩阵和上述样本文本对的标签,训练初始可调节参数矩阵,得到上述可调节参数矩阵,其中,上述样本文本对的标签用于表征上述样本文本对之间的相似度

[0012]本公开的另一个方面提供了一种文本相似度确定装置,包括:第一处理模块,用于对两个待处理文本分别执行操作,得到两个文本特征,其中,第一处理模块包括第一处理子模块

第二处理子模块

第一生成子模块和第二生成子模块;第一处理子模块,用于对上述待处理文本进行切词,得到文本词序列;第二处理子模块,用于对上述文本词序列进行向量表示,得到词矩阵;第一生成子模块,用于基于上述词矩阵和可调节参数矩阵,得到注意力权重向量,其中,上述可调节参数矩阵包括用于提取上述文本词序列中多个文本词之间的语义相关性的学习向量;第二生成子模块,用于基于上述注意力权重向量和上述词矩阵,生成文本特征;以及第一确定模块,用于基于上述两个文本特征,确定上述两个待处理文本之间的相似度

[0013]本公开的另一方面提供了电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个指令,其中,当一个或多个指令被一个或多个处理器执行时,使得一个或多个处理器实现如上上述的方法

[0014]本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,指令被处理器执行时使处理器实现如上上述的方法

[0015]本公开的另一方面提供了一种计算机程序产品,计算机程序产品包括计算机可执行指令,指令在被执行时用于实现如上上述的方法

[0016]根据本公开的实施例,通过向文本相似度计算中引入注意力机制,允许模型更加关注文本中更重要的部分,通过对文本的不同部分分配不同的权重,从而在计算文本相似度时更好地建模上下文关系;通过学习每个部分的重要性权重,从而更准确地计算相似度;通过自动学习词语之间的相关性,使得长距离的依赖关系更容易捕捉和建模

至少解决因传统方式无法捕捉文中的上下文信息,进而使得模型无法利用语义信息而导致的相似度精度低的问题

[0017]在本公开的实施例中,通过可调节参数处理词矩阵,得到注意力权重向量,利用注意力权重向量中的每个注意力权重,使得文本特征包含多个词之间的上下文关联特征,由此使得相似度精度提高

附图说明
[0018]通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的

特征和
优点将更为清楚,在附图中:
[0019]图1示意性示出了可以应用本公开的文本相似度确定方法和装置的示例性系统架构;
[0020]图2示意性示出了根据本公开实施例的文本相似度确定方法的流程图;
[0021]图3示意性示出了根据本公开实施例的注意力向量确定方法的流程图;
[0022]图4示意性示出了根据本公开实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本相似度确定方法,包括:对两个待处理文本分别执行下述操作,得到两个文本特征:对所述待处理文本进行切词,得到文本词序列;对所述文本词序列进行向量表示,得到词矩阵;基于所述词矩阵和可调节参数矩阵,得到注意力权重向量,其中,所述可调节参数矩阵包括用于提取所述文本词序列中多个文本词之间的语义相关性的学习向量;基于所述注意力权重向量和所述词矩阵,生成文本特征;基于所述两个文本特征,确定所述两个待处理文本之间的相似度
。2.
根据权利要求1所述的方法,其中,所述词矩阵包括多个词向量;所述基于所述词矩阵和可调节参数矩阵,得到注意力权重向量,包括:针对所述词矩阵中的每个词向量,确定所述词向量的向量维度;基于所述向量维度

所述可调节参数矩阵

查询向量以及键向量,得到所述词向量的注意力权重;基于所述多个词向量各自的注意力权重,得到所述注意力权重向量
。3.
根据权利要求2所述的方法,其中,所述基于所述注意力权重向量和所述词矩阵,生成文本特征,包括:基于所述注意力权重向量,对所述词矩阵中的多个词向量进行加权,得到加权后的词矩阵;基于所述加权后的词矩阵,生成所述文本特征
。4.
根据权利要求3所述的方法,其中,所述基于所述加权后的词矩阵,生成所述文本特征,包括:将所述加权后的词矩阵和所述词矩阵进行拼接,得到初始文本特征;对所述初始文本特征进行特征编码,得到所述文本特征
。5.
根据权利要求2所述的方法,其中,所述基于所述向量维度

所述可调节参数矩阵

查询向量以及键向量,得到所述词向量的注意力权重,包括:基于所述可调节参数矩阵和所述查询向量,得到线性变换后的查询向量;基于所述可调节参数矩阵和所述键向量,得到线性变换后的键向量;基于所述线性变换后的查询向量

所述线性变换后的键向量和所述向量维度,得到注意力权重矩阵;对所述注意力权重矩阵进行回归,得到所述注意力权重
。6.

【专利技术属性】
技术研发人员:徐乐
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1