一种短文本相似性度量方法及系统技术方案

技术编号:39503835 阅读:12 留言:0更新日期:2023-11-24 11:35
本公开提供了一种短文本相似性度量方法及系统,涉及短文本挖掘分析技术领域,包括获取多组待相似性度量的短文本,每组待相似性度量的短文本包括两条文本信息;将每组短文本信息进行嵌入处理,将两个文本信息分别转化为低维度向量词嵌入矩阵表示;分别对两个词嵌入矩阵表示进行特征提取,将所述语义特征向量与隐藏状态的拼接结果进行残差连接,获取最终的两个特征向量,利用两个特征向量进行相似性度量

【技术实现步骤摘要】
一种短文本相似性度量方法及系统


[0001]本公开涉及短文本挖掘分析
,具体涉及一种短文本相似性度量方法及系统


技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术

[0003]传统的短文本相似性计算技术通常为基于词袋模型和基于统计的方法

这些方法将文本表示为向量,并使用一些距离或相似性度量来计算文本之间的相似性

[0004]其中,基于词袋模型:它将文本视为一个词汇的集合,通过计算词汇在文本中的频率或
TF

IDF
值,将文本转换为向量表示

然后使用向量之间的相似性度量
(
如余弦相似性
)
来计算文本相似性

但是其忽略了词语的顺序和上下文关系,无法捕捉词语之间的关联和上下文信息,丧失了一部分语义信息

基于统计的方法:如余弦相似性

编辑距离
、Jaccard
系数等

这些方法通过计算文本之间的统计特征或距离度量来评估相似性,但是无法处理语义相似性,只能从表面上比较文本之间的差异

[0005]近年来,基于深度学习的方法的兴起为短文本相似性计算带来了新的解决方案,能够更好地处理语义表示和上下文建模,并取得了更好的效果

其中双向长短期记忆网络作为一种基本模型在计算相似性时被广泛应用,但是其也存在一些不足

因为尽管双向长短期记忆网络可以捕捉输入序列的上下文信息,但在处理复杂的语义任务时,其能力可能有限,存在着长期依赖

缺乏全局语义建模

语义歧义处理

语义信息不足等等的问题

基于这些问题,就会导致在计算文本相似性的时候,出现预测不准的结果


技术实现思路

[0006]本公开为了解决上述问题,提出了一种短文本相似性度量方法及系统,利用多层双向长短期记忆网络结合残差连接和改进的多头注意力机制构建短文本相似度计算模型,同时从过去和未来的上下文中获取信息,解决短文本通常缺乏上下文信息的问题,使得模型通过多层双向处理获取更全面深层次的语义理解

[0007]根据一些实施例,本公开采用如下技术方案:
[0008]一种短文本相似性度量方法,包括:
[0009]获取多组待相似性度量的短文本,每组待相似性度量的短文本包括两条文本信息;
[0010]将每组短文本信息进行嵌入处理,将两个文本信息分别转化为低维度向量词嵌入矩阵表示;分别对两个词嵌入矩阵表示进行特征提取,首先,利用双层的双向长短期记忆网络提取输入词嵌入矩阵表示中的上下文信息,并输出前向和反向的隐藏状态的拼接结果,然后利用多头注意力机制确定输入矩阵表示中的关键部位,动态地调整注意力分布,然后将结果输出至下一个双层的双向长短期记忆网络中,提取语义特征向量,将所述语义特征
向量与隐藏状态的拼接结果进行残差连接,获取最终的两个特征向量,利用两个特征向量进行相似性度量

[0011]根据一些实施例,本公开采用如下技术方案:
[0012]一种短文本相似性度量系统,包括:
[0013]数据获取模块,用于获取多组待相似性度量的短文本,每组待相似性度量的短文本包括两条文本信息;
[0014]相似性度量模块,用于将每组短文本信息进行嵌入处理,将两个文本信息分别转化为低维度向量词嵌入矩阵表示;分别对两个词嵌入矩阵表示进行特征提取,首先,利用双层的双向长短期记忆网络提取输入词嵌入矩阵表示中的上下文信息,并输出前向和反向的隐藏状态的拼接结果,然后利用多头注意力机制确定输入矩阵表示中的关键部位,动态地调整注意力分布,然后将结果输出至下一个双层的双向长短期记忆网络中,提取语义特征向量,将所述语义特征向量与隐藏状态的拼接结果进行残差连接,获取最终的两个特征向量,利用两个特征向量进行相似性度量

[0015]根据一些实施例,本公开采用如下技术方案:
[0016]一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的一种短文本相似性度量方法

[0017]根据一些实施例,本公开采用如下技术方案:
[0018]一种电子设备,包括:处理器

存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的一种短文本相似性度量方法

[0019]与现有技术相比,本公开的有益效果为:
[0020]本公开使用多层的双向长短期记忆网络来进行对短文本的特征提取,可以同时从过去和未来的上下文中获取信息,解决了短文本通常缺乏上下文信息的问题,使得模型通过多层双向处理获取更全面深层次的语义理解

[0021]本公开引入的改进的多头注意力机制,可以增强短文本相似性计算模型对于不同关注点的处理能力,提高模型的表达能力

鲁棒性和泛化能力

通过综合考虑不同的关注点和信息子空间,使得模型可以更好地捕捉文本中的语义信息,从而提高短文本相似性计算的准确性和效果;机制中的每个注意力头都可以学习到不同的关注权重分布,从而提取不同的语义信息,通过注意力机制能够解决对于重要词语和不重要词语分配不同的权重的问题,以此来提高文本相似性的准确率

[0022]本公开引入的残差连接模块,使得模型在之前顺序网络的基础上能够结合多层的网络输出,从而使得模型可以更深层地进行特征学习和表示学习,捕捉更丰富

更复杂的特征和模式;能够更加全面丰富的结合短文本的浅层和深层特征信息,解决了短文本的长度过短,提取特征信息不足的问题

附图说明
[0023]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定

[0024]图1为本公开实施例的短文本相似度计算模型结构示意图;
[0025]图2为本公开实施例的相似性度量方法流程示意图

具体实施方式
[0026]下面结合附图与实施例对本公开作进一步说明

[0027]应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明

除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义

[0028]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式

如在这里所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种短文本相似性度量方法,其特征在于,包括:获取多组待相似性度量的短文本,每组待相似性度量的短文本包括两条文本信息;将每组短文本信息进行嵌入处理,将两个文本信息分别转化为低维度向量词嵌入矩阵表示;分别对两个词嵌入矩阵表示进行特征提取,首先,利用双层的双向长短期记忆网络提取输入词嵌入矩阵表示中的上下文信息,并输出前向和反向的隐藏状态的拼接结果,然后利用多头注意力机制确定输入矩阵表示中的关键部位,动态地调整注意力分布,然后将结果输出至下一个双层的双向长短期记忆网络中,提取语义特征向量,将所述语义特征向量与隐藏状态的拼接结果进行残差连接,获取最终的两个特征向量,利用两个特征向量进行相似性度量
。2.
如权利要求1所述的一种短文本相似性度量方法,其特征在于,所述嵌入处理为利用
Word2vec
词向量模型,将获取的文本信息进行处理,将文本信息转化为低维度向量词嵌入矩阵表示
。3.
如权利要求1所述的一种短文本相似性度量方法,其特征在于,所述特征提取的过程依次通过多层双向长短期记忆网络

多头注意力机制和残差连接进行,所述双向长短期记忆网络包括了前向
LSTM、
反向
LSTM
和输出合并三个部分
。4.
如权利要求3所述的一种短文本相似性度量方法,其特征在于,所述多头注意力机制中,计算多头注意力值的公式如下:
CMHAM(Q,K,V)

Contact(head1,head2......head
h
)E
O
其中,
Q

K

V
分别表示查询向量

键向量和值向量,
h
表示改进的多头注意力机制中头的数量,
headi
表示第
i
个头的输出,
E
O
是输出变换矩阵
。5.
如权利要求4所述的一种短文本相似性度量方法,其特征在于,在多头注意力机制中加入单层的
CNN

MLP
结构,通过
CNN
进行卷积运算降低输入
...

【专利技术属性】
技术研发人员:鲁芹赵硕
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1