一种短文本相似性度量方法及系统技术方案

技术编号：39503835 阅读：12 留言：0更新日期：2023-11-24 11:35

本公开提供了一种短文本相似性度量方法及系统，涉及短文本挖掘分析技术领域，包括获取多组待相似性度量的短文本，每组待相似性度量的短文本包括两条文本信息；将每组短文本信息进行嵌入处理，将两个文本信息分别转化为低维度向量词嵌入矩阵表示；分别对两个词嵌入矩阵表示进行特征提取，将所述语义特征向量与隐藏状态的拼接结果进行残差连接，获取最终的两个特征向量，利用两个特征向量进行相似性度量

全部详细技术资料下载

【技术实现步骤摘要】
一种短文本相似性度量方法及系统

[0001]本公开涉及短文本挖掘分析
，具体涉及一种短文本相似性度量方法及系统
。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术
。
[0003]传统的短文本相似性计算技术通常为基于词袋模型和基于统计的方法
。
这些方法将文本表示为向量，并使用一些距离或相似性度量来计算文本之间的相似性
。
[0004]其中，基于词袋模型：它将文本视为一个词汇的集合，通过计算词汇在文本中的频率或
TF
‑
IDF
值，将文本转换为向量表示
。
然后使用向量之间的相似性度量
(
如余弦相似性
)
来计算文本相似性
。
但是其忽略了词语的顺序和上下文关系，无法捕捉词语之间的关联和上下文信息，丧失了一部分语义信息
。
基于统计的方法：如余弦相似性
、
编辑距离
、Jaccard
系数等
。
这些方法通过计算文本之间的统计特征或距离度量来评估相似性，但是无法处理语义相似性，只能从表面上比较文本之间的差异
。
[0005]近年来，基于深度学习的方法的兴起为短文本相似性计算带来了新的解决方案，能够更好地处理语义表示和上下文建模，并取得了更好的效果
。
其中双向长短期记忆网络作为一种基本模型在计算相似性时被广泛应用，但是...

【技术保护点】

【技术特征摘要】
1.
一种短文本相似性度量方法，其特征在于，包括：获取多组待相似性度量的短文本，每组待相似性度量的短文本包括两条文本信息；将每组短文本信息进行嵌入处理，将两个文本信息分别转化为低维度向量词嵌入矩阵表示；分别对两个词嵌入矩阵表示进行特征提取，首先，利用双层的双向长短期记忆网络提取输入词嵌入矩阵表示中的上下文信息，并输出前向和反向的隐藏状态的拼接结果，然后利用多头注意力机制确定输入矩阵表示中的关键部位，动态地调整注意力分布，然后将结果输出至下一个双层的双向长短期记忆网络中，提取语义特征向量，将所述语义特征向量与隐藏状态的拼接结果进行残差连接，获取最终的两个特征向量，利用两个特征向量进行相似性度量
。2.
如权利要求1所述的一种短文本相似性度量方法，其特征在于，所述嵌入处理为利用
Word2vec
词向量模型，将获取的文本信息进行处理，将文本信息转化为低维度向量词嵌入矩阵表示
。3.
如权利要求1所述的一种短文本相似性度量方法，其特征在于，所述特征提取的过程依次通过多层双向长短期记忆网络
、
多头注意力机制和残差连接进行，所述双向长短期记忆网络包括了前向
LSTM、
反向
LSTM
和输出合并三个部分
。4.
如权利要求3所述的一种短文本相似性度量方法，其特征在于，所述多头注意力机制中，计算多头注意力值的公式如下：
CMHAM(Q,K,V)
＝
Contact(head1,head2......head
h
)E
O
其中，
Q
，
K
，
V
分别表示查询向量
、
键向量和值向量，
h
表示改进的多头注意力机制中头的数量，
headi
表示第
i
个头的输出，
E
O
是输出变换矩阵
。5.
如权利要求4所述的一种短文本相似性度量方法，其特征在于，在多头注意力机制中加入单层的
CNN
和
MLP
结构，通过
CNN
进行卷积运算降低输入
...

【专利技术属性】
技术研发人员：鲁芹，赵硕，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人