短文本相似性判断方法、系统、存储介质及设备技术方案

技术编号：41059085 阅读：3 留言：0更新日期：2024-04-24 11:10

本发明专利技术涉及短文本相似性判断方法、系统、存储介质及设备，利用平均池化对标记嵌入进行处理得到SAT嵌入来充分提取文本的语义信息；引入自注意力机制对BERT后四层的隐藏状态进行处理，使得BERT模型的深层和浅层语义相结合；引入多分支卷积网络，利用多个不同大小的卷积核，充分提取不同尺度以及不同层次的特征；通过混合池化在对BERT后四层隐藏状态进行处理，使其和多分支卷积的输出进行池化后的结果进行拼接，充分结合不同方法的特征信息；引入多层特征调整网络，获取更丰富的语义信息，进行相似性计算。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本信息处理，具体为短文本相似性判断方法、系统、存储介质及设备。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、在文本信息处理过程中，计算两个短文本之间的相似程度，得到文本之间相似程度的具体数值，是文本信息处理过程的一种特殊形式的任务。

3、例如：在计算机执行的问答系统任务(问答机器人)中，通常会预先配置一些常用并且描述清晰的问题及其对应的回答。而用户进行提问时，每一次提问的问题并不总是清晰的，机器人会识别用户提出的问题，并与预先配置的这部分清晰的问题进行相似度判断，再将相似度最高的问题所对应的答案发送给用户，从而完成一次问答操作。

4、现有技术中，通常利用各类计算机模型来进行短文本之间的相似程度判断，例如bert(bidirectional encoder representation from transformers)，是一个预训练的语言表征模型，通过在大规模语料库上进行预训练，学习到了更丰富、更准确的词语和句子表示，其自注意力机制在模型训练和推理阶段都能够自动捕捉上下文信息，克服了传统方法中的一些限制，能够极大的提升文本信息处理的准确性和效率。

5、bert的模型结构通常需要较长的文本序列作为输入，而短文本由于长度有限，上下文信息可能不足以完全理解语义，从而影响相似性计算的准确性等效果。其次，bert对输入文本进行句子级别的建模，而短文本通常缺乏完整的句子结构，导致模型难以捕捉文本之间的关联。此外，有些文本可能

技术实现思路

1、为了解决上述
技术介绍
中存在的技术问题，本专利技术提供短文本相似性判断方法、系统、存储介质及设备，基于优化sbert和多特征语义融合的短文本相似性计算模型来实现，该模型添加的第四个输入嵌入也就是sat嵌入，解决了原bert模型在短语级语义捕获上的不足，可以为模型提供额外的语义信息，使得模型对文本的理解更全面。在bert模型后结合添加的自注意力机制对其后四层隐藏状态进行加权，克服了bert模型的深层和浅层语义信息不充分利用的问题。在bert模型后添加了多分支卷积模块能够捕捉文本的多尺度信息，增强模型对文本结构和语义的理解。模型还进行特征融合，通过将不同表示方法的特征信息合并，可以弥补单一特征的不足，得到更全面、更准确的特征表示。模型还融入了自定义的多层特征调整网络，其可以更好地学习句子表示的复杂特征，解决了模型在未见过的数据上表现不稳定和泛化能力不强的问题。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、本专利技术的第一个方面提供短文本相似性判断方法，包括以下步骤：

4、获取文本中待判断的至少两个句子，经预处理得到标记嵌入、段落嵌入和位置嵌入，标记嵌入经平均池化处理得到sat嵌入；

5、基于bert模型，利用sat嵌入连同标记嵌入、段落嵌入和位置嵌入，得到待判断句子的隐藏状态，拼接隐藏状态并利用自注意力机制得到状态张量；

6、得到的状态张量经多分支卷积处理并与bert模型输出的隐藏状态融合，利用多层特征调整网络进行相似性计算，利用得到的计算结果与真实标签数据对比，确定待判断句子之间的相似性。

7、进一步的，标记嵌入经平均池化处理得到sat嵌入，具体为：标记嵌入序列依次按照平均池化核数大小的窗口取平均值，依次得到sat嵌入。

8、进一步的，基于bert模型，利用sat嵌入连同标记嵌入、段落嵌入和位置嵌入，得到待判断句子的隐藏状态，拼接隐藏状态并利用自注意力机制得到状态张量，具体为：

9、通过添加额外的自注意力机制，对bert模型的后四层隐藏状态进行处理，表示为：hd＝msa(x1，x2，x3，x4)，其中的xn为需要处理的隐藏层状态；

10、在四层隐藏状态输入到自注意力机制之前，利用设定的预训练模型将它们拼接在一起。

11、进一步的，多分支卷积处理过程中，得到的状态张量经过至少三个具有不同大小卷积核的卷积层处理，每个卷积层均具有一维卷积操作、激活函数和最大池化层。

12、进一步的，每一个多分支卷积处理完成后，将三个卷积层的输出在通道维度上拼接，得到最终的多分支卷积输出结果。

13、进一步的，多分支卷积的输出结果经平均池化，并与bert模型输出的隐藏状态经混合池化后的结果进行特征拼接以实现融合。

14、进一步的，多层特征调整网络对融合后的特征展平为一维向量，利用丢弃函数防止过拟合，利用全连接层将得到的sentence向量映射到输出空间，用于与真实标签数据对比，确定待判断句子之间的相似性。

15、本专利技术的第二个方面提供短文本相似性判断系统，包括：

16、文本输入模块，被配置为：获取文本中待判断的至少两个句子，经预处理得到标记嵌入、段落嵌入和位置嵌入；

17、bert嵌入输入模块，被配置为：标记嵌入经平均池化处理得到sat嵌入，连同标记嵌入、段落嵌入和位置嵌入输入到bert模型中，得到待判断句子的隐藏状态；

18、编码解码模块，被配置为：拼接隐藏状态并利用自注意力机制得到状态张量；

19、多分支卷积与特征融合模块，被配置为：得到的状态张量经多分支卷积处理并与bert模型输出的隐藏状态融合；

20、相似性计算模块，被配置为：利用多层特征调整网络进行相似性计算，利用得到的计算结果与真实标签数据对比，确定待判断句子之间的相似性。

21、本专利技术的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述短文本相似性判断方法中的步骤。

22、本专利技术的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述短文本相似性判断方法中的步骤。

23、与现有技术相比，以上一个或多个技术方案存在以下有益效果：

24、1、在原有bert模型的三个输入嵌入基础上，添加了第四个输入嵌入即sat嵌入，该嵌入由标记嵌入进行平均池化得到，使得模型更能关注任务的关键信息，进一步丰富语境表达，从而在应对文本中的噪声和干扰时表现更为出色。

25、2、在获得bert的输出隐藏状态时，由原来的最后一层隐藏状态扩展到bert的后四层隐藏状态，并结合自注意力机制对后四层隐藏状态进行加权，以获得更加全面丰富的特征信息，充分结合了bert的浅层和深层语义信息。

26、3、多分支卷积处理通过并行使用多个具有不同大小卷积核的卷积层，每个卷积核可以关注不同大小的文本片段，从而捕捉文本的多尺度信息。这有助于模型更好地理解文本的结构和语义，提本文档来自技高网...

【技术保护点】

1.短文本相似性判断方法，其特征在于，包括以下步骤：

2.如权利要求1所述的短文本相似性判断方法，其特征在于，标记嵌入经平均池化处理得到SAT嵌入，具体为：标记嵌入序列依次按照平均池化核数大小的窗口取平均值，依次得到SAT嵌入。

3.如权利要求1所述的短文本相似性判断方法，其特征在于，基于BERT模型，利用SAT嵌入连同标记嵌入、段落嵌入和位置嵌入，得到待判断句子的隐藏状态，拼接隐藏状态并利用自注意力机制得到状态张量，具体为：

4.如权利要求1所述的短文本相似性判断方法，其特征在于，多分支卷积处理过程中，得到的状态张量经过至少三个具有不同大小卷积核的卷积层处理，每个卷积层均具有一维卷积操作、激活函数和最大池化层。

5.如权利要求1所述的短文本相似性判断方法，其特征在于，每一个多分支卷积处理完成后，将三个卷积层的输出在通道维度上拼接，得到最终的多分支卷积输出结果。

6.如权利要求1所述的短文本相似性判断方法，其特征在于，多分支卷积的输出结果经平均池化，并与BERT模型输出的隐藏状态经混合池化后的结果进行特征拼接以实现融合。

7.如权利要求1所述的短文本相似性判断方法，其特征在于，多层特征调整网络对融合后的特征展平为一维向量，利用丢弃函数防止过拟合，利用全连接层将得到的sentence向量映射到输出空间，用于与真实标签数据对比，确定待判断句子之间的相似性。

8.短文本相似性判断系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述短文本相似性判断方法中的步骤。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如权利要求1-7任一项所述短文本相似性判断方法中的步骤。

...

【技术特征摘要】

1.短文本相似性判断方法，其特征在于，包括以下步骤：

2.如权利要求1所述的短文本相似性判断方法，其特征在于，标记嵌入经平均池化处理得到sat嵌入，具体为：标记嵌入序列依次按照平均池化核数大小的窗口取平均值，依次得到sat嵌入。

3.如权利要求1所述的短文本相似性判断方法，其特征在于，基于bert模型，利用sat嵌入连同标记嵌入、段落嵌入和位置嵌入，得到待判断句子的隐藏状态，拼接隐藏状态并利用自注意力机制得到状态张量，具体为：

【专利技术属性】
技术研发人员：鲁芹，赵硕，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人