System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 短文本相似性判断方法、系统、存储介质及设备技术方案_技高网

短文本相似性判断方法、系统、存储介质及设备技术方案

技术编号:41059085 阅读:3 留言:0更新日期:2024-04-24 11:10
本发明专利技术涉及短文本相似性判断方法、系统、存储介质及设备,利用平均池化对标记嵌入进行处理得到SAT嵌入来充分提取文本的语义信息;引入自注意力机制对BERT后四层的隐藏状态进行处理,使得BERT模型的深层和浅层语义相结合;引入多分支卷积网络,利用多个不同大小的卷积核,充分提取不同尺度以及不同层次的特征;通过混合池化在对BERT后四层隐藏状态进行处理,使其和多分支卷积的输出进行池化后的结果进行拼接,充分结合不同方法的特征信息;引入多层特征调整网络,获取更丰富的语义信息,进行相似性计算。

【技术实现步骤摘要】

本专利技术涉及文本信息处理,具体为短文本相似性判断方法、系统、存储介质及设备


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、在文本信息处理过程中,计算两个短文本之间的相似程度,得到文本之间相似程度的具体数值,是文本信息处理过程的一种特殊形式的任务。

3、例如:在计算机执行的问答系统任务(问答机器人)中,通常会预先配置一些常用并且描述清晰的问题及其对应的回答。而用户进行提问时,每一次提问的问题并不总是清晰的,机器人会识别用户提出的问题,并与预先配置的这部分清晰的问题进行相似度判断,再将相似度最高的问题所对应的答案发送给用户,从而完成一次问答操作。

4、现有技术中,通常利用各类计算机模型来进行短文本之间的相似程度判断,例如bert(bidirectional encoder representation from transformers),是一个预训练的语言表征模型,通过在大规模语料库上进行预训练,学习到了更丰富、更准确的词语和句子表示,其自注意力机制在模型训练和推理阶段都能够自动捕捉上下文信息,克服了传统方法中的一些限制,能够极大的提升文本信息处理的准确性和效率。

5、bert的模型结构通常需要较长的文本序列作为输入,而短文本由于长度有限,上下文信息可能不足以完全理解语义,从而影响相似性计算的准确性等效果。其次,bert对输入文本进行句子级别的建模,而短文本通常缺乏完整的句子结构,导致模型难以捕捉文本之间的关联。此外,有些文本可能存在多义词或歧义,这些词汇在不同的语境下可能有不同的含义。b ert模型受限于对上下文的理解在处理歧义性文本时可能产生挑战。最后,bert模型相对较复杂,需要大量的计算资源和存储空间来进行训练和推理,需要更长的时间进行训练。


技术实现思路

1、为了解决上述
技术介绍
中存在的技术问题,本专利技术提供短文本相似性判断方法、系统、存储介质及设备,基于优化sbert和多特征语义融合的短文本相似性计算模型来实现,该模型添加的第四个输入嵌入也就是sat嵌入,解决了原bert模型在短语级语义捕获上的不足,可以为模型提供额外的语义信息,使得模型对文本的理解更全面。在bert模型后结合添加的自注意力机制对其后四层隐藏状态进行加权,克服了bert模型的深层和浅层语义信息不充分利用的问题。在bert模型后添加了多分支卷积模块能够捕捉文本的多尺度信息,增强模型对文本结构和语义的理解。模型还进行特征融合,通过将不同表示方法的特征信息合并,可以弥补单一特征的不足,得到更全面、更准确的特征表示。模型还融入了自定义的多层特征调整网络,其可以更好地学习句子表示的复杂特征,解决了模型在未见过的数据上表现不稳定和泛化能力不强的问题。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、本专利技术的第一个方面提供短文本相似性判断方法,包括以下步骤:

4、获取文本中待判断的至少两个句子,经预处理得到标记嵌入、段落嵌入和位置嵌入,标记嵌入经平均池化处理得到sat嵌入;

5、基于bert模型,利用sat嵌入连同标记嵌入、段落嵌入和位置嵌入,得到待判断句子的隐藏状态,拼接隐藏状态并利用自注意力机制得到状态张量;

6、得到的状态张量经多分支卷积处理并与bert模型输出的隐藏状态融合,利用多层特征调整网络进行相似性计算,利用得到的计算结果与真实标签数据对比,确定待判断句子之间的相似性。

7、进一步的,标记嵌入经平均池化处理得到sat嵌入,具体为:标记嵌入序列依次按照平均池化核数大小的窗口取平均值,依次得到sat嵌入。

8、进一步的,基于bert模型,利用sat嵌入连同标记嵌入、段落嵌入和位置嵌入,得到待判断句子的隐藏状态,拼接隐藏状态并利用自注意力机制得到状态张量,具体为:

9、通过添加额外的自注意力机制,对bert模型的后四层隐藏状态进行处理,表示为:hd=msa(x1,x2,x3,x4),其中的xn为需要处理的隐藏层状态;

10、在四层隐藏状态输入到自注意力机制之前,利用设定的预训练模型将它们拼接在一起。

11、进一步的,多分支卷积处理过程中,得到的状态张量经过至少三个具有不同大小卷积核的卷积层处理,每个卷积层均具有一维卷积操作、激活函数和最大池化层。

12、进一步的,每一个多分支卷积处理完成后,将三个卷积层的输出在通道维度上拼接,得到最终的多分支卷积输出结果。

13、进一步的,多分支卷积的输出结果经平均池化,并与bert模型输出的隐藏状态经混合池化后的结果进行特征拼接以实现融合。

14、进一步的,多层特征调整网络对融合后的特征展平为一维向量,利用丢弃函数防止过拟合,利用全连接层将得到的sentence向量映射到输出空间,用于与真实标签数据对比,确定待判断句子之间的相似性。

15、本专利技术的第二个方面提供短文本相似性判断系统,包括:

16、文本输入模块,被配置为:获取文本中待判断的至少两个句子,经预处理得到标记嵌入、段落嵌入和位置嵌入;

17、bert嵌入输入模块,被配置为:标记嵌入经平均池化处理得到sat嵌入,连同标记嵌入、段落嵌入和位置嵌入输入到bert模型中,得到待判断句子的隐藏状态;

18、编码解码模块,被配置为:拼接隐藏状态并利用自注意力机制得到状态张量;

19、多分支卷积与特征融合模块,被配置为:得到的状态张量经多分支卷积处理并与bert模型输出的隐藏状态融合;

20、相似性计算模块,被配置为:利用多层特征调整网络进行相似性计算,利用得到的计算结果与真实标签数据对比,确定待判断句子之间的相似性。

21、本专利技术的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述短文本相似性判断方法中的步骤。

22、本专利技术的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述短文本相似性判断方法中的步骤。

23、与现有技术相比,以上一个或多个技术方案存在以下有益效果:

24、1、在原有bert模型的三个输入嵌入基础上,添加了第四个输入嵌入即sat嵌入,该嵌入由标记嵌入进行平均池化得到,使得模型更能关注任务的关键信息,进一步丰富语境表达,从而在应对文本中的噪声和干扰时表现更为出色。

25、2、在获得bert的输出隐藏状态时,由原来的最后一层隐藏状态扩展到bert的后四层隐藏状态,并结合自注意力机制对后四层隐藏状态进行加权,以获得更加全面丰富的特征信息,充分结合了bert的浅层和深层语义信息。

26、3、多分支卷积处理通过并行使用多个具有不同大小卷积核的卷积层,每个卷积核可以关注不同大小的文本片段,从而捕捉文本的多尺度信息。这有助于模型更好地理解文本的结构和语义,提本文档来自技高网...

【技术保护点】

1.短文本相似性判断方法,其特征在于,包括以下步骤:

2.如权利要求1所述的短文本相似性判断方法,其特征在于,标记嵌入经平均池化处理得到SAT嵌入,具体为:标记嵌入序列依次按照平均池化核数大小的窗口取平均值,依次得到SAT嵌入。

3.如权利要求1所述的短文本相似性判断方法,其特征在于,基于BERT模型,利用SAT嵌入连同标记嵌入、段落嵌入和位置嵌入,得到待判断句子的隐藏状态,拼接隐藏状态并利用自注意力机制得到状态张量,具体为:

4.如权利要求1所述的短文本相似性判断方法,其特征在于,多分支卷积处理过程中,得到的状态张量经过至少三个具有不同大小卷积核的卷积层处理,每个卷积层均具有一维卷积操作、激活函数和最大池化层。

5.如权利要求1所述的短文本相似性判断方法,其特征在于,每一个多分支卷积处理完成后,将三个卷积层的输出在通道维度上拼接,得到最终的多分支卷积输出结果。

6.如权利要求1所述的短文本相似性判断方法,其特征在于,多分支卷积的输出结果经平均池化,并与BERT模型输出的隐藏状态经混合池化后的结果进行特征拼接以实现融合。

7.如权利要求1所述的短文本相似性判断方法,其特征在于,多层特征调整网络对融合后的特征展平为一维向量,利用丢弃函数防止过拟合,利用全连接层将得到的sentence向量映射到输出空间,用于与真实标签数据对比,确定待判断句子之间的相似性。

8.短文本相似性判断系统,其特征在于,包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述短文本相似性判断方法中的步骤。

10.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如权利要求1-7任一项所述短文本相似性判断方法中的步骤。

...

【技术特征摘要】

1.短文本相似性判断方法,其特征在于,包括以下步骤:

2.如权利要求1所述的短文本相似性判断方法,其特征在于,标记嵌入经平均池化处理得到sat嵌入,具体为:标记嵌入序列依次按照平均池化核数大小的窗口取平均值,依次得到sat嵌入。

3.如权利要求1所述的短文本相似性判断方法,其特征在于,基于bert模型,利用sat嵌入连同标记嵌入、段落嵌入和位置嵌入,得到待判断句子的隐藏状态,拼接隐藏状态并利用自注意力机制得到状态张量,具体为:

4.如权利要求1所述的短文本相似性判断方法,其特征在于,多分支卷积处理过程中,得到的状态张量经过至少三个具有不同大小卷积核的卷积层处理,每个卷积层均具有一维卷积操作、激活函数和最大池化层。

5.如权利要求1所述的短文本相似性判断方法,其特征在于,每一个多分支卷积处理完成后,将三个卷积层的输出在通道维度上拼接,得到最终的多分支卷积输出结果。

【专利技术属性】
技术研发人员:鲁芹赵硕
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1