一种面向噪声文本的多视角交互匹配方法及电子装置制造方法及图纸

技术编号:33798580 阅读:11 留言:0更新日期:2022-06-16 10:02
本发明专利技术提供一种面向噪声文本的多视角交互匹配方法及电子装置,包括对两段待匹配噪声文本分别编码,得到两段编码向量序列,并向两段编码向量序列的每个编码向量中加入位置信息;对加入位置信息的两段编码向量序列进行内部交互,分别得到两段内部交互结果;对两段内部交互结果进行外部交互,分别构建两个双向的噪声文本交互矩阵;拼接两个噪声文本交互矩阵,判断两个待匹配噪声文本是否匹配。本发明专利技术采用注意力机制捕获噪声文本之间的双向匹配模式,受噪声文本中句子的逻辑顺序影响较小,增加文本有效语义单词影响,提高模型时间效率及噪声文本匹配效果,避免传递匹配问题。避免传递匹配问题。避免传递匹配问题。

【技术实现步骤摘要】
一种面向噪声文本的多视角交互匹配方法及电子装置


[0001]本专利技术涉及计算机领域,尤其涉及一种面向噪声文本的多视角交互匹配方法及电子装置。

技术介绍

[0002]在目前的互联网上,存在着大量的噪声文本。具体地,噪声文本指含有无实际意义的文本段或者语法结构顺序混乱的文本。在这些噪声文本中存在两个主要的问题:在内容上,噪声文本所表达的语义和原文无关,通常还具有歧义性和重复性。在形式上,噪声文本具有相对复杂的语法结构,噪声文本的顺序结构也多种多样。鉴于噪声文本中的这两个主要问题,想要解决噪声文本的匹配问题,就需要设计一种对噪音和语序不敏感的匹配模型。目前主流的噪声文本匹配方法,首先通过规则方法和特征工程来在匹配之前过滤文本中的噪声。经过过滤之后的噪声文本会被输入到时序匹配模型之中,主要包括马尔科夫条件随机场,循环神经网络等等。最终模型依次读取输入的文本,得到一个匹配分数作为匹配结果的打分来判断两个噪声句子是否相互匹配。
[0003]然而,利用规则和特征工程的方法过滤效果有限,难以涵盖所有的噪声实例且难以正确识别所有的噪声。因为噪声的形式变化多样,难以穷举和归纳,并且有些噪声在特定的语境下仍然有其实际意义。另外,因为文本的顺序结构在很大程度上决定了文本所要表达的真正含义,因此噪声文本中语序错乱的现象会导致传统的时序模型的效果欠佳。

技术实现思路

[0004]本专利技术的目的在于提供一种面向噪声文本的多视角交互匹配方法及电子装置,通过缩放余弦注意力机制计算Attention权值,采用Attention加权的方式来抑制噪音和语序对文本匹配结果的干扰,使得在有文本噪声和语序混乱的情况下依然能够得到较好的文本匹配效果。
[0005]本专利技术的技术方案为:
[0006]一种面向噪声文本的多视角交互匹配方法,其步骤包括:
[0007]1)对两段待匹配噪声文本分别编码,得到两段编码向量序列,并向两段编码向量序列的每个编码向量中加入位置信息;
[0008]2)对加入位置信息的两段编码向量序列进行内部交互,分别得到两段内部交互结果,其中内部交互结果和编码向量序列的维度一致;
[0009]3)通过计算双向注意力分布,对两段内部交互结果进行外部交互,分别构建两个双向的噪声文本交互矩阵;
[0010]4)拼接两个噪声文本交互矩阵,判断两段待匹配噪声文本是否匹配。
[0011]进一步地,编码两段待匹配噪声文本之前,对两段待匹配噪声文本进行预处理;所述预处理包括:去除标点符号、停用词和低频词。
[0012]进一步地,编码两段噪声文本的方法包括:使用预训练的Word2vec或者Bert模型
进行编码。
[0013]进一步地,通过Bert模型中位置向量编码的生产方式,向两段编码向量序列的每个编码向量中加入位置信息。
[0014]进一步地,对加入位置信息的两段编码向量序列进行内部交互之前,通过以下步骤将加入位置信息的两段编码向量序列映射到统一的语义空间:
[0015]1)将加入位置信息的两段编码向量序列分别输入双向LSTM神经网络进行二次编码,得到两段最终向量编码序列;
[0016]2)将两段最终向量编码序列中的每一个向量编码经过同一个残差网络进行映射,使得加入位置信息的两段编码向量序列映射到统一的语义空间。
[0017]进一步地,最终向量编码序列的向量维度由双向LSTM神经网络中第二层LSTM编码层的隐藏层单元数决定。
[0018]进一步地,通过以下步骤得到噪声内部交互结果:
[0019]1)将加入位置信息的两段编码向量序列分别输入第一残差网络;
[0020]2)通过缩放余弦注意力算法,以加入位置信息的噪声编码向量作为查询项,对该段噪声文本中其他向量编码序列进行内部交互,计算自注意力权值;
[0021]3)结合加入位置信息的编码向量序列与注意力权值,获取加权后的编码向量序列;
[0022]4)将加权后的编码向量序列送入第二残差网络,得到噪声文本的抽象向量表示;
[0023]5)分别对噪声文本的抽象向量表示进行L2正则化操作,得到加入位置信息编码向量序列的内部交互结果。
[0024]进一步地,通过以下步骤构建噪声文本交互矩阵:
[0025]1)分别将两段内部交互结果中的每一个编码向量作为查询,对另一段文本的内部交互结果做基于余弦相似度注意力的外部交互,得到当前编码向量相对于另一段编码序列的注意力权值分布;
[0026]2)使用注意力权值分布对相应的内部交互结果进行加权,获取内部交互结果中各个编码向量的外部交互向量;
[0027]3)将依据外部交互结果得到的向量序列输入第三残差网络,并对第三残差网络的输出进行L2正则化操作,得到噪声双向交互矩阵。
[0028]进一步地,通过以下步骤判断两段待匹配噪声文本是否匹配:
[0029]1)获取两个噪声文本交互矩阵的拼接结果;
[0030]2)将拼接结果输入到打分器中,得到匹配分数;
[0031]3)根据匹配分数,判断两段待匹配噪声文本是否匹配。
[0032]进一步地,打分器的结构包括:由全连接层组成的打分网络。
[0033]一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
[0034]一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
[0035]与现有技术相比,本专利技术具有以下优点:
[0036]1.本方法主要采用注意力机制捕获噪声文本之间的匹配模式,可以通过并行计算
提高模型的时间效率。
[0037]2.模型并非传统的时序模型,受噪声文本中句子的逻辑顺序影响较小,对于语序混乱的噪声文本对,本方法同样有效。
[0038]3.利用缩放余弦注意力机制可以通过加权的方式有效地抑制文本中噪声的干扰,并增加文本有效语义单词的影响,从而提高噪声文本的匹配效果。
[0039]4.在长文匹配中,注意力机制可以很好地避免时序模型中长文档表示困难和长距离依赖的问题,匹配效果要明显优于基于文档表示的匹配方法。
[0040]5.采用了双向匹配的方式,既计算噪声文本q到d的匹配模式,同时也考虑文本q到d的匹配程度,因此可以避免传递匹配的问题。
附图说明
[0041]图1为本专利技术的面向噪声文本的多视角交互匹配方法流程图。
[0042]图2为本专利技术的面向噪声文本的多视角交互匹配方法框架图。
具体实施方式
[0043]为使本专利技术的目的、原理、技术方案和优点更加清晰明白,以下将结合具体实施例,并参照附图对本专利技术做详细的说明。
[0044]本专利技术提供的方法适用于含有噪声文本以及语序混乱的文本对之间的匹配任务。该方法的主要思想是采用多种注意力机制增加关键信息的权重并降低噪声和句子顺序的干扰,并在交互过程中捕本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向噪声文本的多视角交互匹配方法,其步骤包括:1)对两段待匹配噪声文本分别编码,得到两段编码向量序列,并向两段编码向量序列的每个编码向量中加入位置信息;2)对加入位置信息的两段编码向量序列进行内部交互,分别得到两段内部交互结果,其中内部交互结果和编码向量序列的维度一致;3)通过计算双向注意力分布,对两段内部交互结果进行外部交互,分别构建两个双向的噪声文本交互矩阵;4)拼接两个噪声文本交互矩阵,判断两段待匹配噪声文本是否匹配。2.如权利要求1所述的方法,其特征在于,编码两段待匹配噪声文本之前,对两段待匹配噪声文本进行预处理;所述预处理包括:去除标点符号、停用词和低频词。3.如权利要求1所述的方法,其特征在于,编码两段噪声文本的方法包括:使用预训练的Word2vec或者Bert模型进行编码;通过Bert模型中位置向量编码的生产方式,向两段编码向量序列的每个编码向量中加入位置信息。4.如权利要求1所述的方法,其特征在于,对加入位置信息的两段编码向量序列进行内部交互之前,通过以下步骤将加入位置信息的两段编码向量序列映射到统一的语义空间:1)将加入位置信息的两段编码向量序列分别输入双向LSTM神经网络进行二次编码,得到两段最终向量编码序列;2)将两段最终向量编码序列中的每一个向量编码经过同一个残差网络进行映射,使得加入位置信息的两段编码向量序列映射到统一的语义空间。5.如权利要求4所述的方法,其特征在于,最终向量编码序列的向量维度由双向LSTM神经网络中第二层LSTM编码层的隐藏层单元数决定。6.如权利要求1所述的方法,其特征在于,通过以下步骤得到噪声内部交互结果:1)将加入位置信息的两段编码向量序列分别输入第一残差网络;...

【专利技术属性】
技术研发人员:井雅琪李扬曦佟玲玲任博雅段东圣段运强胡燕林方芳尹鹏飞
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1