一种面向噪声文本的多视角交互匹配方法及电子装置制造方法及图纸

技术编号：33798580 阅读：11 留言：0更新日期：2022-06-16 10:02

本发明专利技术提供一种面向噪声文本的多视角交互匹配方法及电子装置，包括对两段待匹配噪声文本分别编码，得到两段编码向量序列，并向两段编码向量序列的每个编码向量中加入位置信息；对加入位置信息的两段编码向量序列进行内部交互，分别得到两段内部交互结果；对两段内部交互结果进行外部交互，分别构建两个双向的噪声文本交互矩阵；拼接两个噪声文本交互矩阵，判断两个待匹配噪声文本是否匹配。本发明专利技术采用注意力机制捕获噪声文本之间的双向匹配模式，受噪声文本中句子的逻辑顺序影响较小，增加文本有效语义单词影响，提高模型时间效率及噪声文本匹配效果，避免传递匹配问题。避免传递匹配问题。避免传递匹配问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向噪声文本的多视角交互匹配方法及电子装置

[0001]本专利技术涉及计算机领域，尤其涉及一种面向噪声文本的多视角交互匹配方法及电子装置。

技术介绍

[0002]在目前的互联网上，存在着大量的噪声文本。具体地，噪声文本指含有无实际意义的文本段或者语法结构顺序混乱的文本。在这些噪声文本中存在两个主要的问题：在内容上，噪声文本所表达的语义和原文无关，通常还具有歧义性和重复性。在形式上，噪声文本具有相对复杂的语法结构，噪声文本的顺序结构也多种多样。鉴于噪声文本中的这两个主要问题，想要解决噪声文本的匹配问题，就需要设计一种对噪音和语序不敏感的匹配模型。目前主流的噪声文本匹配方法，首先通过规则方法和特征工程来在匹配之前过滤文本中的噪声。经过过滤之后的噪声文本会被输入到时序匹配模型之中，主要包括马尔科夫条件随机场，循环神经网络等等。最终模型依次读取输入的文本，得到一个匹配分数作为匹配结果的打分来判断两个噪声句子是否相互匹配。
[0003]然而，利用规则和特征工程的方法过滤效果有限，难以涵盖所有的噪声实例且难以正确识别所有的噪声。因为噪声的形式变化多样，难以穷举和归纳，并且有些噪声在特定的语境下仍然有其实际意义。另外，因为文本的顺序结构在很大程度上决定了文本所要表达的真正含义，因此噪声文本中语序错乱的现象会导致传统的时序模型的效果欠佳。

技术实现思路

[0004]本专利技术的目的在于提供一种面向噪声文本的多视角交互匹配方法及电子装置，通过缩放余弦注意力机制计算Attention权值，采用Attentio...

【技术保护点】

【技术特征摘要】
1.一种面向噪声文本的多视角交互匹配方法，其步骤包括：1)对两段待匹配噪声文本分别编码，得到两段编码向量序列，并向两段编码向量序列的每个编码向量中加入位置信息；2)对加入位置信息的两段编码向量序列进行内部交互，分别得到两段内部交互结果，其中内部交互结果和编码向量序列的维度一致；3)通过计算双向注意力分布，对两段内部交互结果进行外部交互，分别构建两个双向的噪声文本交互矩阵；4)拼接两个噪声文本交互矩阵，判断两段待匹配噪声文本是否匹配。2.如权利要求1所述的方法，其特征在于，编码两段待匹配噪声文本之前，对两段待匹配噪声文本进行预处理；所述预处理包括：去除标点符号、停用词和低频词。3.如权利要求1所述的方法，其特征在于，编码两段噪声文本的方法包括：使用预训练的Word2vec或者Bert模型进行编码；通过Bert模型中位置向量编码的生产方式，向两段编码向量序列的每个编码向量中加入位置信息。4.如权利要求1所述的方法，其特征在于，对加入位置信息的两段编码向量序列进行内部交互之前，通过以下步骤将加入位置信息的两段编码向量序列映射到统一的语义空间：1)将加入位置信息的两段编码向量序列分别输入双向LSTM神经网络进行二次编码，得到两段最终向量编码序列；2)将两段最终向量编码序列中的每一个向量编码经过同一个残差网络进行映射，使得加入位置信息的两段编码向量序列映射到统一的语义空间。5.如权利要求4所述的方法，其特征在于，最终向量编码序列的向量维度由双向LSTM神经网络中第二层LSTM编码层的隐藏层单元数决定。6.如权利要求1所述的方法，其特征在于，通过以下步骤得到噪声内部交互结果：1)将加入位置信息的两段编码向量序列分别输入第一残差网络；...

【专利技术属性】
技术研发人员：井雅琪，李扬曦，佟玲玲，任博雅，段东圣，段运强，胡燕林，方芳，尹鹏飞，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人