一种文本匹配方法、装置、系统以及存储介质制造方法及图纸

技术编号:38053764 阅读:9 留言:0更新日期:2023-06-30 11:19
本发明专利技术提供一种文本匹配方法、装置、系统以及存储介质,属于语言处理领域,方法包括:对句子对、关键字信息对以及意图信息对进行编码得到句子原始向量对、关键字向量对以及意图向量对;根据句子原始向量对、关键字向量对以及意图向量对进行交互向量的分析得到交互向量;根据交互向量进行得分向量的计算得到得分向量;根据得分向量进行文本匹配准确率的分析得到文本匹配的结果。本发明专利技术不仅提取了句子的纯语义信息,同时还将句子的关键字、意图的附加信息对句子文本进行补充,实现了不同视角下的文本匹配,相对现有技术,实现了比仅靠纯语义信息更强的性能,同时能够从不同视角判断文本匹配,显著地提升文本匹配的准确性。显著地提升文本匹配的准确性。显著地提升文本匹配的准确性。

【技术实现步骤摘要】
一种文本匹配方法、装置、系统以及存储介质


[0001]本专利技术主要涉及语言处理
,具体涉及一种文本匹配方法、装置、系统以及存储介质。

技术介绍

[0002]文本匹配是自然语言处理领域中一项重要且富有挑战性的任务,旨在描述两段文本之间的关系,可以应用于搜索引擎、推荐系统、问答系统等场景。在现有的文本匹配方法中,大多数的文本编码器主要实现文本的通用向量表示,仅仅利用了文本对的纯语义信息,这样的做法忽略了其他可利用的丰富信息,因此导致文本匹配的准确率不够高。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种文本匹配方法、装置、系统以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下:一种文本匹配方法,包括如下步骤:
[0005]导入多个句子对以及与各个所述句子对一一对应的关键字信息对和意图信息对,并对各个所述句子对、各个所述句子对所对应的关键字信息对以及意图信息对进行编码,得到各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对;
[0006]根据各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对进行交互向量的分析,得到各个所述句子对的交互向量;
[0007]根据各个所述句子对的交互向量进行得分向量的计算,得到各个所述句子对的多个得分向量;
[0008]根据各个所述句子对的多个得分向量进行文本匹配准确率的分析,得到文本匹配准确率,并将所述文本匹配准确率作为文本匹配的结果。
[0009]本专利技术解决上述技术问题的另一技术方案如下:一种文本匹配装置,包括:
[0010]编码模块,用于导入多个句子对以及与各个所述句子对一一对应的关键字信息对和意图信息对,并对各个所述句子对、各个所述句子对所对应的关键字信息对以及意图信息对进行编码,得到各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对;
[0011]交互向量分析模块,用于根据各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对进行交互向量的分析,得到各个所述句子对的交互向量;
[0012]得分向量计算模块,用于根据各个所述句子对的交互向量进行得分向量的计算,得到各个所述句子对的多个得分向量;
[0013]文本匹配结果获得模块,用于根据各个所述句子对的多个得分向量进行文本匹配准确率的分析,得到文本匹配准确率,并将所述文本匹配准确率作为文本匹配的结果。
[0014]基于上述一种文本匹配方法,本专利技术还提供一种文本匹配系统。
[0015]本专利技术解决上述技术问题的另一技术方案如下:一种文本匹配系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的文本匹配方法。
[0016]基于上述一种文本匹配方法,本专利技术还提供一种计算机可读存储介质。
[0017]本专利技术解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的文本匹配方法。
[0018]本专利技术的有益效果是:通过对句子对、关键字信息对以及意图信息对的编码得到句子原始向量对、关键字向量对以及意图向量对,根据句子原始向量对、关键字向量对以及意图向量对的交互向量分析得到交互向量,根据交互向量的得分向量计算得到得分向量,根据得分向量的文本匹配准确率分析得到文本匹配的结果,不仅提取了句子的纯语义信息,同时还将句子的关键字、意图的附加信息对句子文本进行补充,实现了不同视角下的文本匹配,相对现有技术,实现了比仅靠纯语义信息更强的性能,同时能够从不同视角判断文本匹配,显著地提升文本匹配的准确性。
附图说明
[0019]图1为本专利技术实施例提供的一种文本匹配方法的流程示意图;
[0020]图2为本专利技术实施例提供的一种文本匹配装置的模块框图。
具体实施方式
[0021]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0022]图1为本专利技术实施例提供的一种文本匹配方法的流程示意图。
[0023]如图1所示,一种文本匹配方法,包括如下步骤:
[0024]导入多个句子对以及与各个所述句子对一一对应的关键字信息对和意图信息对,并对各个所述句子对、各个所述句子对所对应的关键字信息对以及意图信息对进行编码,得到各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对;
[0025]根据各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对进行交互向量的分析,得到各个所述句子对的交互向量;
[0026]根据各个所述句子对的交互向量进行得分向量的计算,得到各个所述句子对的多个得分向量;
[0027]根据各个所述句子对的多个得分向量进行文本匹配准确率的分析,得到文本匹配准确率,并将所述文本匹配准确率作为文本匹配的结果。
[0028]应理解地,输入编码器的数据(即多个句子对以及与各个所述句子对一一对应的关键字信息对和意图信息对)来自MPTS数据集,每条输入样本为一个句子对文本,句子对的关键字信息(即所述关键字信息对)和意图信息(即所述意图信息对)。其中关键字信息表示应该严格匹配的事实信息,例如动作、实体和事件;意图信息表示传达抽象的概念和想法,
可以解释为各种表达方式。
[0029]上述实施例中,通过对句子对、关键字信息对以及意图信息对的编码得到句子原始向量对、关键字向量对以及意图向量对,根据句子原始向量对、关键字向量对以及意图向量对的交互向量分析得到交互向量,根据交互向量的得分向量计算得到得分向量,根据得分向量的文本匹配准确率分析得到文本匹配的结果,不仅提取了句子的纯语义信息,同时还将句子的关键字、意图的附加信息对句子文本进行补充,实现了不同视角下的文本匹配,相对现有技术,实现了比仅靠纯语义信息更强的性能,同时能够从不同视角判断文本匹配,显著地提升文本匹配的准确性。
[0030]可选地,作为本专利技术的一个实施例,所述句子对包括第一句子和第二句子,所述关键字信息对包括与所述第一句子对应的关键字信息以及与所述第二句子对应的关键字信息,所述意图信息对包括与所述第一句子对应的意图信息以及与所述第二句子对应的意图信息;
[0031]所述对各个所述句子对、各个所述句子对所对应的关键字信息对以及意图信息对进行编码,得到各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对的过程包括:
[0032]通过文本编码器对各个所述第一句子、各个所述第二句子、各个所述第一句子所对应的关键字信息和意图信息以及各个所述第二句子所对应的关键字信息和意图信息进行编码,对应得到各个所述第一句子的句子原始向量、各个所述第二句子的句子原始向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括如下步骤:导入多个句子对以及与各个所述句子对一一对应的关键字信息对和意图信息对,并对各个所述句子对、各个所述句子对所对应的关键字信息对以及意图信息对进行编码,得到各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对;根据各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对进行交互向量的分析,得到各个所述句子对的交互向量;根据各个所述句子对的交互向量进行得分向量的计算,得到各个所述句子对的多个得分向量;根据各个所述句子对的多个得分向量进行文本匹配准确率的分析,得到文本匹配准确率,并将所述文本匹配准确率作为文本匹配的结果。2.根据权利要求1所述的文本匹配方法,其特征在于,所述句子对包括第一句子和第二句子,所述关键字信息对包括与所述第一句子对应的关键字信息以及与所述第二句子对应的关键字信息,所述意图信息对包括与所述第一句子对应的意图信息以及与所述第二句子对应的意图信息;所述对各个所述句子对、各个所述句子对所对应的关键字信息对以及意图信息对进行编码,得到各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对的过程包括:通过文本编码器对各个所述第一句子、各个所述第二句子、各个所述第一句子所对应的关键字信息和意图信息以及各个所述第二句子所对应的关键字信息和意图信息进行编码,对应得到各个所述第一句子的句子原始向量、各个所述第二句子的句子原始向量、各个所述第一句子所对应的关键字向量和意图向量以及各个所述第二句子所对应的关键字向量和意图向量;所述句子对的句子原始向量对包括所述第一句子的句子原始向量和所述第二句子的句子原始向量;所述句子对所对应的关键字向量包括所述第一句子所对应的关键字向量和所述第二句子所对应的关键字向量;所述句子对所对应的意图向量对包括所述第一句子所对应的意图向量和所述第二句子所对应的意图向量。3.根据权利要求2所述的文本匹配方法,其特征在于,所述根据各个所述句子对的句子原始向量对、各个所述句子对所对应的关键字向量对以及意图向量对进行交互向量的分析,得到各个所述句子对的交互向量的过程包括:根据各个所述第一句子的句子原始向量、各个所述第二句子的句子原始向量、各个所述第一句子所对应的关键字向量和意图向量以及各个所述第二句子所对应的关键字向量和意图向量进行聚合分析,得到各个所述第一句子的聚合向量以及各个所述第二句子的聚合向量;对各个所述第一句子的句子原始向量和聚合向量以及各个所述第二句子的句子原始向量和聚合向量进行拼接,对应得到各个所述第一句子的融合向量以及各个所述第二句子的融合向量;
基于第一式,根据各个所述第一句子的融合向量以及各个所述第二句子的融合向量进行交互向量的计算,得到各个所述句子对的交互向量,所述第一式为:output_crossing
i
=CrossingLayer(output_con_a
i
,output_con_b
i
),其中,output_crossing
i
为第i个句子对的交互向量,CrossingLayer()为交叉层函数,output_con_a
i
为第i个第一句子的融合向量,output_con_b
i
为第i个第二句子的融合向量。4.根据权利要求3所述的文本匹配方法,其特征在于,所述根据各个所述第一句子的句子原始向量、各个所述第二句子的句子原始向量、各个所述第一句子所对应的关键字向量和意图向量以及各个所述第二句子所对应的关键字向量和意图向量进行聚合分析,得到各个所述第一句子的聚合向量以及各个所述第二句子的聚合向量的过程包括:根据各个所述第一句子的句子原始向量、各个所述第二句子的句子原始向量、各个所述第一句子所对应的关键字向量和意图向量以及各个所述第二句子所对应的关键字向量和意图向量进行相关系数的计算,得到各个所述第一句子的关键字信息相关系数和意图信息相关系数以及各个所述第二句子的关键字信息相关系数和意图信息相关系数;对各个所述第一句子的关键字信息相关系数和意图信息相关系数以及各个所述第二句子的关键字信息相关系数和意图信息相关系数进行归一化处理,对应得到各个所述第一句子的关键字信息注意力系数和意图信息注意力系数以及各个所述第二句子的关键字信息注意力系数和意图信息注意力系数;基于第二式,根据各个所述第一句子的关键字信息注意力系数和意图信息注意力系数以及各个所述第一句子所对应的关键字向量和意图向量进行第一聚合向量的计算,得到各个所述第一句子的聚合向量,所述第二式为:其中,output_agg_a
i
为第i个第一句子的聚合向量,σ{}为LeakyReLU激活函数,为第i个第一句子的关键字信息注意力系数,output_Kw_a
i
为第i个第一句子所对应的关键字向量,为第i个第一句子的意图信息注意力系数,output_It_a
i
为第i个第一句子所对应的意图向量;基于第三式,根据各个所述第二句子的关键字信息注意力系数和意图信息注意力系数以及各个所述第二句子所对应的关键字向量和意图向量进行第二聚合向量的计算,得到各个所述第二句子的聚合向量,所述第三式为:其中,output_agg_b
i
为第i个第二句子的聚合向量,σ{}为LeakyReLU激活函数,为第...

【专利技术属性】
技术研发人员:蔡晓东董丽芳
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1