一种文本匹配方法、装置、系统以及存储介质制造方法及图纸

技术编号:36692554 阅读:14 留言:0更新日期:2023-02-27 20:01
本发明专利技术提供一种文本匹配方法、装置、系统以及存储介质,属于语言处理领域,方法包括:对原始句子对进行标注分析得到标注句子对;利用编码器对各个标注句子对进行编码得到句子对隐藏向量;根据各个原始句子对以及句子对隐藏向量进行向量分析得到差异向量、第一初始全局向量以及第二初始全局向量;根据差异向量、第一初始全局向量以及第二初始全局向量进行句子对相似性匹配分数的计算得到文本匹配结果。本发明专利技术突出了关键字这一重要匹配粒度在句子匹配中的重要性,实现了更精确的文本匹配,相对现有技术,能够更精确地判断文本的相似性且提升了文本匹配的准确率。提升了文本匹配的准确率。提升了文本匹配的准确率。

【技术实现步骤摘要】
一种文本匹配方法、装置、系统以及存储介质


[0001]本专利技术主要涉及语言处理
,具体涉及一种文本匹配方法、装置、系统以及存储介质。

技术介绍

[0002]文本匹配是自然语言处理中的一项重要且富有挑战的任务,用于判断两段文本的相似性,广泛应用于搜索引擎、推荐系统、问答系统等场景。在现有的先进文本匹配模型中,大多数方法是对每个单词进行统一处理,直接进行文本比较。但是,这样忽略了文本的匹配粒度,从而降低了匹配的准确率。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种文本匹配方法、装置、系统以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下:一种文本匹配方法,包括如下步骤:
[0005]导入多个原始句子对,并分别对各个所述原始句子对进行标注分析,得到各个所述原始句子对的标注句子对;
[0006]构建编码器,利用所述编码器分别对各个所述原始句子对的标注句子对进行编码,得到各个所述原始句子对的句子对隐藏向量;
[0007]分别根据各个所述原始句子对以及所述原始句子对的句子对隐藏向量进行向量分析,得到各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量;
[0008]分别根据各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量进行句子对相似性匹配分数的计算,得到各个所述原始句子对的句子对相似性匹配分数,并将所有所述句子对相似性匹配分数作为文本匹配结果。
[0009]本专利技术解决上述技术问题的另一技术方案如下:一种文本匹配装置,包括:
[0010]标注分析模块,用于导入多个原始句子对,并分别对各个所述原始句子对进行标注分析,得到各个所述原始句子对的标注句子对;
[0011]编码分析模块,用于构建编码器,利用所述编码器分别对各个所述原始句子对的标注句子对进行编码,得到各个所述原始句子对的句子对隐藏向量;
[0012]向量分析模块,用于分别根据各个所述原始句子对以及所述原始句子对的句子对隐藏向量进行向量分析,得到各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量;
[0013]匹配结果获得模块,用于分别根据各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量进行句子对相似性匹配分数的计算,得到各个所述原始句子对的句子对相似性匹配分数,并将所有所述句子对相似性匹配分数作为文本匹配结果。
[0014]基于上述一种文本匹配方法,本专利技术还提供一种文本匹配系统。
[0015]本专利技术解决上述技术问题的另一技术方案如下:一种文本匹配系统,包括存储器、
处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的文本匹配方法。
[0016]基于上述一种文本匹配方法,本专利技术还提供一种计算机可读存储介质。
[0017]本专利技术解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的文本匹配方法。
[0018]本专利技术的有益效果是:通过对原始句子对的标注分析得到标注句子对,利用编码器对标注句子对的编码得到句子对隐藏向量,根据原始句子对以及句子对隐藏向量的向量分析得到差异向量、第一初始全局向量以及第二初始全局向量,根据差异向量、第一初始全局向量以及第二初始全局向量的句子对相似性匹配分数计算得到文本匹配结果,突出了关键字这一重要匹配粒度在句子匹配中的重要性,实现了更精确的文本匹配,相对现有技术,能够更精确地判断文本的相似性且提升了文本匹配的准确率。
附图说明
[0019]图1为本专利技术实施例提供的一种文本匹配方法的流程示意图;
[0020]图2为本专利技术实施例提供的一种文本匹配装置的模块框图。
具体实施方式
[0021]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0022]图1为本专利技术实施例提供的一种文本匹配方法的流程示意图。
[0023]如图1所示,一种文本匹配方法,包括如下步骤:
[0024]导入多个原始句子对,并分别对各个所述原始句子对进行标注分析,得到各个所述原始句子对的标注句子对;
[0025]构建编码器,利用所述编码器分别对各个所述原始句子对的标注句子对进行编码,得到各个所述原始句子对的句子对隐藏向量;
[0026]分别根据各个所述原始句子对以及所述原始句子对的句子对隐藏向量进行向量分析,得到各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量;
[0027]分别根据各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量进行句子对相似性匹配分数的计算,得到各个所述原始句子对的句子对相似性匹配分数,并将所有所述句子对相似性匹配分数作为文本匹配结果。
[0028]应理解地,将数据集中句子对(即所述原始句子对)的关键字进行标记。
[0029]应理解地,还可以利用NLTK文本处理库分别对各个所述原始句子对进行标注分析。
[0030]应理解地,NLTK数据集(即NLTK文本处理库)是NLP研究领域常用的一个Python库。
[0031]上述实施例中,通过对原始句子对的标注分析得到标注句子对,利用编码器对标注句子对的编码得到句子对隐藏向量,根据原始句子对以及句子对隐藏向量的向量分析得到差异向量、第一初始全局向量以及第二初始全局向量,根据差异向量、第一初始全局向量以及第二初始全局向量的句子对相似性匹配分数计算得到文本匹配结果,突出了关键字这
一重要匹配粒度在句子匹配中的重要性,实现了更精确的文本匹配,相对现有技术,能够更精确地判断文本的相似性且提升了文本匹配的准确率。
[0032]可选地,作为本专利技术的一个实施例,所述分别对各个所述原始句子对进行标注分析,得到各个所述原始句子对的标注句子对的过程包括:
[0033]分别对各个所述原始句子对进行潜在关键词的提取,得到各个所述原始句子对的多个潜在关键词;
[0034]根据预设知识库分别对各个所述原始句子对的各个潜在关键词进行匹配,得到各个所述原始句子对的多个匹配后关键词;
[0035]基于命名实体识别方法,根据各个所述原始句子对的多个匹配后关键词分别对对应的所述原始句子对进行标注,得到各个所述原始句子对的标注句子对。
[0036]应理解地,设计一个关键字鉴别器,将数据集中句子对(即所述原始句子对)的关键字进行标记。
[0037]应理解地,所述预设知识库可以为维基百科实体图或搜狗知识图,维基百科实体图用于英文语料库,搜狗知识图用于中文医学SM。
[0038]具体地,首先从NLTK(即所述NLTK数据集)中提取潜在的关键词(即所述潜在关键词),包括名词、动词和形容词的词性标签。然后通过使用外部知识库(即所述预设知识库本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括如下步骤:导入多个原始句子对,并分别对各个所述原始句子对进行标注分析,得到各个所述原始句子对的标注句子对;构建编码器,利用所述编码器分别对各个所述原始句子对的标注句子对进行编码,得到各个所述原始句子对的句子对隐藏向量;分别根据各个所述原始句子对以及所述原始句子对的句子对隐藏向量进行向量分析,得到各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量;分别根据各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量进行句子对相似性匹配分数的计算,得到各个所述原始句子对的句子对相似性匹配分数,并将所有所述句子对相似性匹配分数作为文本匹配结果。2.根据权利要求1所述的文本匹配方法,其特征在于,所述分别对各个所述原始句子对进行标注分析,得到各个所述原始句子对的标注句子对的过程包括:分别对各个所述原始句子对进行潜在关键词的提取,得到各个所述原始句子对的多个潜在关键词;根据预设知识库分别对各个所述原始句子对的各个潜在关键词进行匹配,得到各个所述原始句子对的多个匹配后关键词;基于命名实体识别方法,根据各个所述原始句子对的多个匹配后关键词分别对对应的所述原始句子对进行标注,得到各个所述原始句子对的标注句子对。3.根据权利要求1所述的文本匹配方法,其特征在于,所述标注句子对包括第一标注句子和第二标注句子,所述编码器包括BERT模型和最大池化层;所述利用所述编码器分别对各个所述原始句子对的标注句子对进行编码,得到各个所述原始句子对的句子对隐藏向量的过程包括:利用所述BERT模型分别对各个所述原始句子对的第一标注句子进行编码,得到各个所述原始句子对的第一隐藏分量;利用所述BERT模型分别对各个所述原始句子对的第二标注句子进行编码,得到各个所述原始句子对的第二隐藏分量;利用所述最大池化层分别对各个所述原始句子对的第一隐藏分量进行最大池化处理,得到各个所述原始句子对的第一句子隐藏向量;利用所述最大池化层分别对各个所述原始句子对的第二隐藏分量进行最大池化处理,得到各个所述原始句子对的第二句子隐藏向量;其中,所述原始句子对的句子对隐藏向量包括所述原始句子对的第一句子隐藏向量和所述原始句子对的第二句子隐藏向量。4.根据权利要求3所述的文本匹配方法,其特征在于,所述分别根据各个所述原始句子对以及所述原始句子对的句子对隐藏向量进行向量分析,得到各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量的过程包括:利用所述BERT模型分别对各个所述原始句子对进行编码,得到各个所述原始句子对的第一初始全局向量以及第二初始全局向量;分别根据各个所述原始句子对的第一句子隐藏向量、第二句子隐藏向量、第一初始全局向量以及第二初始全局向量进行差异向量的计算,得到各个所述原始句子对的差异向
量。5.根据权利要求4所述的文本匹配方法,其特征在于,所述分别根据各个所述原始句子对的第一句子隐藏向量、第二句子隐藏向量、第一初始全局向量以及第二初始全局向量进行差异向量的计算,得到各个所述原始句子对的差异向量的过程包括:基于第一式,分别根据各个所述原始句子对的第一句子隐藏向量、第二句子隐藏向量、第一初始全局向量以及第二初始全局向量进行差异向量的计算,得到各个所述原始句子对的差异向量,所述第一式为:K
diff
=[H
A
(CLS)

...

【专利技术属性】
技术研发人员:蔡晓东董丽芳
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1