一种多特征匹配的文本匹配方法、终端及可读存储介质组成比例

技术编号:33384799 阅读:19 留言:0更新日期:2022-05-11 22:59
本发明专利技术公开了一种多特征匹配的文本匹配方法、终端及可读存储介质,涉及自然语言处理领域,解决了现有的文本匹配方法忽略了文本中细粒度的信息以及文本整体语义信息,获取待匹配文本、候选文本,对所述待匹配文本、候选文本进行预处理;对预处理后的文本进行基于N

【技术实现步骤摘要】
一种多特征匹配的文本匹配方法、终端及可读存储介质


[0001]本专利技术涉及自然语言处理领域,更具体地说,它涉及一种多特征匹配的文本匹配方法、终端及可读存储介质。

技术介绍

[0002]随着信息时代的飞速发展,各式各样的文本信息充斥着网络世界。在网络搜索中,如何高效高准确的进行文本信息匹配成为了各大互联网平台提供数据搜索服务的有效保障。
[0003]现有技术中,文本匹配往往通过单个关键词提取,由深度学习表征方法训练所得的文本整体语义进行匹配。但上述现有方法中,使用关键词会导致忽略文本整体语义信息,使用深度学习表征方法会忽略文本中细粒度的信息导致了文本匹配准确度较低。
[0004]因此,需要提供更有效的方法来提升文本匹配方法的准确度。

技术实现思路

[0005]本专利技术所解决的技术问题是现有的文本匹配方法使用深度学习模型忽略了文本中细粒度的信息或采用关键词忽略了文本整体语义信息,本专利技术的目的是提供一种多特征匹配的文本匹配方法、终端及可读存储介质,本专利技术结合细粒度的词项语义信息与粗粒度的文本整体语义信息,进一步提升文本匹配方法的准确度。
[0006]本专利技术的上述技术目的是通过以下技术方案得以实现的:
[0007]一种多特征匹配的文本匹配方法,所述方法包括以下步骤:
[0008]获取待匹配文本和候选文本,对所述待匹配文本和候选文本进行预处理;
[0009]对预处理后的文本进行基于N

Gram的多粒度解析,获得不同粒度下的文本序列,将所述文本序列进行向量化,获得文本向量;
[0010]将所述文本向量列输入深度学习语言模型中进行训练,获得待匹配文本和候选文本的编码向量;
[0011]将所述待匹配文本编码和候选文本的编码向量进行相似度计算后求和取平均,获得待匹配文本和候选文本的匹配度。
[0012]本专利技术采用基于N

Gram的文本解析方法,将预处理后的文本解析为不同粒度的文本序列,考虑到现有的文本匹配方法使用深度学习模型忽略了文本中细粒度的信息或采用关键词忽略了文本整体语义信息,因此,将文本序列进行量化编码处理获得文本的编码向量,对文本的编码向量进行相似度计算,获得相似度的数值,在获得待匹配文本与候选文本在三种粒度下的相似度数值和的平均值,基于这个平均值的大小判断待匹配文本与候选文本的匹配程度,基于这个匹配程度获得最接近待匹配文本语义的候选文本。
[0013]进一步的,将所述待匹配文本和候选文本的无用符号和停用词去除,采用分词工具对所述待匹配文本和候选文本进行分词处理。
[0014]进一步的,以1

Gram,2

Gram和3

Gram三种粒度方式对待匹配文本与候选文本进
行解析,其中,分词处理后的结果即为1

Gram所解析的文本序列,2

Gram按照分词处理后的文本序列自身的顺序进行两两组合,3

Gram按照分词处理后的文本序列自身的顺序进行三三组合。
[0015]进一步的,将三种粒度解析出的文本序列转化为文本向量矩阵输入深度学习语言模型,分别对三种不同文本解析方式进行训练,获得待匹配文本和候选文本的编码向量。
[0016]进一步的,将所述待匹配文本和候选文本的编码向量进行相似度计算的计算式为其中,表示待匹配文本和候选文本在词粒度为n 时的文本相似度,表示待匹配文本的文本表征向量,表示候选文本的文本表征向量。
[0017]进一步的,所述待匹配文本和候选文本的匹配度的计算式为其中,表示1

Gram粒度解析的文本相似度,表示2

Gram粒度解析的文本相似度,表示3

Gram粒度解析的文本相似度。
[0018]进一步的,对所述待匹配文本进行匹配时,在所述候选文本中计算与所述待匹配文本的匹配度,并根据所述匹配度的数值与相似度阈值进行比较,所述匹配度的数值大于所示相似度阈值返回候选文本的所有排序结果,获得最接近所述待匹配文本语义的候选文本。
[0019]进一步的,通过faiss工具包将所述候选文本的编码向量进行索引化,并保存索引化后的编码向量。
[0020]一种多特征匹配终端,包括存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法的步骤。
[0021]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法的步骤。
[0022]与现有技术相比,本专利技术具有以下有益效果:
[0023]本专利技术考虑到现有技术的文本匹配方法往往通过单个关键词提取,由深度学习表征方法训练所得的文本整体语义进行匹配,但是使用关键词会导致忽略文本整体语义信息,使用深度学习表征方法也会忽略文本中细粒度的信息,因此本专利技术采用基于N

Gram的文本解析方法,将文本解析为不同粒度的文本序列,并在匹配阶段采取后其交互的方法在提升匹配准确度,同时满足工业匹配使用的需求。
附图说明
[0024]此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:
[0025]图1为本专利技术结构示意图;
[0026]图2为本专利技术实施例提供的文本匹配模块;
[0027]图3为本专利技术实施例提供的终端的实体结构示意图。
具体实施方式
[0028]为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。
[0029]实施例一:
[0030]如图1所示,本实施例一提供一种多特征匹配的文本匹配方法,方法包括以下步骤:
[0031]步骤S1,获取待匹配文本和候选文本,对待匹配文本和候选文本进行预处理;
[0032]步骤S2,对预处理后的文本进行基于N

Gram的多粒度解析,获得不同粒度下的文本序列,将所述文本序列进行向量化,获得文本向量;
[0033]步骤S3,将所述文本向量列输入深度学习语言模型中进行训练,获得待匹配文本和候选文本的编码向量;
[0034]步骤S4,将所述待匹配文本编码和候选文本的编码向量进行相似度计算后求和取平均,获得待匹配文本和候选文本的匹配度。
[0035]本专利技术基于N

Gram(CLM,Chinese Language Model,简称汉语语言模型)的文本解析方法,将预处理后的文本解析为不同粒度的文本序列,考虑到现有的文本匹配方法使用深度学习模型忽略了文本中细粒度的信息或采用关键词忽略了文本整体语义信息,因此,将文本序列进行量化编码处理获得文本的编码向量,对文本的编码向量进行相似度计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多特征匹配的文本匹配方法,其特征在于,所述方法包括以下步骤:获取待匹配文本和候选文本,对所述待匹配文本和候选文本进行预处理;对预处理后的文本进行基于N

Gram的多粒度解析,获得不同粒度下的文本序列,将所述文本序列进行向量化,获得文本向量;将所述文本向量列输入深度学习语言模型中进行训练,获得待匹配文本和候选文本的编码向量;将所述待匹配文本编码和候选文本的编码向量进行相似度计算后求和取平均,获得待匹配文本和候选文本的匹配度。2.根据权利要求1所述的一种多特征匹配的文本匹配方法,其特征在于,将所述待匹配文本和候选文本的无用符号和停用词去除,采用分词工具对所述待匹配文本和候选文本进行分词处理。3.根据权利要求2所述的一种多特征匹配的文本匹配方法,其特征在于,以1

Gram,2

Gram和3

Gram三种粒度方式对待匹配文本与候选文本进行解析,其中,分词处理后的结果即为1

Gram所解析的文本序列,2

Gram按照分词处理后的文本序列自身的顺序进行两两组合,3

Gram按照分词处理后的文本序列自身的顺序进行三三组合。4.根据权利要求3所述的一种多特征匹配的文本匹配方法,其特征在于,将三种粒度解析出的文本序列转化为文本向量矩阵输入深度学习语言模型,分别对三种不同文本解析方式进行训练,获得待匹配文本和候选文本的编码向量。5.根据权利要求4述的一种多特征匹配的文本匹配方法...

【专利技术属性】
技术研发人员:夏书银杨宁张勇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1