文本匹配方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:31747115 阅读:15 留言:0更新日期:2022-01-05 16:27
本发明专利技术提供的文本匹配方法、装置、存储介质及计算机设备,在将目标文本与待匹配文本集中的各个待匹配文本进行相似度匹配时,首先获取与目标文本对应的第一句向量以及文本类别,然后获取与待匹配文本集中的各个待匹配文本对应的第二句向量,根据第一句向量和第二句向量确定每个待匹配文本的相似度匹配结果,接着,对于每个待匹配文本的相似度匹配结果,可以通过目标文本的文本类别对其进行优化,示例如,对于业务类文本和非业务类文本的相似度匹配结果的优化方式可以不同,因而采用本申请方案可以支持降低非业务类文本对最终匹配结果的影响,从而能够更加准确便捷地帮助用户解决业务上的问题。业务上的问题。业务上的问题。

【技术实现步骤摘要】
文本匹配方法、装置、存储介质及计算机设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本匹配方法、装置、存储介质及计算机设备。

技术介绍

[0002]文本匹配是自然语言处理领域中常见的应用场景,大量的NLP(神经语言程序学)任务都是以文本匹配为出发点,例如信息检索、机器翻译、问答系统等。
[0003]现有的基于FAQ知识库的问答系统,大多使用文本相似度匹配的方法,通过将用户输入的文本与FAQ知识库中的各个相似文本进行相似度匹配,并给出相似度匹配分数,接着对各个相似文本的相似度匹配分数进行重排序和卡阈值后输出最终的匹配结果。
[0004]然而,仅通过相似度匹配分数以及卡阈值的方式对用户输入的文本进行文本匹配,会将一些非业务类的无效文本,如“什么意思”、“怎么回事”、“不是吧”、“麻烦”等,与FAQ知识库中的相似文本进行相似度匹配,通过该文本匹配结果确定的答案并不能解决用户在业务上出现的问题,使得问答系统的便捷性和准确性较低。

技术实现思路

[0005]本专利技术的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中问答系统的便捷性和准确性较低的技术缺陷。
[0006]本专利技术提供了一种文本匹配方法,所述方法包括:
[0007]获取目标文本,以及与所述目标文本对应的待匹配文本集;
[0008]确定与所述目标文本对应的第一句向量和文本类别,以及与所述待匹配文本集中的各个待匹配文本对应的第二句向量;
[0009]将所述目标文本对应的第一句向量分别与每个待匹配文本对应的第二句向量进行相似度匹配,得到每个待匹配文本的相似度匹配结果;
[0010]基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化,并基于优化后的相似度匹配结果确定所述待匹配文本集中的目标匹配文本。
[0011]可选地,所述获取与所述目标文本对应的待匹配文本集的步骤,包括:
[0012]对所述目标文本进行分词,得到至少一个词组;
[0013]在FAQ知识库中对所述词组进行检索,得到多个与所述词组对应的待匹配文本,形成待匹配文本集;其中,所述FAQ知识库中预先建立有与多个待匹配文本对应的索引结构。
[0014]可选地,所述确定与所述目标文本对应的第一句向量和文本类别的步骤,包括:
[0015]将所述目标文本输入至文本分类模型中,得到所述文本分类模型输出的与所述目标文本对应的第一句向量和文本类别;
[0016]其中,所述文本分类模型为,以FAQ知识库中的不同文本类别对应的多个待匹配文本为训练样本,以每个待匹配文本对应的文本类别为样本标签训练得到的。
[0017]可选地,所述确定与所述待匹配文本集中的各个待匹配文本对应的第二句向量的
步骤,包括:
[0018]在缓存中分别查找与所述待匹配文本集中的各个待匹配文本对应的第二句向量;
[0019]其中,所述缓存中预先存储有所述FAQ知识库中的所有待匹配文本,以及通过所述文本分类模型得到的与每个待匹配文本对应的第二句向量。
[0020]可选地,所述基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化的步骤,包括:
[0021]根据所述目标文本的文本类别确定对应的调整系数;
[0022]利用所述调整系数对各个待匹配文本的相似度匹配结果进行优化。
[0023]可选地,所述目标文本的文本类别包括业务类文本和非业务类文本;
[0024]当所述目标文本为非业务类文本时,所述目标文本的调整系数小于所述业务类文本的调整系数。
[0025]可选地,所述基于优化后的相似度匹配结果确定所述待匹配文本集中的目标匹配文本的步骤,包括:
[0026]将优化后的相似度匹配结果进行排序,得到排序结果;
[0027]根据预设选取个数以及预设相似度阈值,对所述排序结果中的待匹配文本进行筛选;
[0028]将筛选后的待匹配文本作为所述目标文本的目标匹配文本。
[0029]本专利技术还提供了一种文本匹配装置,包括:
[0030]文本获取模块,用于获取目标文本,以及与所述目标文本对应的待匹配文本集;
[0031]文本处理模块,用于确定与所述目标文本对应的第一句向量和文本类别,以及与所述待匹配文本集中的各个待匹配文本对应的第二句向量;
[0032]相似度匹配模块,用于将所述目标文本对应的第一句向量分别与每个待匹配文本对应的第二句向量进行相似度匹配,得到每个待匹配文本的相似度匹配结果;
[0033]文本匹配模块,用于基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化,并基于优化后的相似度匹配结果确定所述待匹配文本集中的目标匹配文本。
[0034]本专利技术还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述文本匹配方法的步骤。
[0035]本专利技术还提供了一种计算机设备,所述计算机设备中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述文本匹配方法的步骤。
[0036]从以上技术方案可以看出,本专利技术实施例具有以下优点:
[0037]本专利技术提供的文本匹配方法、装置、存储介质及计算机设备,在将目标文本与待匹配文本集中的各个待匹配文本进行相似度匹配时,首先获取与目标文本对应的第一句向量以及文本类别,然后获取与待匹配文本集中的各个待匹配文本对应的第二句向量,根据第一句向量和第二句向量确定每个待匹配文本的相似度匹配结果,接着,对于每个待匹配文本的相似度匹配结果,可以通过目标文本的文本类别对其进行优化,使得优化后的相似度匹配结果不仅考虑了目标文本与待匹配文本之间的相似度,还考虑了目标文本的文本类
别;其中,对相似度匹配结果进行优化,示例如,对于业务类文本和非业务类文本的相似度匹配结果的优化方式可以不同,因而采用本申请方案可以支持降低非业务类文本对最终匹配结果的影响,从而能够更加准确便捷地帮助用户解决业务上的问题。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0039]图1为本专利技术实施例提供的一种文本匹配方法的流程示意图;
[0040]图2为本专利技术实施例提供的BERT模型的输入输出的结构示意图;
[0041]图3为本专利技术实施例提供的融合分类和相似度匹配的在线预测流程示意图;
[0042]图4为本专利技术实施例提供的一种文本匹配装置的结构示意图;
[0043]图5为本专利技术实施例提供的一种计算机设备的内部结构示意图。
具体实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,所述方法包括:获取目标文本,以及与所述目标文本对应的待匹配文本集;确定与所述目标文本对应的第一句向量和文本类别,以及与所述待匹配文本集中的各个待匹配文本对应的第二句向量;将所述目标文本对应的第一句向量分别与每个待匹配文本对应的第二句向量进行相似度匹配,得到每个待匹配文本的相似度匹配结果;基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化,并基于优化后的相似度匹配结果确定所述待匹配文本集中的目标匹配文本。2.根据权利要求1所述的文本匹配方法,其特征在于,所述获取与所述目标文本对应的待匹配文本集的步骤,包括:对所述目标文本进行分词,得到至少一个词组;在FAQ知识库中对所述词组进行检索,得到多个与所述词组对应的待匹配文本,形成待匹配文本集;其中,所述FAQ知识库中预先建立有与多个待匹配文本对应的索引结构。3.根据权利要求1所述的文本匹配方法,其特征在于,所述确定与所述目标文本对应的第一句向量和文本类别的步骤,包括:将所述目标文本输入至文本分类模型中,得到所述文本分类模型输出的与所述目标文本对应的第一句向量和文本类别;其中,所述文本分类模型为,以FAQ知识库中的不同文本类别对应的多个待匹配文本为训练样本,以每个待匹配文本对应的文本类别为样本标签训练得到的。4.根据权利要求3所述的文本匹配方法,其特征在于,所述确定与所述待匹配文本集中的各个待匹配文本对应的第二句向量的步骤,包括:在缓存中分别查找与所述待匹配文本集中的各个待匹配文本对应的第二句向量;其中,所述缓存中预先存储有所述FAQ知识库中的所有待匹配文本,以及通过所述文本分类模型得到的与每个待匹配文本对应的第二句向量。5.根据权利要求1所述的文本匹配方法,其特征在于,所述基于所述目标文本的文本类别对各个待匹配文本的相似度匹...

【专利技术属性】
技术研发人员:王绥学黎洛晨
申请(专利权)人:唯品会广州软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1