一种文本匹配方法、装置、系统及存储介质制造方法及图纸

技术编号：40652605 阅读：7 留言：0更新日期：2024-03-13 21:29

本申请公开了一种文本匹配方法、装置、系统及存储介质，用以提高专业领域文本匹配准确度。所述方法包括：获取待匹配文本；根据预设数据库确定所述待匹配文本对应的若干候选文本；将所述待匹配文本和若干所述候选文本输入至训练完成的文本匹配模型中；获取所述训练完成的文本匹配模型根据融合词表输出的若干所述候选文本中与所述待匹配文本相似度最高的所述候选文本，其中，所述融合词表包含中英文开源语义、专业业务语义以及候选文本语义。采用本申请所提供的方案：由于融合词表中包含了中英文开源语义、专业业务语义以及候选文本语义，因此，文本匹配模型在进行文本匹配过程中，使用了专业领域的词汇，提高了专业领域文本匹配的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及文本匹配，特别涉及一种文本匹配方法、装置、系统及存储介质。

技术介绍

1、文本匹配是自然语言处理中的一个重要任务，在搜索引擎、智能问答、知识检索、信息流推荐等应用系统中起核心支撑作用。例如，用户向具备智能问答功能的设备询问一个问题，该问题对应的文字信息即为待匹配文本，而用户询问的问题与设备数据库存储的标准问题通常是存在差异的，因此，设备需要从数据库中寻找与该待匹配文本相似度最高的标准问题，而设备从数据库中寻找与该待匹配文本相似度最高的标准问题的过程就是一种典型的文本匹配过程。

2、现有的文本匹配方案大多依赖于开源预训练模型，这些模型大多是通过开源的通用语料库进行预训练的，由于通用语料库不包含专业领域的词汇，因此，现有文本匹配方案不能准确表征专业领域的词向量，尤其是专业名词的英文缩写，进而导致专业领域文本匹配的准确度不高。

3、因此，如何提供一种文本匹配方法，以提高专业领域文本匹配准确度，成为了一项亟待解决的技术问题。

技术实现思路

1、本申请提供一种文本匹配方法、装置、系统及存储介质，用以提高专业领域文本匹配准确度。

2、本申请提供一种文本匹配方法，包括：

3、获取待匹配文本；

4、根据预设数据库确定所述待匹配文本对应的若干候选文本；

5、将所述待匹配文本和若干所述候选文本输入至训练完成的文本匹配模型中；

6、获取所述训练完成的文本匹配模型根据融合词表输出的若干所述候选文本中与所述待匹配文

7、本申请的有益效果在于：通过获取待匹配文本并确定对应的候选文本后，将待匹配文本和候选文本输入至训练完成的文本匹配模型中，然后根据融合词表输出与待匹配文本相似度最高的候选文本。在本申请中，由于融合词表中包含了中英文开源语义、专业业务语义以及候选文本语义，因此，文本匹配模型在进行文本匹配过程中，使用了专业领域的词汇，进而提高了专业领域文本匹配的准确度。

8、在一个实施例中，所述融合词表的确定方式如下：

9、通过对中英文开源语料库的语料信息进行分词以得到包含所述中英文开源语义的第一词表；

10、通过对专业业务语料库的语料信息进行分词以得到包含所述专业业务语义的第二词表；

11、通过对候选文本数据集的语料信息进行关键词提取以得到包含所述候选文本语义的第三词表，其中，所述候选文本数据集是所述预设数据库中的所有候选文本组成的候选文本集合；

12、将所述第一词表、第二词表和第三词表进行融合以得到包含所述中英文开源语义、所述专业业务语义以及所述候选文本语义的所述融合词表。

13、在一个实施例中，所述文本匹配模型的训练过程如下：

14、根据所述待匹配文本进行检索以获取所述待匹配文本对应的候选文本；

15、对所述待匹配文本以及所述待匹配文本对应的候选文本进行预处理；

16、将预处理后的待匹配文本信息以及所述待匹配文本对应的候选文本信息输入至预先构建的文本匹配模型中；

17、获取包含所述待匹配文本信息和待匹配文本关键词信息的第一级联句向量，以及包含所述候选文本信息和候选文本关键词信息的第二级联句向量；

18、计算所述第一级联句向量和所述第二级联句向量的余弦相似度；

19、计算所述余弦相似度损失；

20、根据所述余弦相似度损失对所述文本匹配模型进行参数优化。

21、在一个实施例中，所述对所述待匹配文本以及所述待匹配文本对应的候选文本进行预处理，包括：

22、对所述待匹配文本以及所述候选文本进行关键词提取；

23、根据所述融合词表确定所述待匹配文本词表标识向量以及所述待匹配文本关键词的词表标识向量作为预处理后的待匹配文本信息；

24、根据所述融合词表确定所述候选文本词表的标识向量以及所述候选文本关键词词表标识向量作为预处理后的候选文本信息。

25、在一个实施例中，所述计算所述余弦相似度损失，包括：

26、根据以下公式计算余弦相似度损失：

27、

28、其中，a为第一级联句向量；b为第二级联句向量，margin为预设参数。

29、在一个实施例中，所述根据所述余弦相似度损失对所述文本匹配模型进行参数优化，包括：

30、当所述文本匹配模型输出的所述第一级联句向量和所述第二级联句向量所对应的余弦相似度损失小于第一预设次数且大于第二预设次数时，使用优化器通过反向传播更新所述文本匹配模型的参数。

31、在一个实施例中，在获取所述训练完成的文本匹配模型根据融合词表输出的若干所述候选文本中与所述待匹配文本相似度最高的所述候选文本之后，所述方法还包括：

32、确定与所述待匹配文本相似度最高的候选文本存在映射关系的文本信息；

33、确定所述文本信息为所述待匹配文本的最终检索结果；

34、显示所述待匹配文本的最终检索结果。

35、本申请还提供一种文本匹配装置，包括：

36、第一获取模块，用于获取待匹配文本；

37、第一确定模块，用于根据预设数据库确定所述待匹配文本对应的若干候选文本；

38、输入模块，用于将所述待匹配文本和若干所述候选文本输入至训练完成的文本匹配模型中；

39、第二获取模块，用于获取所述训练完成的文本匹配模型根据融合词表输出的若干所述候选文本中与所述待匹配文本相似度最高的所述候选文本，其中，所述融合词表包含中英文开源语义、专业业务语义以及候选文本语义，所述候选文本语义是基于所述预设数据库中的候选文本数据集得到的。

40、在一个实施例中，所述融合词表的确定方式如下：

41、通过对中英文开源语料库的语料信息进行分词以得到包含所述中英文开源语义的第一词表；

42、通过对专业业务语料库的语料信息进行分词以得到包含所述专业业务语义的第二词表；

43、通过对候选文本数据集的语料信息进行关键词提取以得到包含所述候选文本语义的第三词表，其中，所述候选文本数据集是所述预设数据库中的所有候选文本组成的候选文本集合；

44、将所述第一词表、第二词表和第三词表进行融合以得到包含所述中英文开源语义、所述专业业务语义以及所述候选文本语义的所述融合词表。

45、在一个实施例中，所述文本匹配模型的训练过程如下：

46、根据所述待匹配文本进行检索以获取所述待匹配文本对应的候选文本；

47、对所述待匹配文本以及所述待匹配文本对应的候选文本进行预处理；

48、将预处理后的待匹配文本信息以及所述待匹配文本对应的候选文本信息输入至预先构建的文本匹配模型本文档来自技高网...

【技术保护点】

1.一种文本匹配方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述融合词表的确定方式如下：

3.如权利要求1所述的方法，其特征在于，所述文本匹配模型的训练过程如下：

4.如权利要求3所述的方法，其特征在于，所述对所述待匹配文本以及所述待匹配文本对应的候选文本进行预处理，包括：

5.如权利要求3所述的方法，其特征在于，所述计算所述余弦相似度损失，包括：

6.如权利要求3所述的方法，其特征在于，所述根据所述余弦相似度损失对所述文本匹配模型进行参数优化，包括：

7.如权利要求1所述的方法，其特征在于，在获取所述训练完成的文本匹配模型根据融合词表输出的若干所述候选文本中与所述待匹配文本相似度最高的所述候选文本之后，所述方法还包括：

8.一种文本匹配装置，其特征在于，包括：

9.一种文本匹配系统，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，当存储介质中的指令由文本匹配系统对应的处理器执行时，使得文本匹配系统能够实现如权利要求1-7任一项所述的文本匹配方法。

...

【技术特征摘要】

1.一种文本匹配方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述融合词表的确定方式如下：

3.如权利要求1所述的方法，其特征在于，所述文本匹配模型的训练过程如下：

4.如权利要求3所述的方法，其特征在于，所述对所述待匹配文本以及所述待匹配文本对应的候选文本进行预处理，包括：

5.如权利要求3所述的方法，其特征在于，所述计算所述余弦相似度损失，包括：

6.如权利要求3所述的方法，其特征在于，所述根据所述余弦相似度损失对...

【专利技术属性】
技术研发人员：王孝元，江会星，陈伟，
申请(专利权)人：北京罗克维尔斯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人