文本匹配方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:39398639 阅读:8 留言:0更新日期:2023-11-19 15:52
本申请实施例公开了一种文本匹配方法、装置、电子设备及计算机可读存储介质,本申请可以应用于智能客服、智能医疗等领域,该方法包括:将待匹配文本输入离散编码模型进行二值化离散编码,得到二值化离散编码结果;确定匹配对象文本对应的二值化离散预编码结果;获取二值化离散编码结果与二值化离散预编码结果的维度离散对比结果;根据维度离散对比结果,从匹配对象文本中确定与待匹配文本匹配的目标匹配对象文本。二值化离散编码结果在比较时具备较高的效率,提升了文本匹配的效率。由于二值化离散编码结果的两种取值可以反映文本在不同维度是否具备某个特征,符合用户离散式、多特征表述的特点,使得文本匹配更合理。使得文本匹配更合理。使得文本匹配更合理。

【技术实现步骤摘要】
文本匹配方法、装置、电子设备及计算机可读存储介质


[0001]本申请实施例涉及计算机
,具体涉及一种文本匹配方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着信息量的提升,文本匹配的任务越来越多,通过文本的快速匹配可实现对信息的快速定位或者查找,例如,通过与输入的查询文本的匹配,可快速定位出查询文本所针对的查询内容。
[0003]目前,主要通过基于规则与字符串匹配的方法,或者基于文本编码结果的相似度来实现文本的匹配,但是,文本匹配的效率和合理性有点提升。

技术实现思路

[0004]本申请实施例提供一种文本匹配方法、装置、电子设备及计算机可读存储介质,可以提升文本匹配的效率和合理性。
[0005]第一方面,本申请实施例提供了一种文本匹配方法,包括:
[0006]将待匹配文本输入离散编码模型进行二值化离散编码,得到二值化离散编码结果;
[0007]确定匹配对象文本对应的二值化离散预编码结果,所述二值化离散预编码结果是根据所述离散编码模型对所述匹配对象文本进行编码后得到;
[0008]获取所述二值化离散编码结果与所述二值化离散预编码结果的维度离散对比结果,其中,所述维度离散对比结果描述所述二值化离散编码结果与所述二值化离散预编码结果在对应维度编码表示的差异;
[0009]根据所述维度离散对比结果,从所述匹配对象文本中确定与所述待匹配文本匹配的目标匹配对象文本;
[0010]其中,所述离散编码模型是根据样本文本的样本二值化离散编码结果以及不同所述样本文本之间的偏序关系进行训练后得到,所述样本二值化离散编码结果根据对所述样本文本的文本编码结果进行二值化离散后得到,所述文本编码结果根据对所述样本文本进行文本编码得到。
[0011]第二方面,本申请实施例还提供了一种文本匹配装置,包括:
[0012]实时编码模块,用于将待匹配文本输入离散编码模型进行二值化离散编码,得到二值化离散编码结果;
[0013]预编码模块,用于确定匹配对象文本对应的二值化离散预编码结果,所述二值化离散预编码结果是根据所述离散编码模型对所述匹配对象文本进行编码后得到;
[0014]获取模块,用于获取所述二值化离散编码结果与所述二值化离散预编码结果的维度离散对比结果,其中,所述维度离散对比结果描述所述二值化离散编码结果与所述二值化离散预编码结果在对应维度编码表示的差异;
[0015]确定模块,用于根据所述维度离散对比结果,从所述匹配对象文本中确定与所述待匹配文本匹配的目标匹配对象文本;
[0016]其中,所述离散编码模型是根据样本文本的样本二值化离散编码结果以及不同所述样本文本之间的偏序关系进行训练后得到,所述样本二值化离散编码结果根据对所述样本文本的文本编码结果进行二值化离散后得到,所述文本编码结果根据对所述样本文本进行文本编码得到。
[0017]其中,在本申请的一些实施例中,离散编码模型包括文本编码模块和哈希编码模块,实时编码模块包括:
[0018]文本编码单元,用于将所述待匹配文本输入所述文本编码模块进行文本编码,得到文本编码结果;
[0019]哈希编码单元,用于将所述文本编码结果输入所述哈希编码模块进行哈希编码,得到二值化离散编码结果。
[0020]其中,在本申请的一些实施例中,哈希编码模块包括二值化层和编码逻辑层,哈希编码单元包括:
[0021]离散处理子单元,用于将所述文本编码结果输入所述二值化层进行二值化离散处理,得到二值化离散参考编码结果;
[0022]逻辑组合子单元,用于将所述二值化离散参考编码结果输入所述编码逻辑层进行逻辑组合,得到二值化离散编码结果。
[0023]其中,在本申请的一些实施例中,哈希编码模块包括全连接层和哈希映射层,哈希编码单元包括:
[0024]编码重组子单元,用于将所述文本编码结果输入所述全连接层进行隐式特征重组,得到重组编码结果;
[0025]编码映射子单元,用于将所述重组编码结果输入所述哈希映射层进行二值化编码映射,得到二值化离散编码结果。
[0026]其中,在本申请的一些实施例中,文本编码单元包括:
[0027]文本编码子单元,用于将所述待匹配文本输入所述文本编码模块进行文本编码,得到文本原始编码结果;
[0028]确定子单元,用于确定所述待匹配文本所包含的实体以及所述实体的实体类型;
[0029]获取子单元,用于获取所述实体类型所对应的实体类型编码结果;
[0030]融合子单元,用于将所述实体类型编码结果融入到所述文本原始编码结果,得到文本编码结果。
[0031]其中,在本申请的一些实施例中,获取模块包括:
[0032]计算单元,用于计算所述二值化离散编码结果和所述二值化离散预编码结果在各个维度的二值化离散值的差值,得到维度离散差值;
[0033]第一确定单元,用于根据各个维度的维度离散差值,确定所述二值化离散编码结果和所述二值化离散预编码结果的维度离散对比结果。
[0034]其中,在本申请的一些实施例中,确定模块包括:
[0035]第二确定单元,用于将所述维度离散差值均大于或者等于零的维度离散对比结果作为目标维度离散对比结果;
[0036]第三确定单元,用于将所述目标维度离散对比结果对应的二值化离散预编码结果作为目标二值化离散预编码结果;
[0037]第四确定单元,用于将所述目标二值化离散预编码结果对应的匹配对象文本作为目标匹配对象文本。
[0038]其中,在本申请的一些实施例中,该装置还包括训练模块,训练模块包括:
[0039]获取单元,用于获取原始离散编码模型和样本节点集合,所述样本节点集合包括至少两个存在上下位关系的样本节点,每个样本节点对应至少两个同义的样本文本;
[0040]选取单元,用于从所述样本节点集合对应的样本文本中选取样本待匹配文本、所述样本待匹配文本对应的正样本文本以及所述样本待匹配文本对应的负样本文本;
[0041]偏序关系确定单元,用于根据所述样本节点的上下位关系确定所述样本待匹配文本、所述正样本文本和所述负样本文本之间的偏序关系;
[0042]编码单元,用于通过所述原始离散编码模型,得到所述样本待匹配文本对应的样本二值化离散编码结果、所述正样本文本对应的正样本二值化离散编码结果,以及所述负样本文本对应的负样本二值化离散编码结果;
[0043]训练单元,用于根据所述样本二值化离散编码结果、所述正样本二值化离散编码结果、所述负样本二值化离散编码结果以及所述偏序关系对所述原始离散编码模型进行训练,得到离散编码模型。
[0044]其中,在本申请的一些实施例中,训练单元包括:
[0045]偏序损失确定子单元,用于根据所述样本二值化离散编码结果与所述正样本二值化离散编码结果的维度离散对比结果,以及所述样本二值化离散编码结果与所述负样本二值化离散编码结果的维度离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:将待匹配文本输入离散编码模型进行二值化离散编码,得到二值化离散编码结果;确定匹配对象文本对应的二值化离散预编码结果,所述二值化离散预编码结果是根据所述离散编码模型对所述匹配对象文本进行编码后得到;获取所述二值化离散编码结果与所述二值化离散预编码结果的维度离散对比结果,其中,所述维度离散对比结果描述所述二值化离散编码结果与所述二值化离散预编码结果在对应维度编码表示的差异;根据所述维度离散对比结果,从所述匹配对象文本中确定与所述待匹配文本匹配的目标匹配对象文本;其中,所述离散编码模型是根据样本文本的样本二值化离散编码结果以及不同所述样本文本之间的偏序关系进行训练后得到,所述样本二值化离散编码结果根据对所述样本文本的文本编码结果进行二值化离散后得到,所述文本编码结果根据对所述样本文本进行文本编码得到。2.根据权利要求1所述的方法,其特征在于,所述离散编码模型包括文本编码模块和哈希编码模块,所述将待匹配文本输入离散编码模型进行二值化离散编码,得到二值化离散编码结果,包括:将所述待匹配文本输入所述文本编码模块进行文本编码,得到文本编码结果;将所述文本编码结果输入所述哈希编码模块进行哈希编码,得到二值化离散编码结果。3.根据权利要求2所述的方法,其特征在于,所述哈希编码模块包括二值化层和编码逻辑层,所述将所述文本编码结果输入所述哈希编码模块进行哈希编码,得到二值化离散编码结果,包括:将所述文本编码结果输入所述二值化层进行二值化离散处理,得到二值化离散参考编码结果;将所述二值化离散参考编码结果输入所述编码逻辑层进行逻辑组合,得到二值化离散编码结果。4.根据权利要求2所述的方法,其特征在于,所述哈希编码模块包括全连接层和哈希映射层,所述将所述文本编码结果输入所述哈希编码模块进行哈希编码,得到二值化离散编码结果,包括:将所述文本编码结果输入所述全连接层进行隐式特征重组,得到重组编码结果;将所述重组编码结果输入所述哈希映射层进行二值化编码映射,得到二值化离散编码结果。5.根据权利要求2所述的方法,其特征在于,所述将所述待匹配文本输入所述文本编码模块进行文本编码,得到文本编码结果,包括:将所述待匹配文本输入所述文本编码模块进行文本编码,得到文本原始编码结果;确定所述待匹配文本所包含的实体以及所述实体的实体类型;获取所述实体类型所对应的实体类型编码结果;将所述实体类型编码结果融入到所述文本原始编码结果,得到文本编码结果。6.根据权利要求1所述的方法,其特征在于,所述获取所述二值化离散编码结果与所述
二值化离散预编码结果的维度离散对比结果,包括:计算所述二值化离散编码结果和所述二值化离散预编码结果在各个维度的二值化离散值的差值,得到维度离散差值;根据各个维度的维度离散差值,确定所述二值化离散编码结果和所述二值化离散预编码结果的维度离散对比结果。7.根据权利要求6所述的方法,其特征在于,所述根据所述维度离散对比结果,从所述匹配对象文本中确定与所述待匹配文本匹配的目标匹配对象文本,包括:将所述维度离散差值均大于或者等于零的维度离散对比结果作为目标维度离散对比结果;将所述目标维度离散对比结果对应的二值化离散预编码结果作为目标二值化离散预编码结果;将所述目标二值化离散预编码结果对应的匹配对象文本作为目标匹配对象文本。8.根据权利要求1所述的方法,其特征在于,所述将待匹配文本输入离散编码模型进行二值化离散编码,得到二值化离散编码结果之前,所述方法还包括:获取原始离散编码模型和样本节点集合,所述样本节点集合包括至少两个存在上下位关系的样本节点,每个样本节点对应至少两个同义的样本文本;从所述样本节点集合对应的样本文本中选取样本待匹配文本、所述样本待匹...

【专利技术属性】
技术研发人员:黄予赵瑞辉刘锦泰刘亚飞
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1