【技术实现步骤摘要】
可解释的文本语义匹配方法、装置、电子设备及存储介质
[0001]本申请涉及人工智能
,具体涉及一种可解释的文本语义匹配方法、装置、电子设备及存储介质。
技术介绍
[0002]目前的语义匹配方法,一般上是分为三种实现范式:第一种是基于字符串的方法,只计算字符串的匹配程度,不考虑语义信息,通过计算句子之间的海明距离来判断文本是否相似;第二种是基于语料库的方法,将输入的句子进行分词,然后计算句子中每个词与其他句子的相似度,最后进行加权求和;第三种是基于深度学习的方法,可以将语义匹配问题直接视为一个二分类问题,类别可以分为“匹配”和“不匹配”,然后在预训练模型下进行微调,最后得到结果。
[0003]但是对长文本(即文本的字符数大于阈值)的语义匹配而言,基于现有的语义匹配方法,如深度学习算法,虽然最终的匹配结果可以判断两个长文本相似或者不相似,但是不能解释为什么这两个长文本相似或者不相似,使得用户对匹配结果不理解。因此,在长文本的语义匹配上如何增加用户对匹配结果的理解,进而提升用户的体验感是亟待解决的问题。
专利 ...
【技术保护点】
【技术特征摘要】
1.一种可解释的文本语义匹配方法,其特征在于,所述方法包括:获取待识别文本,其中,所述待识别文本的字符数大于阈值;对所述待识别文本进行特征提取,得到多个第一候选文本片段和多个第一句子;对文本数据库中的第一候选文本进行特征提取,得到多个第二候选文本片段和多个第二句子,其中,所述第一候选文本为所述文本数据库中多个候选文本中的任意一个;对每个第一候选文本片段进行关键词分析,得到多个第一目标文本片段;对每个第二候选文本片段进行关键词分析,得到多个第二目标文本片段;根据每个第一目标文本片段和每个第二目标文本片段,得到每个第一目标文本片段对应的多个第一相似度;根据每个第一目标文本片段对应的多个第一相似度、所述多个第一句子和所述多个第二句子,从所述多个候选文本中确定出目标文本;将每个第一目标文本片段和所述目标文本中与每个第一目标文本片段所关联的第二目标文本片段确定为解释信息,其中,与每个第一目标文本片段所关联的第二目标文本片段为该第一目标文本片段对应的多个第一相似度中最大的第一相似度所对应的第二目标文本片段,所述解释信息用于解释所述待识别文本和所述目标文本相似的原因。2.根据权利要求1所述的方法,其特征在于,所述根据每个第一目标文本片段对应的多个第一相似度、所述多个第一句子和所述多个第二句子,从所述多个候选文本中确定出目标文本,包括:将所述多个第一句子中包括任意一个第一目标文本片段的第一句子组成为第一文本;将所述多个第二句子中包括任意一个第二目标文本片段的第二句子组成为第二文本;根据所述第一文本和所述第二文本,得到所述待识别文本和所述第一候选文本之间的第二相似度;根据每个第一目标文本片段对应的多个第一相似度和所述待识别文本和所述第一候选文本之间的第二相似度,从所述多个候选文本中确定出所述目标文本。3.根据权利要求1或2所述的方法,其特征在于,所述可解释的文本语义匹配是通过多任务模型执行的,所述多任务模型包括特征提取网络、第一子任务网络、第二子任务网络和第三子任务网络,所述方法还包括:获取第一训练文本和标准文本;将所述第一训练文本输入所述特征提取网络,得到多个第三候选文本片段和多个第三句子;将所述标准文本输入所述特征提取网络,得到多个第四候选文本片段和多个第四句子;基于所述多个第三候选文本片段、所述多个第四候选文本片段、所述多个第三句子和所述多个第四句子,得到与所述第一子任务网络对应的第一损失、与所述第二子任务网络对应的第二损失以及与所述第三子任务网络对应的第三损失;基于所述第一损失、所述第二损失以及所述第三损失,得到目标损失;基于所述目标损失对初始多任务模型进行迭代训练,得到所述多任务模型。4.根据权利要求3所述的方法,其特征在于,所述基于所述多个第三候选文本片段、所述多个第四候选文本片段、所述多个第三句子和所述多个第四句子,得到与所述第一子任
务网络对应的第一损失、与所述第二子任务网络对应的第二损失以及与所述第三子任务网络对应的第三损失,包括:将所述多个第三候选文本片段和所述多个第四候选文本片段输入所述第一子任务网络,分别得到每个第三候选文本片段的第一预测值和每个第四候选文本片段的第二预测值;基于每个第三候选文本片段的第一预测值和每个第四候选文本片段的第二预测值,得到所述第一损失;根据每个第一候选文本片段的第一预测值、每个第二候选文本片段的第二预测值、所述多个第三句子和所述多个第四句子,得到所述第二损失和所述第三损失。5.根据权利要求4所述的方法,其特征在于,所述基于每个第一候选文本片段的第一预测值和每个第二候选文本片段的第二预测值,得到所述第一损失,包括:基于每个第三候选文本片段的第一预测值和每个第三候选文本片段预先标注的第一标签,得到第一候选损失;基于每个第四候选文本片段的第二预测值和每个第四候选文本片段预先标注的...
【专利技术属性】
技术研发人员:周倚文,张云云,何剑涛,魏志辉,张文锋,王福海,
申请(专利权)人:招联消费金融有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。