样本语句处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32514003 阅读:17 留言:0更新日期:2022-03-02 11:04
本申请涉及一种样本语句处理方法、装置、计算机设备和存储介质。所述方法包括:获取意图标记错误的目标语句;将标记有错误意图标签的目标语句输入至已训练的相似样本检测模型;基于相似样本检测模型,将标记有错误意图标签的目标语句与标记有意图标签的各原始样本语句进行相似度比对,以从样本语句库中检测出与目标语句相似的错误标记样本语句;基于错误标记样本语句对样本语句库进行样本语句修正处理,以更新样本语句库;更新后的样本语句库,用于训练意图分类模型;意图分类模型用于在机器人对话场景中识别用户输入语句的意图,并指示聊天机器人基于识别的意图进行应答。采用本方法能够提高样本语句库的更新效率。法能够提高样本语句库的更新效率。法能够提高样本语句库的更新效率。

【技术实现步骤摘要】
样本语句处理方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种样本语句处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着人工智能技术的发展,出现了聊天机器人技术,聊天机器人可用于客户服务,能够撷取用户在会话页面输入的关键字,再从样本库中找寻最合适的应答句。使用聊天机器人不仅可以提高服务质量,同时还能降低服务成本。
[0003]显然,对于聊天机器人的应用,最重要就是样本库的准确性。一些情况下,样本库中会存在混淆样本。传统方法主要依赖人力,由人工手动从样本库中删除混淆样本过于耗时费力,导致样本库更新效率不高。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种提高样本库更新效率的样本语句处理方法、装置、计算机设备和存储介质。
[0005]第一方面,本申请提供了一种样本语句处理方法。所述方法包括:
[0006]获取意图标记错误的目标语句;
[0007]将标记有错误意图标签的所述目标语句输入至已训练的相似样本检测模型;所述相似样本检测模型,是基于样本语句库中标记有意图标签的原始样本语句的集合训练的;
[0008]基于所述相似样本检测模型,将标记有错误意图标签的所述目标语句与标记有意图标签的各所述原始样本语句进行相似度比对,以从所述样本语句库中检测出与所述目标语句相似的错误标记样本语句;
[0009]基于所述错误标记样本语句对所述样本语句库进行样本语句修正处理,以更新所述样本语句库;更新后的样本语句库,用于训练意图分类模型;所述意图分类模型用于在机器人对话场景中识别用户输入语句的意图,并指示聊天机器人基于识别的意图进行应答。
[0010]在其中一个实施例中,所述方法还包括相似样本检测模型的训练步骤;所述相似样本检测模型的训练步骤包括:
[0011]从所述原始样本语句的集合中选取基础样本语句;
[0012]从所述原始样本语句的集合中,获取与所述基础样本语句之间满足预设相似条件的原始样本语句,作为所述基础样本语句对应的相似样本语句;
[0013]从每个基础样本语句对应的相似样本语句中,筛选与所述基础样本语句的意图标签相同的相似样本语句,并将所述基础样本语句和筛选的相似样本语句作为相似样本对;
[0014]根据所述相似样本对,训练所述相似样本检测模型。
[0015]在其中一个实施例中,所述基于所述错误标记样本语句对所述样本语句库进行样本语句修正处理,以更新所述样本语句库包括:
[0016]若检测到针对所述错误标记样本语句的修订操作,则触发修订所述样本语句库中
所述错误标记样本语句的意图标签;
[0017]若检测到针对所述错误标记样本语句的删除操作,则触发从所述样本语句库中删除所述错误标记样本语句。
[0018]在其中一个实施例中,在所述若检测到针对所述错误标记样本语句的修订操作,则触发修订所述样本语句库中所述错误标记样本语句的意图标签之后,还包括:
[0019]从聊天机器人与用户的历史会话记录中,识别与所述目标语句相似的历史语句;
[0020]针对所述历史语句,添加所述错误标记样本语句对应的修订后的意图标签;
[0021]将添加所述修订后的意图标签后的历史语句作为样本语句添加至所述样本语句库中。
[0022]在其中一个实施例中,所述目标语句是在聊天机器人与用户的历史会话中产生的用户输入语句;
[0023]所述方法还包括:
[0024]确定所述目标语句在所属目标历史会话中对应的第一上下文语句;
[0025]从非目标的历史会话的会话记录中,识别与所述第一上下文语句相似的第二上下文语句;
[0026]从所述非目标的历史会话的会话记录中,确定位于所述第二上下文语句之间的、且标记有正确意图标签的参照语句;
[0027]若所述参照语句与所述目标语句之间满足预设相似条件,则将所述参照语句的正确意图标签添加至所述目标语句,并将添加有所述正确意图标签的目标语句添加至所述样本语句库中。
[0028]在其中一个实施例中,所述基于所述相似样本检测模型,将标记有错误意图标签的所述目标语句与标记有意图标签的各所述原始样本语句进行相似度比对,以从所述样本语句库中检测出与所述目标语句相似的错误标记样本语句包括:
[0029]将针对各所述原始样本语句分别标记的意图标签与针对所述目标语句所标记的所述错误意图标签进行比对;
[0030]将与所述错误意图标签相同的意图标签所对应的原始样本语句,作为目标原始样本语句;
[0031]基于所述相似样本检测模型,将所述目标语句与各所述目标原始样本语句进行相似度比对,以从所述样本语句库中检测出与所述目标语句相似的错误标记样本语句。
[0032]第二方面,本申请还提供了一种样本语句处理装置。所述装置包括:
[0033]获取模块,用于获取意图标记错误的目标语句;
[0034]检测模块,用于将标记有错误意图标签的所述目标语句输入至已训练的相似样本检测模型;所述相似样本检测模型,是基于样本语句库中标记有意图标签的原始样本语句的集合训练的;基于所述相似样本检测模型,将标记有错误意图标签的所述目标语句与标记有意图标签的各所述原始样本语句进行相似度比对,以从所述样本语句库中检测出与所述目标语句相似的错误标记样本语句;
[0035]修正模块,用于基于所述错误标记样本语句对所述样本语句库进行样本语句修正处理,以更新所述样本语句库;更新后的样本语句库,用于训练意图分类模型;所述意图分类模型用于在机器人对话场景中识别用户输入语句的意图,并指示机器人基于识别的意图
进行应答。
[0036]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请各实施例所述方法中的步骤。
[0037]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述方法中的步骤。
[0038]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述方法中的步骤。
[0039]上述样本语句处理方法、装置、计算机设备和存储介质,获取意图标记错误的目标语句;将标记有错误意图标签的目标语句输入至已训练的相似样本检测模型;基于相似样本检测模型,将标记有错误意图标签的目标语句与标记有意图标签的各原始样本语句进行相似度比对,以从样本语句库中检测出与目标语句相似的错误标记样本语句,相较于通过人工检测可能出现错误的样本语句,能够提高效率。基于错误标记样本语句对样本语句库进行样本语句修正处理,以更新样本语句库,能够基于错误标记样本语句对样本语句库进行快速更新修正本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本语句处理方法,其特征在于,所述方法包括:获取意图标记错误的目标语句;将标记有错误意图标签的所述目标语句输入至已训练的相似样本检测模型;所述相似样本检测模型,是基于样本语句库中标记有意图标签的原始样本语句的集合训练的;基于所述相似样本检测模型,将标记有错误意图标签的所述目标语句与标记有意图标签的各所述原始样本语句进行相似度比对,以从所述样本语句库中检测出与所述目标语句相似的错误标记样本语句;基于所述错误标记样本语句对所述样本语句库进行样本语句修正处理,以更新所述样本语句库;更新后的样本语句库,用于训练意图分类模型;所述意图分类模型用于在机器人对话场景中识别用户输入语句的意图,并指示聊天机器人基于识别的意图进行应答。2.根据权利要求1所述的方法,其特征在于,所述方法还包括相似样本检测模型的训练步骤;所述相似样本检测模型的训练步骤包括:从所述原始样本语句的集合中选取基础样本语句;从所述原始样本语句的集合中,获取与所述基础样本语句之间满足预设相似条件的原始样本语句,作为所述基础样本语句对应的相似样本语句;从每个基础样本语句对应的相似样本语句中,筛选与所述基础样本语句的意图标签相同的相似样本语句,并将所述基础样本语句和筛选的相似样本语句作为相似样本对;根据所述相似样本对,训练所述相似样本检测模型。3.根据权利要求1所述的方法,其特征在于,所述基于所述错误标记样本语句对所述样本语句库进行样本语句修正处理,以更新所述样本语句库包括:若检测到针对所述错误标记样本语句的修订操作,则触发修订所述样本语句库中所述错误标记样本语句的意图标签;若检测到针对所述错误标记样本语句的删除操作,则触发从所述样本语句库中删除所述错误标记样本语句。4.根据权利要求3所述的方法,其特征在于,在所述若检测到针对所述错误标记样本语句的修订操作,则触发修订所述样本语句库中所述错误标记样本语句的意图标签之后,还包括:从聊天机器人与用户的历史会话记录中,识别与所述目标语句相似的历史语句;针对所述历史语句,添加所述错误标记样本语句对应的修订后的意图标签;将添加所述修订后的意图标签后的历史语句作为样本语句添加至所述样本语句库中。5.根据权利要求1所述的方法,其特征在于,所述目标语句是在聊天机器人与用户的历史会话中产生的用户输入语句;所述方法还包括:确定所述目标语句在所属目标历史会话中对应的第一上下文语句;从...

【专利技术属性】
技术研发人员:林仁秋杜奇锋佘丽丽夏海兵李少华刘伟
申请(专利权)人:招联消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1