对话机器人意图语料生成方法、装置、介质及电子设备制造方法及图纸

技术编号:25041966 阅读:30 留言:0更新日期:2020-07-29 05:32
本公开涉及数据处理领域,揭示了一种对话机器人意图语料生成方法、装置、介质及电子设备。该方法包括:获取包括多个意图的意图集合;获取目标意图的目标相似句语料,作为目标相似句语料集合;确定目标相似句语料与相似句语料的相似度;基于相似度在意图集合中选择出候选相似句语料,以构建候选相似句语料集合;基于候选相似句语料集合中各候选相似句语料与目标相似句语料集合中目标相似句语料的相似度,在候选相似句语料集合的候选相似句语料中确定出属于目标意图的目标相似句语料。此方法下,实现了意图语料的自动扩充,提高了意图语料的数量,可以使各意图的语料数量更为均衡,进而提高了意图识别的准确率,还降低了扩展意图语料所需的成本。

【技术实现步骤摘要】
对话机器人意图语料生成方法、装置、介质及电子设备
本公开涉及数据处理
,特别涉及一种对话机器人意图语料生成方法、装置、介质及电子设备。
技术介绍
目前对话机器人,特别是任务型对话机器人普遍依赖意图识别算法进行意图识别,对话机器人一般根据识别后的意图执行相应的动作,如话术回复,信息查询等。然而,对话机器人在进行对话时,若要保证对话质量,需要对每个意图下的相似句数量和质量都有很高的要求。不同对话机器人能够执行不同任务的对话,经常存在有些对话机器人积累的低频问题的意图语料较少、各意图语料间数量不均衡等问题,从而降低了意图识别的准确率,此外,如果安排标注人员进行标注,还会浪费大量的人工成本。
技术实现思路
在数据处理
,为了解决上述技术问题,本公开的目的在于提供一种对话机器人意图语料生成方法、装置、介质及电子设备。根据本公开的一方面,提供了一种对话机器人意图语料生成方法,所述方法包括:获取包括多个意图的意图集合,其中,每一意图包括多个相似句语料,每一意图对应一个对话机器人,每一对话机器人具有至少一个意图;获取目标本文档来自技高网...

【技术保护点】
1.一种对话机器人意图语料生成方法,其特征在于,所述方法包括:/n获取包括多个意图的意图集合,其中,每一意图包括多个相似句语料,每一意图对应一个对话机器人,每一对话机器人具有至少一个意图;/n获取目标意图所包括的目标相似句语料,作为目标相似句语料集合;/n确定所述目标相似句语料与所述相似句语料的相似度;/n基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合;/n基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料。/n

【技术特征摘要】
1.一种对话机器人意图语料生成方法,其特征在于,所述方法包括:
获取包括多个意图的意图集合,其中,每一意图包括多个相似句语料,每一意图对应一个对话机器人,每一对话机器人具有至少一个意图;
获取目标意图所包括的目标相似句语料,作为目标相似句语料集合;
确定所述目标相似句语料与所述相似句语料的相似度;
基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合;
基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料。


2.根据权利要求1所述的方法,其特征在于,所述意图集合为意图子集合,所述获取包括多个意图的意图集合,包括:
基于第一预定规则从包括多个意图的意图总集合中选择出多个意图组成意图子集合,其中,每一意图包括多个相似句语料,所述意图总集合中的每一意图对应一个对话机器人;
所述获取目标意图所包括的目标相似句语料,作为目标相似句语料集合,包括:
基于第二预定规则在所述意图子集合中意图对应的对话机器人之外的其他所有对话机器人对应的意图中选择出目标意图;
获取目标意图包括的相似句语料作为目标相似句语料,得到目标相似句语料集合。


3.根据权利要求1或2所述的方法,其特征在于,所述目标相似句语料和所述相似句语料分别由多个词元素组成,所述确定所述目标相似句语料与所述相似句语料的相似度,包括:
利用如下公式确定所述目标相似句语料与所述相似句语料的相似度:



其中,s1代表所述目标相似句语料,s2代表所述相似句语料,Len用于求取集合内词元素的个数,fscore(s1,s2)为所述目标相似句语料与所述相似句语料的相似度。


4.根据权利要求1或2所述的方法,其特征在于,所述基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合,包括:
针对所述意图集合中每一意图,若该意图包括的相似句语料中存在一个相似句语料与所述目标相似句语料的相似度大于预定相似度阈值,则获取该意图包括的所有相似句语料作为候选相似句语料;
利用获取的所有候选相似句语料构建候选相似句语料集合。


5.根据权利要求1或2所述的方法,其特征在于,所述基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料,包括:
基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,利用如下公式计算所述候选相似句语料集合中各候选相似句语料的得分,并基于所述得分在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料:



其中,si和sj代表所述目标相似句语料,sk代表所述候选相似句语料,Len用于求取集合内词元素的个数,fscore(s1,s2)为所述目标相似句语料与所述候选相似句语料的相似度,C为所述候选相似句语料集合,O为所述目标相似句语料集合,n为所述候选相似句语料集合中所述候选相似句语料的数目,m为所述目标相似句语料集合中所述目标相似句语料的数目,α为权重因子,selectSen为所述候选相似句语料集合中候选相似句语料的得分。


6.根据权利要求5所述的方法,其特征在于,所述基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,利用如下公式计算所述候选相似...

【专利技术属性】
技术研发人员:陈亮李治根杨坤许开河周琳王少军王嘉雯
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1