【技术实现步骤摘要】
新意图确定方法、设备和存储介质
[0001]本公开涉及计算机
,具体涉及自然语言处理等人工智能
,尤其涉及新意图确定方法、设备和存储介质。
技术介绍
[0002]目前,在人机对话系统中,人机对话系统中通常是基于意图数据进行意图理解,意图数据很大程度上决定了人机交互理解的效果。因此,如何以较低的成本来确定出人机对话系统的新意图是人机对话系统中亟需解决的问题。
技术实现思路
[0003]本公开提供了一种用于新意图确定方法、设备和存储介质。
[0004]根据本公开的一方面,提供了一种新意图确定方法,包括:获取查询语句集合;根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合;生成所述候选集合之中每个查询语句对应的文本表示向量;根据所述候选集合之中每个所述查询语句对应的文本表示向量,从所述候选集合的查询语句之中选择高频查询语句;根据所述高频查询语句生成用户的新意图。根据本公开的另一方面,提供了一种新意图确定装置,包括:获取模块,用于获取查询语句集合;第一过滤模块,用于根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合;第一生成模块,用于生成所述候选集合之中每个查询语句对应的文本表示向量;选择模块,用于根据所述候选集合之中每个所述查询语句对应的文本表示向量,从所述候选集合的查询语句之中选择高频查询语句;第二生成模块,根据所述高频查询语句生成用户的新意图。
[0005]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处 ...
【技术保护点】
【技术特征摘要】
1.一种新意图确定方法,其特征在于,包括:获取查询语句集合;根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合;生成所述候选集合之中每个查询语句对应的文本表示向量;根据所述候选集合之中每个所述查询语句对应的文本表示向量,从所述候选集合的查询语句之中选择高频查询语句;根据所述高频查询语句生成用户的新意图。2.如权利要求1所述的方法,其特征在于,所述根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合,包括:获取已有场景的样本查询语句集合;将所述查询语句集合之中查询语句与所述已有场景的样本查询语句集合之中的样本查询语句进行相似性匹配,以获取所述查询语句集合之中查询语句匹配的样本查询语句;根据语义模型生成所述查询语句与匹配的样本查询语句之间的相似度;如果所述相似度大于或者等于预设阈值,则将所述查询语句删除;如果所述相似度小于所述预设阈值,则将所述查询语句保存至所述候选集合。3.如权利要求2所述的方法,其特征在于,所述相似性匹配通过全文检索ES或通用语义检索进行。4.如权利要求1所述的方法,其特征在于,在所述根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合之后,还包括:对所述候选集合之中的查询语句进行无意义数据过滤。5.如权利要求4所述的方法,其特征在于,所述对所述候选集合之中的查询语句进行无意义数据过滤,包括:识别所述候选集合之中查询语句的非中文字符,并将所述非中文字符从所述查询语句之中去除,以得到去除后的查询语句;计算所述去除后的查询语句与通用无意义的查询语句之间的编辑距离;将所述编辑距离小于或等于预设编辑距离的查询语句删除。6.如权利要求1所述的方法,其特征在于,所述生成所述候选集合之中每个查询语句对应的文本表示向量,包括:针对所述候选集合中的第i个查询语句,生成所述候选集合之中所述第i个检索词对应的第一文本表示向量和第二文本表示向量,其中,所述第一文本表示向量和所述第二文本表示向量不同,其中,i为大于或者等于1,并且小于N的整数,其中,所述N为所述候选集合中查询语句的总数;从所述已有场景的样本查询语句集合中随机获取n个与所述第i个查询语句不相似的目标查询语句;生成n个所述目标查询语句各自对应的第三文本表示向量;根据所述第一文本表示向量、所述第二文本表示向量和所述第三文本表示向量,确定所述第i个查询语句和n个所述目标查询语句之间的对比损失函数的损失值;根据所述损失值确定所述候选集合之中所述第i个查询语句对应的文本表示向量。7.如权利要求6所述的方法,其特征在于,所述对比损失函数为:
第二文本表示向量,为所述第一文本表示向量和所述第二文本表示向量之间的距离,为所述候选集合之中第i个查询语句的与n个所述目标查询语句之间的距离。8.如权利要求6所述的方法,其特征在于,所述根据所述损失值确定所述候选集合之中所述第i个查询语句对应的文本表示向量,包括:通过反向梯度减少所述损失值,并获取使得所述损失值满足预设条件时所述第i个查询语句所对应的第四文本表示向量;将所述第四文本表示向量作为所述第i个查询语句对应的文本表示向量。9.如权利要求1所述的方法,其特征在于,所述根据所述候选集合之中每个所述查询语句对应的文本表示向量,从所述候选集合的查询语句之中选择高频问题,包括:根据所述查询语句对应的文本表示向量,依次对所述候选集合之中的查询语句进行相似性召回,并计算所述候选集合之中每个查询语句的被召回次数;按照所述被召回次数从所述候选集合的查询语句之中选择高频查询语句。10.如权利要求9所述的方法,其特征在于,所述根据所述高频查询语句生成用户的新意图,包括:对所述高频查询语句进行聚类,以生成多个高频查询语句簇;获取所述高频查询语句簇之中被召回次数最多的查询语句,并将所述被召回次数最多的查询语句作为所述新意图。11.一种新意图确定装置,其特征在于,包括:获取模块,用于获取查询语句集合;第一过滤模块,用于根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合;第一生成模块,用于生成所述候选集合之中每个查询语句对应的文本表示向量;选择模块,用于根据所述候选集合之中每个所述查询语句对应的文本表示向量,...
【专利技术属性】
技术研发人员:任伟杰,焦振宇,常月,孙叔琦,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。