新意图确定方法、设备和存储介质技术

技术编号:37844539 阅读:10 留言:0更新日期:2023-06-14 22:27
本公开提供了一种新意图确定方法、设备和存储介质,涉及自然语言处理等人工智能技术领域。具体实现方案为:通过已有场景对查询语句集合之中的查询语句进行过滤,以生成候选集合,生成候选集合之中每个查询语句对应的文本表示向量;根据候选集合之中每个查询语句对应的文本表示向量,从候选集合的查询语句之中选择高频查询语句;根据高频查询语句生成用户的新意图。由此,通过对查询语句集合进行自动化处理,即可确定出用户的新意图,实现了新意图地自动化确定,无需人工参与,降低了挖掘新意图的成本。图的成本。图的成本。

【技术实现步骤摘要】
新意图确定方法、设备和存储介质


[0001]本公开涉及计算机
,具体涉及自然语言处理等人工智能
,尤其涉及新意图确定方法、设备和存储介质。

技术介绍

[0002]目前,在人机对话系统中,人机对话系统中通常是基于意图数据进行意图理解,意图数据很大程度上决定了人机交互理解的效果。因此,如何以较低的成本来确定出人机对话系统的新意图是人机对话系统中亟需解决的问题。

技术实现思路

[0003]本公开提供了一种用于新意图确定方法、设备和存储介质。
[0004]根据本公开的一方面,提供了一种新意图确定方法,包括:获取查询语句集合;根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合;生成所述候选集合之中每个查询语句对应的文本表示向量;根据所述候选集合之中每个所述查询语句对应的文本表示向量,从所述候选集合的查询语句之中选择高频查询语句;根据所述高频查询语句生成用户的新意图。根据本公开的另一方面,提供了一种新意图确定装置,包括:获取模块,用于获取查询语句集合;第一过滤模块,用于根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合;第一生成模块,用于生成所述候选集合之中每个查询语句对应的文本表示向量;选择模块,用于根据所述候选集合之中每个所述查询语句对应的文本表示向量,从所述候选集合的查询语句之中选择高频查询语句;第二生成模块,根据所述高频查询语句生成用户的新意图。
[0005]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例公开的新意图确定方法。
[0006]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的新意图确定方法。
[0007]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本公开实施例公开的新意图确定方法。
[0008]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0009]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0010]图1是根据本公开第一实施例的示意图;
[0011]图2是根据本公开第二实施例的示意图;
[0012]图3是根据本公开第三实施例的示意图;
[0013]图4是根据本公开第四实施例的示意图;
[0014]图5是根据本公开第五实施例的示意图;
[0015]图6是根据本公开一个实施例的新意图确定方法的示例图;
[0016]图7是根据本公开第六实施例的示意图;
[0017]图8是根据本公开第七实施例的示意图;
[0018]图9是用来实现本公开实施例的新意图确定方法的电子设备的框图。
具体实施方式
[0019]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0020]下面参考附图描述本公开实施例的新意图确定方法、设备和存储介质。
[0021]图1是根据本公开第一实施例的示意图。
[0022]如图1所示,该新意图确定方法可以包括:
[0023]步骤101,获取查询语句集合。
[0024]其中,需要说明的是,上述新意图确定方法的执行主体为新意图确定装置,该新意图确定装置可以由软件和/或硬件的方式实现,该实施例中的新意图确定装置可以为电子设备,或者,可以配置在电子设备中。
[0025]其中,本示例实施例中电子设备可以包括但不限于终端设备和服务器等设备,该实施例对电子设备不作限定。
[0026]在一些示例性的实施方式中,可从人机对话系统的历史交互日志之中,获取多个查询语句,并基于多个查询语句生成查询语句集合。
[0027]步骤102,根据已有场景对查询语句集合之中的查询语句进行过滤,以生成候选集合。
[0028]在一些示例性的实施方式中,针对查询句集合中的每个查询语句,可基于已有场景对应的意图识别模型对该查询语句进行意图识别,如果存在与该查询语句对应的历史意图标签,则将该查询语句删除,对应地,如果不存在该查询语句对应的历史意图标签,则将该查询语句保存至候选集合中。
[0029]其中,本示例中的意图识别模型是基于已有场景的样本查询语句以及对应的意图标签训练出的。
[0030]其中,关于训练意图识别模型的过程可参见相关技术中的描述,此处不再赘述。
[0031]其中,关于根据已有场景对查询语句集合之中的查询语句进行过滤,以生成候选集合的其他实现方式,可参见其他实施例的相关描述。
[0032]步骤103,生成候选集合之中每个查询语句对应的文本表示向量。
[0033]在一些示例性的实施方式中,在不同应用场景中,生成候选集合之中每个查询语句对应的文本表示向量的方式不同,例如,可通过文本表示向量生成模型对候选集合中每个查询语句进行处理,以得到各个查询语句对应的文本表示向量。
[0034]步骤104,根据候选集合之中每个查询语句对应的文本表示向量,从候选集合的查询语句之中选择高频查询语句。
[0035]在一些示例性的实施方式中,可根据候选集合之中每个查询语句对应的文本表示向量,确定出每个查询语句的被召回次数,并根据被召回次数,从候选集合中的查询语句之中选择高频查询语句。由此,基于候选集合中每个查询语句的被召回次数,准确从候选集合中选择出了高频查询语句。
[0036]其中,高频查询语句是指在人机交互对话系统中出现频次较高的查询语句。
[0037]在一些示例性的实施方式中,根据被召回次数,从候选集合中的查询语句之中选择高频查询语句的实现方式有多种,示例说明如下:
[0038]作为一种示例,可根据被召回次数从大到小的顺序,对候选集合中各个查询语句进行排序,以得到排序结果,并从排序结果中获取排序在前K位的查询语句,并将排序在前K位的查询语句作为高频查询语句。其中,K为正整数。由此,结合各个查询语句对应的被召回此时,准确确定出了候选集合中的高频查询语句。
[0039]其中,上述K的取值可以是在新意图确定装置中预先设置的。作为一种示例,可根据预先设置的高频过滤比例r和查询语句集合中查询语句的总数预先确定出K的取值,并根据所确定出的K的取值在新意图确定装置来设置该K的取值。例如,预先设置的高频过滤比例r为0.75,查询语句集合中查询语句的总数为M本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新意图确定方法,其特征在于,包括:获取查询语句集合;根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合;生成所述候选集合之中每个查询语句对应的文本表示向量;根据所述候选集合之中每个所述查询语句对应的文本表示向量,从所述候选集合的查询语句之中选择高频查询语句;根据所述高频查询语句生成用户的新意图。2.如权利要求1所述的方法,其特征在于,所述根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合,包括:获取已有场景的样本查询语句集合;将所述查询语句集合之中查询语句与所述已有场景的样本查询语句集合之中的样本查询语句进行相似性匹配,以获取所述查询语句集合之中查询语句匹配的样本查询语句;根据语义模型生成所述查询语句与匹配的样本查询语句之间的相似度;如果所述相似度大于或者等于预设阈值,则将所述查询语句删除;如果所述相似度小于所述预设阈值,则将所述查询语句保存至所述候选集合。3.如权利要求2所述的方法,其特征在于,所述相似性匹配通过全文检索ES或通用语义检索进行。4.如权利要求1所述的方法,其特征在于,在所述根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合之后,还包括:对所述候选集合之中的查询语句进行无意义数据过滤。5.如权利要求4所述的方法,其特征在于,所述对所述候选集合之中的查询语句进行无意义数据过滤,包括:识别所述候选集合之中查询语句的非中文字符,并将所述非中文字符从所述查询语句之中去除,以得到去除后的查询语句;计算所述去除后的查询语句与通用无意义的查询语句之间的编辑距离;将所述编辑距离小于或等于预设编辑距离的查询语句删除。6.如权利要求1所述的方法,其特征在于,所述生成所述候选集合之中每个查询语句对应的文本表示向量,包括:针对所述候选集合中的第i个查询语句,生成所述候选集合之中所述第i个检索词对应的第一文本表示向量和第二文本表示向量,其中,所述第一文本表示向量和所述第二文本表示向量不同,其中,i为大于或者等于1,并且小于N的整数,其中,所述N为所述候选集合中查询语句的总数;从所述已有场景的样本查询语句集合中随机获取n个与所述第i个查询语句不相似的目标查询语句;生成n个所述目标查询语句各自对应的第三文本表示向量;根据所述第一文本表示向量、所述第二文本表示向量和所述第三文本表示向量,确定所述第i个查询语句和n个所述目标查询语句之间的对比损失函数的损失值;根据所述损失值确定所述候选集合之中所述第i个查询语句对应的文本表示向量。7.如权利要求6所述的方法,其特征在于,所述对比损失函数为:
第二文本表示向量,为所述第一文本表示向量和所述第二文本表示向量之间的距离,为所述候选集合之中第i个查询语句的与n个所述目标查询语句之间的距离。8.如权利要求6所述的方法,其特征在于,所述根据所述损失值确定所述候选集合之中所述第i个查询语句对应的文本表示向量,包括:通过反向梯度减少所述损失值,并获取使得所述损失值满足预设条件时所述第i个查询语句所对应的第四文本表示向量;将所述第四文本表示向量作为所述第i个查询语句对应的文本表示向量。9.如权利要求1所述的方法,其特征在于,所述根据所述候选集合之中每个所述查询语句对应的文本表示向量,从所述候选集合的查询语句之中选择高频问题,包括:根据所述查询语句对应的文本表示向量,依次对所述候选集合之中的查询语句进行相似性召回,并计算所述候选集合之中每个查询语句的被召回次数;按照所述被召回次数从所述候选集合的查询语句之中选择高频查询语句。10.如权利要求9所述的方法,其特征在于,所述根据所述高频查询语句生成用户的新意图,包括:对所述高频查询语句进行聚类,以生成多个高频查询语句簇;获取所述高频查询语句簇之中被召回次数最多的查询语句,并将所述被召回次数最多的查询语句作为所述新意图。11.一种新意图确定装置,其特征在于,包括:获取模块,用于获取查询语句集合;第一过滤模块,用于根据已有场景对所述查询语句集合之中的查询语句进行过滤,以生成候选集合;第一生成模块,用于生成所述候选集合之中每个查询语句对应的文本表示向量;选择模块,用于根据所述候选集合之中每个所述查询语句对应的文本表示向量,...

【专利技术属性】
技术研发人员:任伟杰焦振宇常月孙叔琦
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1