System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据查询方法、装置、设备及存储介质制造方法及图纸_技高网

一种数据查询方法、装置、设备及存储介质制造方法及图纸

技术编号:40587893 阅读:6 留言:0更新日期:2024-03-12 21:47
本申请涉及自然语言处理技术领域,尤其涉及一种数据查询方法、装置、设备及存储介质,包括:获取待识别的目标文本,并识别所述目标文本的意图类型,及提取所述目标文本包含的各槽位信息;将所述各槽位信息进行两两组合,获得至少一个槽位信息组;基于每个槽位信息组中的槽位信息之间是否存在预设语义关联关系,确定所述目标文本对应的槽位信息关系;基于所述意图类型、所述各槽位信息及所述槽位信息关系进行数据查询,获得所述目标文本对应的查询结果,本申请通过将意图类型、槽位信息以及槽位信息关系联合起来进行数据查询,可以得到更准确的结果。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种数据查询方法、装置、设备及存储介质


技术介绍

1、在进行数据库查询时,现有技术大都仅利用意图和槽位信息从数据库中查询目标内容并返回查询结果,因此现有算法一般仅进行意图和槽位信息的联合训练。而每个槽位类型对应的槽位信息有时不止一个,例如:对于目标文本“b市的国内生产总值(grossdomestic product,gdp)增速和人均收入是多少”,其中槽位类型【指标】对应的槽位信息为【gdp】及【人均收入】,当仅根据意图和槽位信息查询数据库时,会出现无法提取哪个槽位信息而提取到错误答案的情况。

2、另外,例如目标文本“a省b市的gdp增速和人均收入是多少”,对应的意图类型为问指标,目标文本中包括的意图类型为【问gdp增速和人均收入】,槽位信息【a省】和【b市】,当根据意图类型为【问gdp增速和人均收入】、槽位信息【a省】和【b市】从数据库中查询,且不确定槽位信息内容间的关系时,若不细化意图类型加以区分,可能会得到“b市的gdp增速和人均收入”对应的查询结果、“a省的gdp增速和人均收入”对应的查询结果、以及“a省和b市的gdp增速和人均收入”对应的查询结果,导致查询结果多余且不明确。


技术实现思路

1、本申请实施例提供了一种数据查询方法、装置及设备,以至少解决相关技术中,由于仅根据意图和槽位信息查询数据库时出现的提取答案错误、冗余的问题。

2、第一方面,本申请提供了一种数据查询方法,所述方法包括:

3、获取待识别的目标文本,并识别所述目标文本的意图类型,及提取所述目标文本包含的各槽位信息;

4、将所述各槽位信息进行两两组合,获得至少一个槽位信息组;

5、基于每个槽位信息组中的槽位信息之间是否存在预设语义关联关系,确定所述目标文本对应的槽位信息关系;

6、基于所述意图类型、所述各槽位信息及所述槽位信息关系进行数据查询,获得所述目标文本对应的查询结果;

7、其中,所述预设语义关联关系是基于已训练的语义理解模型确定的,所述语义理解模型是通过样本文本及所述样本文本对应的槽位信息关系,进行训练得到的。

8、在上述实施方式中,通过将提取的槽位信息进行两两组合,以便判断每两个槽位信息组之间是否存在预设语义关联关系,其中预设语义关联关系是基于已训练的语义理解模型确定的,所述语义理解模型是通过样本文本及所述样本文本对应的槽位信息关系,进行训练得到的。

9、现有技术中仅依据意图类型和槽位信息进行数据查询,例如目标文本1和目标文本2的意图类型及提取的槽位信息相同,若不对意图类型进行区分,则利用目标文本1和目标文本2会查询到相同的数据,而本申请实施例同时利用意图类型、槽位信息及槽位信息关系进行数据查询能够避免上述问题,使得查询结果更加准确。

10、在一种可能的实施方式中,所述语义理解模型是通过下列方式训练的:

11、获取多个样本文本;

12、选取样本文本输入待训练的语义理解模型,基于所述语义理解模型,识别所述样本文本的样本意图类型、及提取所述样本文本包含的各样本槽位信息,及所述样本文本对应的样本槽位信息关系;

13、分别基于所述样本意图类型、所述样本槽位信息及所述样本槽位信息关系构建交叉熵损失函数;

14、采用基于构建的各交叉损失函数确定的目标损失函数,对所述语义理解模型进行参数调整。

15、在上述实施方式中,为了能够实现目标文本的槽位信息关系的提取,因此需要基于构建的意图类型交叉损失函数、样本槽位信息交叉熵损失函数以及样本槽位信息关系交叉熵损失函数确定的目标损失函数。

16、在一种可能的实施方式中,通过如下方式构建所述样本槽位信息关系对应的交叉熵损失函数:

17、基于所述样本文本包含的样本槽位信息的数量,确定第一权重系数;其中,所述第一权重系数与所述样本文本包含的样本槽位信息的数量,呈正相关;

18、基于所述各样本槽位信息所属的槽位类型,以及各槽位类型对应的样本槽位信息的数量,确定第二权重系数;

19、基于所述第一权重系数、所述第二权重系数以及所述样本槽位信息关系,构建所述样本槽位信息关系对应的交叉熵损失函数。

20、在上述实施方式中,槽位信息关系的提取随着槽位信息数量的增加难度逐步增大,因此为其设置第一权重系数,同理,当同类型槽位信息较多时槽位关系难以提取,因此为其设置第二权重系数。

21、在一种可能的实施方式中,所述基于所述各样本槽位信息所属的槽位类型,以及各槽位类型对应的样本槽位信息的数量,确定第二权重系数,包括:

22、获取预设的至少一个关键槽位类型;

23、确定所述样本文本中各关键槽位类型对应的样本槽位信息的第一数量,和各非关键槽位信息对应的样本槽位信息的第二数量;

24、根据各第一数量和各第二数量,确定所述第二权重系数。

25、在一种可能的实施方式中,所述根据各第一数量和各第二数量,确定所述第二权重系数,包括:

26、若各第二数量之和为第一预设数量时,则确定所述第二权重系数为β,所述β为预设值;

27、若各第二数量之和不为第一预设数量时,则根据各第一数量及各第一数量和相应的各第二数量的数量关系,确定满足预设的槽位不平衡条件时对应的非平衡系数,并根据所述非平衡系数确定所述第二权重系数。

28、在一种可能的实施方式中,所述槽位不平衡条件包括至少一个;

29、所述根据所述非平衡系数确定损失函数的第二权重系数,包括:

30、确定满足的各个所述槽位不平衡条件,对应的非平衡系数之和c;

31、基于所述非平衡系数之和c,确定所述第二权重系数为a-βc,所述a为预设值。

32、在一种可能的实施方式中,所述槽位不平衡条件包括至少一个;则根据各第一数量及各第一数量和相应的各第二数量的数量关系,确定满足预设的槽位不平衡条件时的非平衡系数,包括如下至少一种:

33、若所述各第一数量均为第二预设数量时,确定满足一个所述槽位不平衡条件,对应的非平衡系数为第一预设系数;

34、若所述各第一数量之和大于第三预设数量时,确定满足一个所述槽位不平衡条件,对应的非平衡系数为第一预设系数;所述第三预设数量大于所述第二预设数量;

35、分别确定各第二数量与相应的各第一数量的比值,若各比值中存在至少一个目标比值,确定满足一个所述槽位不平衡条件,并将所述目标比值的数量与第二预设系数的乘积,作为所述非平衡系数;其中,所述目标比值大于预设比值。

36、第二方面,本申请提供了一种数据查询装置,所述装置包括:

37、识别及提取模块,用于获取待识别的目标文本,并识别所述目标文本的意图类型,及提取所述目标文本包含的各槽位信息;

38、组合模块,用于将所述各槽位信息进行两两组合,获得至少一个槽位信本文档来自技高网...

【技术保护点】

1.一种数据查询方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述语义理解模型是通过下列方式训练的:

3.如权利要求2所述的方法,其特征在于,通过如下方式构建所述样本槽位信息关系对应的交叉熵损失函数:

4.如权利要求3所述的方法,其特征在于,所述基于所述各样本槽位信息所属的槽位类型,以及各槽位类型对应的样本槽位信息的数量,确定第二权重系数,包括:

5.如权利要求4所述的方法,其特征在于,所述根据各第一数量和各第二数量,确定所述第二权重系数,包括:

6.如权利要求5所述的方法,其特征在于,所述槽位不平衡条件包括至少一个;

7.如权利要求5所述的方法,其特征在于,所述槽位不平衡条件包括至少一个;则根据各第一数量及各第一数量和相应的各第二数量的数量关系,确定满足预设的槽位不平衡条件时的非平衡系数,包括如下至少一种:

8.一种数据查询装置,其特征在于,所述装置包括:

9.一种数据查询设备,其特征在于,所述设备包括:

10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行如权利要求1-7任何一项所述的方法。

...

【技术特征摘要】

1.一种数据查询方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述语义理解模型是通过下列方式训练的:

3.如权利要求2所述的方法,其特征在于,通过如下方式构建所述样本槽位信息关系对应的交叉熵损失函数:

4.如权利要求3所述的方法,其特征在于,所述基于所述各样本槽位信息所属的槽位类型,以及各槽位类型对应的样本槽位信息的数量,确定第二权重系数,包括:

5.如权利要求4所述的方法,其特征在于,所述根据各第一数量和各第二数量,确定所述第二权重系数,包括:

6.如权...

【专利技术属性】
技术研发人员:王月岭孟卫明高雪松
申请(专利权)人:海信集团控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1