数据检索方法、装置、设备及存储介质制造方法及图纸

技术编号:29584414 阅读:16 留言:0更新日期:2021-08-06 19:42
本申请公开了一种数据检索方法、装置、设备及存储介质,对于检索指令文本及待检索数据集中的数据文本,分别进行意图识别及设定类型参数的抽取,从而得到每一文本所表达的文本意图及其包含的设定类型的参数,进一步对检索指令文本及每条数据文本进行意图匹配和参数匹配,通过综合考虑意图匹配结果和参数匹配结果,确定最终的检索结果。本申请通过意图识别可以得到检索指令文本和数据文本的句子语义信息,明确检索指令所真正意图检索的内容,以及数据文本所表达的语义内容,通过意图匹配可以从句子语义信息的层次来确定二者的匹配情况,进一步结合设定类型参数的匹配,可以准确的得到与检索指令文本对应的检索结果。

【技术实现步骤摘要】
数据检索方法、装置、设备及存储介质
本申请涉及数据处理
,更具体的说,是涉及一种数据检索方法、装置、设备及存储介质。
技术介绍
数据检索即针对给出的检索指令文本,在待检索数据集中检索相匹配的数据的过程。传统的检索方式,多是基于关键词的方式来进行检索,如从检索指令文本中提取关键词,并与待检索数据集中各条数据进行关键词匹配,将匹配的数据作为检索结果。这种单纯依靠关键词进行检索的方式,经常会出现数据检索不准确,检索质量不高的问题。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种数据检索方法、装置、设备及存储介质,以解决现有依靠关键词进行检索的方式所存在的,检索结果不准确、质量不高的问题。具体方案如下:一种数据检索方法,包括:获取检索指令文本,及待检索数据集,所述待检索数据集包含若干条数据文本;分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数;对所述检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配;基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。优选地,所述获取待检索数据集,包括:对待检索文件进行句子划分,得到划分后的各个句子作为数据文本,组成待检索数据集。优选地,以所述检索指令文本、所述待检索数据集中每条数据文本作为待解析文本,则对每条待解析文本进行意图识别及设定类型参数的抽取的过程,包括:利用预训练的联合预测模型,处理所述待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数,其中,所述联合预测模型为,利用标注有文本意图标签及设定类型参数标签的训练文本预先训练得到。优选地,所述利用预训练的联合预测模型,处理所述待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数,包括:利用联合预测模型的编码层,确定所述待解析文本的编码结果;利用联合预测模型的中间隐层,对所述编码结果进行隐层特征提取,得到隐层表征特征;利用联合预测模型的注意力层,处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征;利用联合预测模型的意图识别层,基于所述注意力特征预测所述待解析文本的文本意图;利用联合预测模型的参数抽取层,基于所述注意力特征抽取所述待解析文本包含的设定类型的参数。优选地,所述利用联合预测模型的注意力层,处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征,包括:利用联合预测模型的注意力层,基于所述隐层表征特征,确定表征待解析文本内部任意两个词的关联程度的信息交互矩阵;基于所述信息交互矩阵,及所述隐层表征特征,确定包含与待解析文本内部词间联系信息的注意力特征。优选地,所述利用联合预测模型的意图识别层,基于所述注意力特征预测所述待解析文本的文本意图,包括:利用联合预测模型的行为相关意图识别层,基于所述注意力特征预测所述待解析文本的行为相关意图,所述行为相关意图与行为参数相关;利用联合预测模型的行为无关意图识别层,基于所述注意力特征预测所述待解析文本的行为无关意图,所述行为无关意图与行为参数无关。优选地,所述文本意图包括行为相关意图和行为无关意图;所述对所述检索指令文本及每条数据文本的文本意图进行意图匹配,包括:针对每条数据文本,判断所述检索指令文本及所述数据文本的行为无关意图是否相同;若行为无关意图相同,则执行对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,进一步判断所述检索指令文本及所述数据文本的行为相关意图是否相同;若行为相关意图相同,则执行对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,确认所述检索指令文本与所述数据文本的意图不匹配。优选地,所述对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配,包括:以每一设定类型的参数分别作为匹配槽,对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配;基于每一匹配槽的匹配结果,确定所述检索指令文本及每条数据文本的参数匹配结果。优选地,所述设定类型的参数包括以下任一项或多项的组合:人物、行为、时间、地点、物品、抽象实体、数目;所述对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配,包括:采用词林匹配的方式,对所述检索指令文本及每条数据文本按照物品匹配槽、抽象实体匹配槽进行参数匹配;采用正则表达式匹配的方式,对所述检索指令文本及每条数据文本按照时间匹配槽、数目匹配槽进行参数匹配;采用模型匹配的方式,对所述检索指令文本及每条数据文本按照行为匹配槽、地点匹配槽进行参数匹配;采用硬匹配的方式,对所述检索指令文本及每条数据文本按照人物匹配槽进行参数匹配。优选地,所述采用模型匹配的方式,对所述检索指令文本及每条数据文本按照行为匹配槽进行参数匹配,包括:利用行为匹配模型,分别对检索指令文本和每条数据文本中各词进行编码,得到各自的编码结果;利用行为匹配模型对所述检索指令文本和每条数据文本中除行为参数外的其它词的编码结果进行遮挡,得到检索指令文本和每条数据文本遮挡处理后的隐层特征;利用行为匹配模型基于所述检索指令文本和每条数据文本遮挡处理后的隐层特征,确定所述检索指令文本和每条数据文本的参数匹配结果。优选地,所述基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果,包括:在与所述检索指令文本的意图相匹配的各条数据文本中,参考数据文本与所述检索指令文本的参数匹配结果,选取参数匹配结果满足设定参数匹配条件的数据文本,作为与所述检索指令文本对应的检索结果。优选地,在进行意图识别及设定类型参数的抽取之前,该方法还包括:确定所述检索指令文本与所述待检索数据集中每条数据文本间的语义关联性;从所述待检测数据集中选取语义关联性最高的前设定数目条目标数据文本;所述对待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,包括:对每条所述目标数据文本进行意图识别及设定类型参数的抽取。优选地,所述确定所述检索指令文本与所述待检索数据集中每条数据文本间的语义关联性,包括:利用预训练的语义关联性预测模型,对所述检索指令文本及所述待检索数据集中每条数据文本分别进行编码;对编码结果进行卷积处理,得到检索指令文本的隐层表征,以及每条数据文本的隐层表征;基于检索指令文本的隐层表征,以及每条数据文本的隐层表征,确定检索指令文本与每条数据文本的语义关联性大小。一种数据检本文档来自技高网...

【技术保护点】
1.一种数据检索方法,其特征在于,包括:/n获取检索指令文本,及待检索数据集,所述待检索数据集包含若干条数据文本;/n分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数;/n对所述检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配;/n基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。/n

【技术特征摘要】
1.一种数据检索方法,其特征在于,包括:
获取检索指令文本,及待检索数据集,所述待检索数据集包含若干条数据文本;
分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数;
对所述检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配;
基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。


2.根据权利要求1所述的方法,其特征在于,所述获取待检索数据集,包括:
对待检索文件进行句子划分,得到划分后的各个句子作为数据文本,组成待检索数据集。


3.根据权利要求1所述的方法,其特征在于,以所述检索指令文本、所述待检索数据集中每条数据文本作为待解析文本,则对每条待解析文本进行意图识别及设定类型参数的抽取的过程,包括:
利用预训练的联合预测模型,处理所述待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数,其中,所述联合预测模型为,利用标注有文本意图标签及设定类型参数标签的训练文本预先训练得到。


4.根据权利要求3所述的方法,其特征在于,所述利用预训练的联合预测模型,处理所述待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数,包括:
利用联合预测模型的编码层,确定所述待解析文本的编码结果;
利用联合预测模型的中间隐层,对所述编码结果进行隐层特征提取,得到隐层表征特征;
利用联合预测模型的注意力层,处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征;
利用联合预测模型的意图识别层,基于所述注意力特征预测所述待解析文本的文本意图;
利用联合预测模型的参数抽取层,基于所述注意力特征抽取所述待解析文本包含的设定类型的参数。


5.根据权利要求4所述的方法,其特征在于,所述利用联合预测模型的注意力层,处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征,包括:
利用联合预测模型的注意力层,基于所述隐层表征特征,确定表征待解析文本内部任意两个词的关联程度的信息交互矩阵;
基于所述信息交互矩阵,及所述隐层表征特征,确定包含与待解析文本内部词间联系信息的注意力特征。


6.根据权利要求4所述的方法,其特征在于,所述利用联合预测模型的意图识别层,基于所述注意力特征预测所述待解析文本的文本意图,包括:
利用联合预测模型的行为相关意图识别层,基于所述注意力特征预测所述待解析文本的行为相关意图,所述行为相关意图与行为参数相关;
利用联合预测模型的行为无关意图识别层,基于所述注意力特征预测所述待解析文本的行为无关意图,所述行为无关意图与行为参数无关。


7.根据权利要求1所述的方法,其特征在于,所述文本意图包括行为相关意图和行为无关意图;所述对所述检索指令文本及每条数据文本的文本意图进行意图匹配,包括:
针对每条数据文本,判断所述检索指令文本及所述数据文本的行为无关意图是否相同;
若行为无关意图相同,则执行对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,进一步判断所述检索指令文本及所述数据文本的行为相关意图是否相同;
若行为相关意图相同,则执行对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,确认所述检索指令文本与所述数据文本的意图不匹配。


8.根据权利要求1所述的方法,其特征在于,所述对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配,包括:
以每一设定类型的参数分别作为匹配槽,对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配;
基于每一匹配槽的匹配结果,确定所述检索指令文本...

【专利技术属性】
技术研发人员:李永帅盛志超李浩王硕代旭东
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1