数据索引构建方法、检索方法及装置、介质及电子设备制造方法及图纸

技术编号:18398754 阅读:42 留言:0更新日期:2018-07-08 19:27
本公开涉及一种数据索引构建方法、检索方法及装置、介质及电子设备,所述方法包括:获取待构建索引的目标数据;确定所述目标数据的原始特征词;对所述原始特征词进行相关词扩展,获得扩展特征词;将所述原始特征词和所述扩展特征词输入至知识图谱进行推理,获得推理特征词;至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引。一方面,可以保证该目标数据的索引的全面性和准确度,提高该目标数据的命中率,有效提高基于该索引进行检索的结果的准确度。另一方面,通过本公开的方法,可以对不同类型的目标数据建立统一格式的索引文件,为实现基于不同类型数据的综合检索提供技术支持。

【技术实现步骤摘要】
数据索引构建方法、检索方法及装置、介质及电子设备
本公开涉及信息检索领域,具体地,涉及一种数据索引构建方法、检索方法及装置、介质及电子设备。
技术介绍
信息检索泛指从包含丰富内容的信息集中找到所需要的或感兴趣的信息或知识的过程,信息检索的主要任务包括对信息项的表示、存储、组织和访问。现有技术中,检索技术主要是面向文本的,如,Google、Yahoo和百度搜索引擎等。随着检索技术的发展,对于单一媒体数据,如图像数据、音频数据,可以基于其内容建立其对应的索引。例如,可以通过字符识别技术翻译图像数据中的文字信息,可以通过人脸识别数据确定图像数据中的人物,从而获得人物信息,之后,可以将该文字信息和人物信息添加到该图像数据的索引中。然而,在对数据库中的数据进行检索时,由于用户的使用习惯。
、知识水平的不同,对于同一目标的检索条件也都不相同。在这种情况下,基于上述方式建立的索引进行检索时,对用户输入的检索条件的要求较高,且检索的局限性较大、准确度较低。
技术实现思路
本公开的目的是提供一种可以多种类型通用的数据索引构建方法、检索方法及装置、介质及电子设备。为了实现上述目的,根据本公开的第一方面,提供一种数据索引构建方法,所述方法包括:获取待构建索引的目标数据;确定所述目标数据的原始特征词;对所述原始特征词进行相关词扩展,获得扩展特征词;将所述原始特征词和所述扩展特征词输入至知识图谱进行推理,获得推理特征词;至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引。可选地,所述目标数据为图像数据、视频数据、音频数据、文本数据中的任一者;所述确定所述目标数据的原始特征词,包括:当所述目标数据为图像数据时,确定所述图像数据的以下至少一种类型的特征信息:人物特征、事物特征、颜色特征、情感特征、纹理特征、形状特征、空间位置特征,并将获取到的所述特征信息作为所述图像数据的所述原始特征词;当所述目标数据为文本数据时,对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果作为所述文本数据的所述原始特征词;当所述目标数据为音频数据时,将所述音频数据转换为对应的文本数据,并对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果作为所述音频数据的所述原始特征词;当所述目标数据为视频数据时,针对所述视频数据中包含的图像数据,确定所述图像数据的以下至少一种类型的特征信息:人物特征、事物特征、颜色特征、情感特征、纹理特征、形状特征、空间位置特征;针对所述视频数据中包含的音频数据,将所述音频数据转换为对应的文本数据,并对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果与获取到的所述特征信息一并作为所述视频数据的所述原始特征词。可选地,所述至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引,包括:创建针对所述目标数据的索引文件,并将所述原始特征词及其对应的特征类型、以及所述推理特征词及其对应的特征类型写入所述索引文件;将所述索引文件与所述目标数据相关联。可选地,所述至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引,还包括:将所述目标数据的数据类型、数据来源、ID中的至少一者写入所述索引文件。根据本公开的第二方面,提供一种检索方法,所述方法包括:接收用户输入的检索条件,并根据所述检索条件确定检索意图;根据所述检索意图查询原始数据库中各数据的索引,获得符合所述检索意图的数据,其中,所述原始数据库中包括多种类型的数据,且各数据的索引是通过第一方面所述的数据索引构建方法预先构建的;根据所述符合所述检索意图的数据,获得检索结果。根据本公开的第三方面,提供一种数据索引构建装置,所述装置包括:获取模块,用于获取待构建索引的目标数据;确定模块,用于确定所述目标数据的原始特征词;扩展模块,用于对所述原始特征词进行相关词扩展,获得扩展特征词;推理模块,用于将所述原始特征词和所述扩展特征词输入至知识图谱进行推理,获得推理特征词;构建模块,用于至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引。可选地,所述目标数据为图像数据、视频数据、音频数据、文本数据中的任一者;所述确定模块包括:第一确定子模块,用于当所述目标数据为图像数据时,确定所述图像数据的以下至少一种类型的特征信息中的至少一种:人物特征、事物特征、颜色特征、情感特征、纹理特征、形状特征、空间位置特征,并将获取到的所述特征信息作为所述图像数据的所述原始特征词;第二确定子模块,用于当所述目标数据为文本数据时,对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果作为所述文本数据的所述原始特征词;第三确定子模块,用于当所述目标数据为音频数据时,将所述音频数据转换为对应的文本数据,并对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果作为所述音频数据的所述原始特征词;第四确定子模块,用于当所述目标数据为视频数据时,针对所述视频数据中包含的图像数据,确定所述图像数据的以下至少一种类型的特征信息中的至少一种:人物特征、事物特征、颜色特征、情感特征、纹理特征、形状特征、空间位置特征;针对所述视频数据中包含的音频数据,将所述音频数据转换为对应的文本数据,并对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果与获取到的所述特征信息一并作为所述视频数据的所述原始特征词。可选地,所述构建模块包括:第一处理子模块,用于创建针对所述目标数据的索引文件,并将所述原始特征词及其对应的特征类型、以及所述推理特征词及其对应的特征类型写入所述索引文件;关联子模块,用于将所述索引文件与所述目标数据相关联。可选地,所述构建模块还包括:第二处理子模块,用于将所述目标数据的数据类型、数据来源、ID中的至少一者写入所述索引文件。根据本公开的第四方面,提供一种检索装置,所述装置包括:接收模块,用于接收用户输入的检索条件,并根据所述检索条件确定检索意图;查询模块,用于根据所述检索意图查询原始数据库中各数据的索引,获得符合所述检索意图的数据,其中,所述原始数据库中包括多种类型的数据,且各数据的索引是通过第三方面所述的数据索引构建装置预先构建的;处理模块,用于根据所述符合所述检索意图的数据,获得检索结果。根据本公开的第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面或第二方面所述方法的步骤。根据本公开的第六方面,提供一种电子设备,包括:第五方面所述的计算机可读存储介质;以及一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。在上述技术方案中,将目标数据的原始特征词以及对该原始特征词扩展获得的扩展特征词作为知识图谱推理的基准,可以有效提高知识图谱推理的准确度,以使获得的目标数据的推理特征词更加全面,可以从多个维度对目标数据进行描述,使对目标数据的描述更加准确。因此,基于目标数据的原始特征词和推理特征词构建该目标数据的索引,一方面,可以保证该目标数据的索引的全面性和准确度,提高该目标数据的命中率,有效提高基于该索引进行检索的结果的准确度。另一方面,通过本公开的方法,可以对不同类型的目标数据建立统一格式的索引文件,为实本文档来自技高网...

【技术保护点】
1.一种数据索引构建方法,其特征在于,所述方法包括:获取待构建索引的目标数据;确定所述目标数据的原始特征词;对所述原始特征词进行相关词扩展,获得扩展特征词;将所述原始特征词和所述扩展特征词输入至知识图谱进行推理,获得推理特征词;至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引。

【技术特征摘要】
1.一种数据索引构建方法,其特征在于,所述方法包括:获取待构建索引的目标数据;确定所述目标数据的原始特征词;对所述原始特征词进行相关词扩展,获得扩展特征词;将所述原始特征词和所述扩展特征词输入至知识图谱进行推理,获得推理特征词;至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引。2.根据权利要求1所述的方法,其特征在于,所述目标数据为图像数据、视频数据、音频数据、文本数据中的任一者;所述确定所述目标数据的原始特征词,包括:当所述目标数据为图像数据时,确定所述图像数据的以下至少一种类型的特征信息:人物特征、事物特征、颜色特征、情感特征、纹理特征、形状特征、空间位置特征,并将获取到的所述特征信息作为所述图像数据的所述原始特征词;当所述目标数据为文本数据时,对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果作为所述文本数据的所述原始特征词;当所述目标数据为音频数据时,将所述音频数据转换为对应的文本数据,并对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果作为所述音频数据的所述原始特征词;当所述目标数据为视频数据时,针对所述视频数据中包含的图像数据,确定所述图像数据的以下至少一种类型的特征信息:人物特征、事物特征、颜色特征、情感特征、纹理特征、形状特征、空间位置特征;针对所述视频数据中包含的音频数据,将所述音频数据转换为对应的文本数据,并对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果与获取到的所述特征信息一并作为所述视频数据的所述原始特征词。3.根据权利要求1所述的方法,其特征在于,所述至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引,包括:创建针对所述目标数据的索引文件,并将所述原始特征词及其对应的特征类型、以及所述推理特征词及其对应的特征类型写入所述索引文件;将所述索引文件与所述目标数据相关联。4.根据权利要求3所述的方法,其特征在于,所述至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引,还包括:将所述目标数据的数据类型、数据来源、ID中的至少一者写入所述索引文件。5.一种检索方法,其特征在于,所述方法包括:接收用户输入的检索条件,并根据所述检索条件确定检索意图;根据所述检索意图查询原始数据库中各数据的索引,获得符合所述检索意图的数据,其中,所述原始数据库中包括多种类型的数据,且各数据的索引是通过权利要求1-4中任一项所述的数据索引构建方法预先构建的;根据所述符合所述检索意图的数据,获得检索...

【专利技术属性】
技术研发人员:蔡巍崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1