多类型知识检索和统计方法、装置、存储介质、设备制造方法及图纸

技术编号:37087521 阅读:10 留言:0更新日期:2023-03-29 20:02
本发明专利技术提供一种多类型知识检索和统计方法、装置、存储介质和设备,所述方法包括:对待检索知识进行解析,针对文本检索,对解析后的待检索知识进行语义识别;根据语义识别结果对待检索知识分别进行全文检索、向量化检索、检索式问答检索及图谱检索,针对图片检索,对解析后的待检索知识进行向量化处理,根据向量化结果对待检索知识进行知识内图片检索和图片类知识检索,将全文检索、向量化检索、检索式问答检索及图谱检索结果或者知识内图片检索和图片类知识检索结果输入精排序模型进行重新排序,获得待检索知识的检索结果,对检索结果进行统计分类。本发明专利技术能够能够对不同类型的知识进行检索,且能够对检索结果从不同的维度进行统计。行统计。行统计。

【技术实现步骤摘要】
多类型知识检索和统计方法、装置、存储介质、设备


[0001]本专利技术涉及人工智能
,尤其涉及一种多类型知识检索和统计方法、装置、存储介质和设备。

技术介绍

[0002]随着科技的发展,人们在日常生活和工作中产生了各类文档、图片和音视频数据,当人们需要对其进行搜索的时候会比较困难,操作系统搜索一般只针对文件标题,不能对文件内容进行检索。
[0003]目前市面上更多的是对单一的知识进行搜索,很少有支持多类型知识搜索的产品,更少存在对知识搜索进行多维度统计的产品。这种检索方式只能对打开的文档进行检索,检索的文档类型单一,某种工具只能对一类文档进行检索,对于图片、音频和视频只能根据认为的判断是否相似,使用成本高且效率低下。

技术实现思路

[0004]有鉴于此,本专利技术提供一种多类型知识检索和统计方法、装置、存储介质和设备,能够对不同类型的知识进行检索,且能够对检索结果从不同的维度进行统计。
[0005]第一方面,本专利技术实施例提供一种多类型知识检索和统计方法,所述方法包括:
[0006]对待检索知识进行解析,获得结构化数据;
[0007]根据所述待检索知识的属性标识执行与所述属性标识对应的检索方式,所述检索方式包括文本检索和图片检索;
[0008]当所述检索方式为文本检索时,对所述待检索知识的结构化数据进行语义识别;
[0009]根据所述语义识别结果对所述待检索知识分别进行全文检索、向量化检索、检索式问答检索及图谱检索;
[0010]当所述检索方式为图片检索时,对所述待检索知识进行向量化处理;
[0011]根据所述向量化结果对所述待检索知识进行知识内图片检索和图片类知识检索;
[0012]将所述全文检索、向量化检索、检索式问答检索及图谱检索结果或者所述知识内图片检索和图片类知识检索结果输入精排序模型进行重新排序,获得所述待检索知识的检索结果;
[0013]对所述检索结果进行统计分类。
[0014]进一步地,对所述待检索知识的结构化数据进行语义识别之前,以及对所述待检索知识进行向量化处理之前所述方法还包括:
[0015]获取用户身份标识;
[0016]根据用户身份标识在知识库中筛选与所述用户身份标识对应的知识列表,其中,所述知识库中包含多种知识类型的数据。
[0017]进一步地,使用自然语言处理方法对所述待检索知识的结构化数据进行语义识别。
[0018]进一步地,对所述待检索知识的结构化数据进行语义识别至少包括:中文分词、命名实体标识、词性标注、同义词分析、词向量分析、依存文法分析、词位置分析、语义归一化、知识纠错、标签提取。
[0019]进一步地,对所述检索结果进行统计分类包括:
[0020]根据所述检索结果中各知识中实体知识的创建时间、知识分类、知识拥有者、知识标签、知识类型进行统计分类。
[0021]第二方面,本专利技术实施例提供一种多类型知识检索和统计装置,所述装置包括:
[0022]解析模块,用于对待检索知识进行解析,获得结构化数据;
[0023]检索方式确定模块,用于根据所述待检索知识的属性标识进行与所述属性标识对应的检索方式,所述检索方式包括文本检索和图片检索;
[0024]语义识别模块,用于当所述检索方式为文本检索时,对所述待检索知识的结构化数据进行语义识别;
[0025]第一检索模块,用于根据所述语义识别结果对所述待检索知识分别进行全文检索、向量化检索、检索式问答检索及图谱检索;
[0026]向量化模块,用于当所述检索方式为图片检索时,对所述待检索知识进行向量化处理;
[0027]第二检索模块,用于根据所述向量化结果对所述待检索知识进行图片检索;
[0028]精排模块,用于将所述全文检索、向量化检索、检索式问答检索及图谱检索结果或者所述图片检索结果输入精排序模型进行重新排序,获得所述待检索知识的检索结果;
[0029]分类统计模块,用于对所述检索结果进行统计分类。
[0030]进一步地,所述装置还包括:
[0031]获取模块,用于获取用户身份标识;
[0032]筛选模块,用于根据用户身份标识在知识库中筛选与所述用户身份标识对应的知识列表,其中,所述知识库中包含多种知识类型的数据。
[0033]第三方面,本专利技术实施例提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述第一方面中任一项所述的方法。
[0034]第四方面,本专利技术实施例提供一种设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述第一方面中任一项所述的方法。
[0035]第五方面,本专利技术实施例提供一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
[0036]本专利技术提供的技术方案,针对文本检索,通过筛选与用户权限对应的知识列表后,对待检索知识进行语义识别,之后对语义识别后的待检索知识分别进行全文检索、向量化检索、检索式问答检索及图谱检索,获得待检索知识的粗检索结果,之后对粗检索结果进行汇总后输入精排模型对粗检索结果重新排序,获得最终的检索结果,针对图片检索,筛选出与用户权限对应的知识列表后,将待检索知识向量化,根据向量化结果对待检索知识进行知识内图片检索和图片类知识检索,知识内图片检索和图片类知识检索结果输入精排序模型进行重新排序,获得所述待检索知识的检索结果,最后对检索结果进行分类统计。由此,本申请能够对多种类型的知识进行检索,并能够对检索结果进行统计,通过对多种类型的
知识进行粗检索后再进行进一步精细检索,提高了检索的准确率。
[0037]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0038]图1是本专利技术实施例提供的一种多类型知识检索和统计方法的流程图;
[0039]图2是本专利技术实施例提供的一种多类型知识检索和统计装置的结构示意图;
[0040]图3是本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0041]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部份实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0042]参见图1,图1是本专利技术实施例提供的一种多类型知识检索和统计方法的流程图,所述方法包括以下步骤:
[0043]步骤101、对待检索知识进行解析,获得结构化数据。
[0044]在本步骤中,待检索知识可以是非结构化文档,能够使用现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多类型知识检索和统计方法,其特征在于,所述方法包括:对待检索知识进行解析,获得结构化数据;根据所述待检索知识的属性标识执行与所述属性标识对应的检索方式,所述检索方式包括文本检索和图片检索;当所述检索方式为文本检索时,对所述待检索知识的结构化数据进行语义识别;根据所述语义识别结果对所述待检索知识分别进行全文检索、向量化检索、检索式问答检索及图谱检索;当所述检索方式为图片检索时,对所述待检索知识的结构化数据进行向量化处理;根据所述向量化结果对所述待检索知识进行知识内图片检索和图片类知识检索;将所述全文检索、向量化检索、检索式问答检索及图谱检索结果或者所述知识内图片检索和图片类知识检索结果输入精排序模型进行重新排序,获得所述待检索知识的检索结果;对所述检索结果进行统计分类。2.根据权利要求1所述的多类型知识检索和统计方法,其特征在于,对所述待检索知识的结构化数据进行语义识别之前,以及对所述待检索知识进行向量化处理之前所述方法还包括:获取用户身份标识;根据用户身份标识在知识库中筛选与所述用户身份标识对应的知识列表,其中,所述知识库中包含多种知识类型的数据。3.根据权利要求1所述的多类型知识检索和统计方法,其特征在于,使用自然语言处理方法对所述待检索知识的结构化数据进行语义识别。4.根据权利要求3所述的多类型知识检索和统计方法,其特征在于,对所述待检索知识的结构化数据进行语义识别至少包括:中文分词、命名实体标识、词性标注、同义词分析、词向量分析、依存文法分析、词位置分析、语义归一化、知识纠错、标签提取。5.根据权利要求1所述的多类型知识检索和统计方法,其特征在于,对所述检索结果进行统计分类包括:根据所述检索结果中各知识中实体知识的创建时间、知识分类、知识拥有者、知识标...

【专利技术属性】
技术研发人员:杨娟翟士丹林健
申请(专利权)人:北京海致星图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1