一种检索方法、装置、存储介质及设备制造方法及图纸

技术编号:20389676 阅读:13 留言:0更新日期:2019-02-20 02:46
本发明专利技术涉及一种检索方法、装置、存储介质及设备,包括:获取检索语句,并从检索语句中确定检索实体;获取知识图谱的各实体之间的语义相似度关系,并在知识图谱中获取与检索实体的语义相似度大于第一设定阈值的实体,获得扩充的检索实体集合;将扩充的检索实体集中的各实体向量化,并输入到分类器中,确定与扩充的检索实体集中的各词相似度大于第二设定阈值的资源文件集合;按照相似度从大到小的顺序显示确定的资源文件集合。通过对检索实体进行语义扩展,进而不但显示包含检索实体的检索结果,还显示包括检索实体相近或相似的实体的检索结果,从而提高了检索的准确度。

【技术实现步骤摘要】
一种检索方法、装置、存储介质及设备
本专利技术涉及检索领域,特别是涉及一种检索方法、装置、存储介质及设备。
技术介绍
随着互联网的发展,人们可以方便地从互联网上获得需要的信息,搜索引擎也慢慢地成为人们从互联上搜索信息的一种常用手段。其中的搜索引擎通常提供一个页面,用户在页面输入搜索语句,提交给搜索引擎后,搜索引擎就返回给用户输入的内容相关的数据信息。但是,专利技术人在使用搜索引擎的过程中,发现由于搜索引擎是基于关键词的搜索和匹配,因此,当输入的搜索语句中的关键词不够或者不准确的时候,容易出现搜索的内容和想要的完全不一样的问题。
技术实现思路
基于此,本专利技术的目的在于,提供一种检索方法,其具有提高检索准确度的优点。一种检索方法,包括如下步骤:获取检索语句,并从检索语句中确定检索实体;获取知识图谱的各实体之间的语义相似度关系,并在知识图谱中获取与检索实体的语义相似度大于第一设定阈值的实体,获得扩充的检索实体集合;将扩充的检索实体集中的各实体向量化,并输入到分类器中,确定与扩充的检索实体集中的各词相似度大于第二设定阈值的资源文件集合;按照相似度从大到小的顺序显示确定的资源文件集合。通过对检索实体进行语义扩展,进而不但显示包含检索实体的检索结果,还显示包括检索实体相近或相似的实体的检索结果,从而提高了检索的准确度。进一步地,所述按照相似度从大到小的顺序显示确定的资源文件集合之后,还包括步骤:获取用户点击资源文件的操作,并对点击的资源文件赋予相应的奖赏值;在下次显示确定的资源文件集合时,将资源文件集合中被点击的资源文件的相似度加上对应的奖赏值后作为新的相似度,再按照从大到小的顺序显示确定的资源文件集合。通过获取用户对点击资源文件的操作反馈,从而对资源文件的显示进行自动调节,实现了自动鼓励调整机制,提高了在一定时间内对于模糊检索的准确性和具有推理能力的检索结果,从而有效防止了在一定时间内用户一直在搜索同一种或相关的资源文件时,即使输入的检索语句存在一定可能性的错误或者为复杂难以识别的检索语句,仍然可以根据资源文件的点击操作进行调整,最终获得正确的检索结果。进一步地,所述获取用户点击资源文件的操作,并对点击的资源文件中赋予相应的奖赏值的步骤,包括:若用户点击资源文件后,在设定时间之后关闭了浏览器,则对该被点击的资源文件赋予第一奖赏值;若用户点击资源文件后,在设定时间之后点击了另一资源文件,则对该被点击的资源文件赋予第二奖赏值;若用户点击资源文件后,在设定时间之前点击了另一资源文件,则对该被点击的资源文件赋予第三奖赏值;若用户点击的资源文件为最后的点击操作,则对该被点击的资源文件赋予第四奖赏值。进一步地,所述获取检索语句,并从检索语句中确定检索主体的步骤,包括:对检索语句进行分词处理,获得表征检索语句的分词集合;去除分词集合中的停用词,获得处理后的分词集合;对处理后的分词集合中的各词进行词性标注,并将标注为名词的词确定为检索实体。通过去除停用词和词性标注,从而减少后续工作的工作量,获得可表征检索语句的检索实体。进一步地,所述将与检索实体的语义相似度大于第一设定阈值的实体添加到检索实体中之前,还包括:获取检索类别信息;根据检索类别信息,仅获得检索类别所在的知识图谱分类中的所有实体与检索实体的语义相似度。通过根据检索类别信息,仅获得在检索类别所在的知识图谱分类中的所有实体与检索实体语义相似度,进而提高了计算的复杂度,提高检索效率。本专利技术还提供一种检索装置,包括:检索实体获取模块,用于获取检索语句,并从检索语句中确定检索实体;检索实体扩充模块,用于获取知识图谱的各实体之间的语义相似度关系,并在知识图谱中获取与检索实体的语义相似度大于第一设定阈值的实体,获得扩充的检索实体集合;资源文件集合获取模块,用于将扩充的检索实体集中的各实体向量化,并输入到分类器中,确定与扩充的检索实体集中的各词相似度大于第二设定阈值的资源文件集合;显示模块,用于按照相似度从大到小的顺序显示确定的资源文件集合。通过对检索实体进行语义扩展,进而不但显示包含检索实体的检索结果,还显示包括检索实体相近或相似的实体的检索结果,从而提高了检索的准确度。进一步地,还包括:奖赏值获取模块,用于获取用户点击资源文件的操作,并对点击的资源文件赋予相应的奖赏值;其中,若用户点击资源文件后,在设定时间之后关闭了浏览器,则对该被点击的资源文件赋予第一奖赏值;若用户点击资源文件后,在设定时间之后点击了另一资源文件,则对该被点击的资源文件赋予第二奖赏值;若用户点击资源文件后,在设定时间之前点击了另一资源文件,则对该被点击的资源文件赋予第三奖赏值;若用户点击的资源文件为最后的点击操作,则对该被点击的资源文件赋予第四奖赏值;相似度确定模块,用于在下次显示确定的资源文件集合时,将资源文件集合中被点击的资源文件的相似度加上对应的奖赏值后作为新的相似度,再按照从大到小的顺序显示确定的资源文件集合。通过获取用户对点击资源文件的操作反馈,从而对资源文件的显示进行自动调节,实现了自动鼓励调整机制,提高了在一定时间内对于模糊检索的准确性和具有推理能力的检索结果,从而有效防止了在一定时间内用户一直在搜索同一种或相关的资源文件时,即使输入的检索语句存在一定可能性的错误或者为复杂难以识别的检索语句,仍然可以根据资源文件的点击操作进行调整,最终获得正确的检索结果。本专利技术还提供一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任一所述的检索方法的步骤。本专利技术还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如如上述任一所述的检索方法的步骤。为了更好地理解和实施,下面结合附图详细说明本专利技术。附图说明图1为本专利技术实施例中检索方法的流程图;图2为本专利技术实施例中建立的知识图谱的各实体之间的语义相似度关系图。具体实施方式请参阅图1,其为本专利技术实施例中检索方法的流程图,所述检索方法,包括如下步骤:步骤S1:获取检索语句,并从检索语句中确定检索实体。其中,所述检索语句可以是一个字、一个词或一句话。所述检索实体为作为检索的关键字或关键词。步骤S2:获取知识图谱的各实体之间的语义相似度关系,并在知识图谱中获取与检索实体的语义相似度大于第一设定阈值的实体,获得扩充的检索实体集合。请参阅图2,其为本专利技术实施例中建立的知识图谱的各实体之间的语义相似度关系图。其中,所述知识图谱采用维基百科提供的开放知识图谱DBpedia。DBpedia的数据存储采用的是RDF的格式,即为<subject,property,object>,或者为<实体,关系,属性>,可预先对DBpedia数据的关系属性设置相关的权重关系,即获取知识图谱的各实体之间的语义相似度关系。在一个实施例中,所述第一设定阈值可为0.9,即将与检索实体的语义相似度大于0.9的实体添加到检索实体中。如当检索实体为“感冒”时,经过语义相似度的计算,获得与“感冒”的语义相似度大于第一设定阈值的实体包括“着凉”和“流感”,进而扩充的检索实体集合则为“感冒”、“着凉”和“流感”。步骤S3:将扩充的检索实体集中的各实体向量化,并输入到分类器中,确定与扩充的本文档来自技高网...

【技术保护点】
1.一种检索方法,其特征在于,包括如下步骤:获取检索语句,并从检索语句中确定检索实体;获取知识图谱的各实体之间的语义相似度关系,并在知识图谱中获取与检索实体的语义相似度大于第一设定阈值的实体,获得扩充的检索实体集合;将扩充的检索实体集中的各实体向量化,并输入到分类器中,确定与扩充的检索实体集中的各词相似度大于第二设定阈值的资源文件集合;按照相似度从大到小的顺序显示确定的资源文件集合。

【技术特征摘要】
1.一种检索方法,其特征在于,包括如下步骤:获取检索语句,并从检索语句中确定检索实体;获取知识图谱的各实体之间的语义相似度关系,并在知识图谱中获取与检索实体的语义相似度大于第一设定阈值的实体,获得扩充的检索实体集合;将扩充的检索实体集中的各实体向量化,并输入到分类器中,确定与扩充的检索实体集中的各词相似度大于第二设定阈值的资源文件集合;按照相似度从大到小的顺序显示确定的资源文件集合。2.根据权利要求1所述的检索方法,其特征在于,所述按照相似度从大到小的顺序显示确定的资源文件集合之后,还包括步骤:获取用户点击资源文件的操作,并对点击的资源文件赋予相应的奖赏值;在下次显示确定的资源文件集合时,将资源文件集合中被点击的资源文件的相似度加上对应的奖赏值后作为新的相似度,再按照从大到小的顺序显示确定的资源文件集合。3.根据权利要求2所述的检索方法,其特征在于,所述获取用户点击资源文件的操作,并对点击的资源文件中赋予相应的奖赏值的步骤,包括:若用户点击资源文件后,在设定时间之后关闭了浏览器,则对该被点击的资源文件赋予第一奖赏值;若用户点击资源文件后,在设定时间之后点击了另一资源文件,则对该被点击的资源文件赋予第二奖赏值;若用户点击资源文件后,在设定时间之前点击了另一资源文件,则对该被点击的资源文件赋予第三奖赏值;若用户点击的资源文件为最后的点击操作,则对该被点击的资源文件赋予第四奖赏值。4.根据权利要求1所述的检索方法,其特征在于,所述获取检索语句,并从检索语句中确定检索主体的步骤,包括:对检索语句进行分词处理,获得表征检索语句的分词集合;去除分词集合中的停用词,获得处理后的分词集合;对处理后的分词集合中的各词进行词性标注,并将标注为名词的词确定为检索实体。5.根据权利要求1所述的检索方法,其特征在于,所述将与检索实体的语义相似度大于第一设定阈值的实体添加到检索实体中之前,还包括:获取检索类别信息;根据检...

【专利技术属性】
技术研发人员:蒋运承郑航詹捷宇刘宇东马文俊毛舜李超黄光健韦丽娜
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1