信息搜索方法、装置,存储介质及电子设备制造方法及图纸

技术编号:21914131 阅读:28 留言:0更新日期:2019-08-21 12:28
本公开涉及一种信息搜索方法、装置,存储介质及电子设备,该方法包括:确定搜索字符串包含的词组序列;将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:将所述目标词组作为关键词,确定对应所述关键词的搜索实体;根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序,并根据排序结果显示所述搜索字符串的信息搜索结果。用于采用解决相关技术中的实体链接技术进行对搜索词进行实体匹配时,出现匹配到的实体的准确率低的技术问题。

Information search methods, devices, storage media and electronic devices

【技术实现步骤摘要】
信息搜索方法、装置,存储介质及电子设备
本公开涉及信息处理
,具体地,涉及一种信息搜索方法、装置,存储介质及电子设备。
技术介绍
相关技术中,为了在通过关键词(query)搜索目标实体(entity)时匹配合适的实体,采用一种实体链接(entitylinking)技术,该技术通过识别关键词的提及(mention),利用离线已挖掘的实体-提及(mention-entity)数据得到候选实体集合,再结合语言模型(languagemodel)或语义模型(semanticmodel)对候选结果进行排序,得到最终的实体链接结果。但是,该实体链接技术较依赖于NER(NamedEntityRecognition)识别模型,而NER识别模型的识别准确率依赖于标注训练数据,且NER识别模型主要用于识别人名、地名和机构名,对于复杂或新出现的实体名称的识别准确率较低,进而导致出现对相关的搜索词匹配到的实体的准确率低的情况。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本公开的目的是提供一种信息搜索方法、装置,存储介质及电子设备,用于采用解决相关技术中的实体链接技术进行对搜索词进行实体匹配时,出现匹配到的实体的准确率低的技术问题。为了解决上述技术问题,本公开实施例的第一方面,提供一种信息搜索方法,所述方法包括:确定搜索字符串包含的词组序列;将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:将所述目标词组作为关键词,确定对应所述关键词的搜索实体;根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序,并根据排序结果显示所述搜索字符串的信息搜索结果。可选地,所述确定搜索字符串包含的词组序列,包括:对所述搜索字符串进行分词,得到多个词组;将所述多个词组进行组合,得到词组组合,所述词组序列包括所述多个词组以及所述词组组合。可选地,所述方法还包括:根据所述历史搜索数据中的搜索点击日志,实体类型信息以及实体提及信息确定历史搜索的关键词与搜索实体之间的相关度;保存历史搜索的关键词与搜索实体之间的所述相关度;所述根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度,包括:查找所述历史搜索数据中与所述目标词组对应的历史搜索的目标关键词;将所述历史搜索的目标关键词与搜索实体之间的所述相关度作为所述历史相关度。可选地,所述确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度,包括:获取所述词组序列中除所述目标词组以外的其他词组的上下文信息,所述上下文信息包括:关键词信息,命名实体识别NER信息,词性信息,当前搜索位置信息;根据所述上下文信息计算与所述搜索实体之间的上下文信息相关度。可选地,所述根据所述历史相关度以及所述上下文信息相关度对所述搜索实体进行排序,包括:根据如下贝叶斯公式确定概率最大的搜索实体:其中,P(e|s)表示所述目标词组s与所述搜索实体e的所述历史相关度,P(q-s|e)表示所述词组序列q中除所述目标词组s以外的其他词组与所述搜索实体e的所述上下文信息相关度,E为对应每一所述目标词组的搜索实体组成的实体集合;将所述概率最大的搜索实体作为信息搜索结果排序的首位。本公开实施例的第二方面,提供一种信息搜索装置,包括:确定模块,用于确定搜索字符串包含的词组序列;相关度确定模块,用于将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:将所述目标词组作为关键词,确定对应所述关键词的搜索实体;根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;排序模块,用于根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序;显示模块,用于根据排序结果显示所述搜索字符串的信息搜索结果。可选地,所述确定模块包括:分词子模块,用于对所述搜索字符串进行分词,得到多个词组;组合子模块,用于将所述多个词组进行组合,得到词组组合,所述词组序列包括所述多个词组以及所述词组组合。可选地,还包括:离线处理模块,用于根据历史数据中的搜索点击日志,实体类型信息以及实体提及信息确定历史搜索的关键词与搜索实体之间的相关度;存储模块,用于保存历史搜索的关键词与搜索实体之间的所述相关度;所述相关度确定模块包括:查找子模块,用于查找历史数据中与所述目标词组对应的历史搜索的目标关键词;历史相关度确定子模块,用于将所述历史搜索的目标关键词与搜索实体之间的所述相关度作为所述历史相关度。可选地,所述相关度确定模块包括:获取子模块,用于获取所述词组序列中除所述目标词组以外的其他词组的上下文信息,所述上下文信息包括:关键词信息,命名实体识别NER信息,词性信息,当前搜索位置信息;历史相关度确定子模块,用于根据所述上下文信息计算与所述搜索实体之间的上下文信息相关度。可选地,所述排序模块用于:根据如下贝叶斯公式确定概率最大的搜索实体:其中,P(e|s)表示所述目标词组s与所述搜索实体e的所述历史相关度,P(q-s|e)表示所述词组序列q中除所述目标词组s以外的其他词组与所述搜索实体e的所述上下文信息相关度,E为对应每一所述目标词组的搜索实体组成的实体集合;将所述概率最大的搜索实体作为信息搜索结果排序的首位。本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中任一项所述方法的步骤。通过上述技术方案,确定搜索字符串包含的词组序列之后,针对每一实体,综合考虑该实体与搜索字符串中对应的关键词之间的历史相关度,以及该搜索字符串中除该关键词以外的其他词与该实体的上下文相关度,并根据此两种相关度对所有实体进行排序,显示结果,使得对于实体的匹配不依赖于NER识别模型,且具有较好的灵活性和可扩展性,对于复杂或新出现的实体名称能够提高相应的实体匹配准确率,进而提高整体对于相关搜索词匹配到实体的准确率。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是根据一示例性实施例示出的一种信息搜索方法的流程图。图2是根据一示例性实施例示出的一种信息搜索方法包括的步骤中确定搜索字符串包含的词组序列的流程图。图3是根据一示例性实施例示出的一种信息搜索方法的另一流程图。图4是根据一示例性实施例示出的一种信息搜索方法包括的步骤中确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度的流程图。图5是根据一示例性实施例示出的一种信息搜索方法包括的步骤中根据所述历史相关度以及所述上下文信息相关度对所述搜索实体进行排序的流程图。图6是根据一示本文档来自技高网...

【技术保护点】
1.一种信息搜索方法,其特征在于,所述方法包括:确定搜索字符串包含的词组序列;将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:将所述目标词组作为关键词,确定对应所述关键词的搜索实体;根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序,并根据排序结果显示所述搜索字符串的信息搜索结果。

【技术特征摘要】
1.一种信息搜索方法,其特征在于,所述方法包括:确定搜索字符串包含的词组序列;将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:将所述目标词组作为关键词,确定对应所述关键词的搜索实体;根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序,并根据排序结果显示所述搜索字符串的信息搜索结果。2.根据权利要求1所述的方法,其特征在于,所述确定搜索字符串包含的词组序列,包括:对所述搜索字符串进行分词,得到多个词组;将所述多个词组进行组合,得到词组组合,所述词组序列包括所述多个词组以及所述词组组合。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述历史搜索数据中的搜索点击日志,实体类型信息以及实体提及信息确定历史搜索的关键词与搜索实体之间的相关度;保存历史搜索的关键词与搜索实体之间的所述相关度;所述根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度,包括:查找所述历史搜索数据中与所述目标词组对应的历史搜索的目标关键词;将所述历史搜索的目标关键词与搜索实体之间的所述相关度作为所述历史相关度。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度,包括:获取所述词组序列中除所述目标词组以外的其他词组的上下文信息,所述上下文信息包括:关键词信息,命名实体识别NER信息,词性信息,当前搜索位置信息;根据所述上下文信息计算与所述搜索实体之间的上下文信息相关度。5.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述历史相关度以及所述上下文信息相关度对所述搜索实体进行排序,包括:根据如下贝叶斯公式确定概率最大的搜索实体:其中,P(e|s)表示所述目标词组s与所述搜索实体e的所述历史相关度,P(q-s|e)表示所述词组序列q中除所述目标词组s以外的其他词组与所述搜索实体e的所述上下文信息相关度,E为对应每一所述目标词组的搜索实体组成的实体集合;将所述概率最大的搜索实体作为信息搜索结果排序的首位。6.一种信息搜索装置,其特征在于,包括:确定模块,用于确定搜索字符串包含的词组序列;相关度确定模块,用于将所述词组序列中的每一词组作...

【专利技术属性】
技术研发人员:路遥王仲远谢睿汤彪于志安王燕华
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1