数据搜索方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:35648999 阅读:23 留言:0更新日期:2022-11-19 16:43
本公开提供了一种数据搜索方法、装置、电子设备及存储介质,涉及人工智能技术领域,进一步涉及搜索技术、大数据等技术领域,尤其涉及一种数据搜索方法、装置、电子设备以及存储介质,以至少解决相关技术中对数据进行搜索的准确度较低的技术问题。具体实现方案为:获取目标关键词;确定待搜索数据中包含的多个字段中与目标关键词对应的第一字段;获取第一字段对应的目标搜索方式;基于目标搜索方式和第一字段对待搜索数据进行搜索,得到与目标关键词对应的搜索结果。对应的搜索结果。对应的搜索结果。

【技术实现步骤摘要】
数据搜索方法、装置、电子设备以及存储介质


[0001]本公开涉及人工智能
,进一步涉及搜索技术、大数据等
,尤其涉及一种数据搜索方法、装置、电子设备以及存储介质。

技术介绍

[0002]目前,在数据搜索的场景中,需要从大量的待搜索数据中搜索到需要的搜索结果,但是在搜索的过程中,由于用户不能掌握足够多的搜索信息,会导致搜索的结果准确度较低。

技术实现思路

[0003]本公开提供了一种数据搜索方法、装置、电子设备以及存储介质,以至少解决相关技术中对数据进行搜索的准确度较低的技术问题。
[0004]根据本公开的一方面,提供了一种数据搜索方法,包括:获取目标关键词;确定待搜索数据中包含的多个字段中与目标关键词对应的第一字段;获取第一字段对应的目标搜索方式;基于目标搜索方式和第一字段对待搜索数据进行搜索,得到与目标关键词对应的搜索结果。
[0005]根据本公开的又一方面,提供了一种数据搜索装置,包括:关键词获取模块,用于获取目标关键词;字段确定模块,用于确定待搜索数据中包含的多个字段中与目标关键词对应的第一字段;搜索方式获取模块,用于获取第一字段对应的目标搜索方式;搜索模块,用于基于目标搜索方式和第一字段对待搜索数据进行搜索,得到与目标关键词对应的搜索结果。
[0006]根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提出的数据搜索方法。
[0007]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提出的数据搜索方法。
[0008]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行本公开提出的数据搜索方法。
[0009]在本公开中,首先获取目标关键词;确定待搜索数据中包含的多个字段中与目标关键词对应的第一字段;获取第一字段对应的目标搜索方式;基于目标搜索方式和第一字段对待搜索数据进行搜索,得到与目标关键词对应的搜索结果,在根据目标关键词进行搜索的过程中,可以根据目标关键词对应的第一字段确定对应的目标搜索方式,并根据与命中的第一字段相匹配目标搜索方式对待搜索数据进行搜索,进而能够根据已有的关键信息来提高搜索结果的准确度,进而解决了相关技术中对数据进行搜索的准确度较低的技术问题。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特
征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开实施例的一种用于实现数据搜索方法的计算机终端(或移动设备)的硬件结构框图;
[0013]图2是根据本公开实施例的一种数据搜索方法的流程图;
[0014]图3是根据本公开实施例的另一种数据搜索方法的流程图;
[0015]图4是根据本公开实施例的一种数据搜索装置的结构框图。
具体实施方式
[0016]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0017]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0018]在当今社会,由于时代的发展及技术的进步,大型企业内部都需要拥有员工之间快速高效的线上沟通方式,普通的即时通讯工具均为偏社交方向的产品,难以满足企业内部的管理需求,所以近几年,专门应用于企业内部即时通讯办公系统开始在市场上萌芽,这类即时通讯产品,为企业内部相关事务处理提供了便捷快速的网络途径,加快了企业内员工之间的沟通协作速度。
[0019]对于大型企业的内部通讯工具来说,员工之间的互相检索是一种基础技术能力。任意能够互相沟通的员工,在网络上能够快速找到对方并进行沟通是企业通讯系统必要的功能之一。在沟通前的第一步,即是通过检索系统,能够方便和快捷的寻找到对方。
[0020]市面上向公共大众开放的即时通讯系统,只能检索已经成为好友的账号并与其沟通,每个人的好友数量平均在几百左右,陌生用户需要通过添加好友功能经过验证后才能进行检索沟通,由于候选集人数较少,搜索场景非常简单,技术难度较低。与这些即时通讯系统的通讯录检索不同,大型企业内部通讯工具,需要能够检索企业内部的所有员工,大型企业的员工数量往往数以万计。而且大部分情况,需要检索的员工自己并不能掌握足够多的信息,甚至只能掌握到对方姓名的读音。在这种场景下,针对各种用户信息均能够进行召回,需要有较好的排序模块,才能够满足企业内员工之间的检索需求。
[0021]为了满足企业内员工之间的检索需求,开源搜索平台(Solr)的全文搜索服务器,能够提供统一的索引和检索服务,提供了比开放源代码的全文检索引擎工具包(Lucene)更
为丰富的查询语言(比如,过滤器),同时实现了可配置、可扩展并对查询性能进行了优化。直接利用Solr搭建通讯录检索服务,提供召回方案是非常便捷和高效的解决方法。
[0022]但某一个搜索关键词所有的结果召回以后,面对大量的结果,需要有排序策略来对结果进行排序,这样才能尽可能确保用户期望的结果排序靠前,能够直接满足用户。特别是在企业场景下,召回范围大,召回结果多,陌生人间的查找意图多,如果排序不能很好的体现用户的意图,用户就难以找到真正想要搜索的结果。
[0023]而搜索关键词与结果的相关性往往是排序时最为重要的特征。一般信息检索领域的相关性计算方法,均采用评价搜索词和文档之间的相关性算法(BM25)或统计算法(TF

IDF)这类利用词频计算相似度的算法,这类算法主要应用于长文本,在搜索员工这种场景下不适用。而通用的编辑距离算法,又因为员工搜索可以通过拼音、同音词的方式,导致算法体现的相关性不够准确。
[0024]对于相关技术存在的问题,本公开提出了一种数据搜索方法,其在检索字段复杂,召回策略多样的背景下,能够精确高效地计算出搜索关键词和召回结果的相关性,能够极大程度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据搜索方法,包括:获取目标关键词;确定待搜索数据中包含的多个字段中与所述目标关键词对应的第一字段;获取所述第一字段对应的目标搜索方式;基于所述目标搜索方式和所述第一字段对所述待搜索数据进行搜索,得到与所述目标关键词对应的搜索结果。2.根据权利要求1所述的方法,其中,所述目标关键词包括至少一个关键字符,所述第一字段包括至少一个搜索字符,获取所述第一字段对应的目标搜索方式,包括:获取所述至少一个关键字符的第一目标类型,及所述至少一个搜索字符的第二目标类型;基于所述第一目标类型确定与所述第一字段对应的目标预设类型;基于所述第二目标类型和所述目标预设类型,确定与所述第一字段对应的所述目标搜索方式。3.根据权利要求2所述的方法,其中,基于所述第二目标类型和所述目标预设类型,确定与所述第一字段对应的所述目标搜索方式,包括:判断所述第二目标类型是否为所述目标预设类型,得到判断结果;在所述判断结果表征所述第二目标类型不为所述目标预设类型的情况下,确定所述目标搜索方式为第一搜索方式;或,在所述判断结果表征所述第二目标类型为所述目标预设类型的情况下,确定所述目标搜索方式为第二搜索方式,其中,所述第二搜索方式不同于所述第一搜索方式。4.根据权利要求3所述的方法,其中,在确定所述目标搜索方式为所述第一搜索方式的情况下,基于所述目标搜索方式和所述第一字段对所述待搜索数据进行搜索,得到与所述目标关键词对应的搜索结果,包括:在确定所述目标搜索方式为所述第一搜索方式的情况下,获取第一字符,其中,所述第一字符为关键字符和搜索字符中相似度大于相似度阈值的字符;根据所述第一字符确定所述目标关键词和所述第一字段之间的相关度,其中,所述相关度用于表征所述目标关键词和所述第一字段之间的字符的匹配程度;基于所述相关度对所述待搜索数据进行搜索,得到所述搜索结果。5.根据权利要求4所述的方法,其中,根据所述第一字符确定所述目标关键词和所述第一字段之间的相关度,包括:基于所述第一字段和所述第一字符,确定第二字符;根据所述第一字符和所述第二字符,确定第一字符数量和第二字符数量,其中,所述第二字符为所述目标关键词中除所述第一字符之外的其他字符,所述第一字符数量为所述第一字符中与所述至少一个关键字符不匹配的字符数量,所述第二字符数量为所述第二字符中与所述至少一个关键字符不匹配的字符数量;基于所述第一字符数量和所述第二字符数量确定所述相关度。6.根据权利要求5所述的方法,其中,基于所述第一字符数量和所述第二字符数量确定所述相关度,包括:确定所述第一字符数量对应的第一分数和所述第二字符数量对应的第二分数;
根据所述第一分数和所述第二分数确定第一目标分数,其中,所述第一目标分数用于表示所述目标关键词与所述第一字段之间的相关度。7.根据权利要求3所述的方法,其中,所述目标搜索方式为所述第二搜索方式的情况下,基于所述目标搜索方式和所述第一字段对所述待搜索数据进行搜索,得到与所述目标关键词对应的搜索结果,包括:在确定目标搜索方式为第二搜索方式的情况下,确定所述目标关键词与所述第一字段之间的相似度,其中,所述相似度用于表征所述目标关键词和所述第一字段之间的相似程度;基于所述相似度对所述待搜索数据进行搜索,得到所述搜索结果。8.根据权利要求7所述的方法,其中,确定所述目标关键词与所述第一字段之间的相似度,包括:计算所述目标关键词与所述第一字段之间的编辑距离;根据所述编辑距离确定所述目标关键词与所述第一字段之间的所述相似度。9.根据权利要求2所述的方法,其中,基于所述第一目标类型确定与所述第一字段对应的目标预设类型,包括:判断所述第一目标类型是否为第一类型,其中,所述第一类型用于表示对应的字符均为数字;响应于所述第一目标类型是所述第一类型,确定与所述第一字段对应的所述目标预设类型为第一预设类型,其中,所述第一预设类型用于表示所述至少一个搜索字符中不包含目标符号,且所有搜索字符的字符类型均相同。10.根据权利要求2或9所述的方法,其中,基于所述第一目标类型确定与所述第一字段对应的目标预设类型,包括:判断所述第一目标类型和所述第二目标类型是否均为第二类型,其中,所述第二类型用于表示对应的字符均为中文;响应于所述第一目标类型和所述第二目标类型均是所述第二类型,确定与所述第一字段对应的所述目标预设类型为第一预设类型,其中,所述第一预设类型用于表示所述至少一个搜索字符中不包含目标符号,且所有搜索字符的字符类型均相同;响应于所述第一目标类型是所述第二类型,且所述第二目标类型不是所述第二类型,确定与所述第一字段...

【专利技术属性】
技术研发人员:徐焕旻李雅楠何伯磊陈坤斌和为
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1