文本检索方法、装置、电子设备及介质制造方法及图纸

技术编号:38566679 阅读:14 留言:0更新日期:2023-08-22 21:04
本公开提供了一种文本检索方法、装置、电子设备及介质,涉及人工智能领域,具体为自然语言处理、深度学习、预训练模型技术领域,可应用于智慧城市、智慧政务等场景。具体实现方案为:根据检索文本中的多个关键词,获取与检索文本相关联的多个候选文本;对检索文本进行解析处理,得到与检索文本对应的第一特征信息、第二特征信息和第三特征信息;分别对多个候选文本进行解析处理,得到与多个候选文本各自对应的候选特征信息;针对每个候选文本,根据第一特征信息、第二特征信息、第三特征信息和候选特征信息,确定候选文本与检索文本之间的匹配度;以及根据匹配度对多个候选文本进行排序,并基于排序结果,获得与检索文本对应的检索结果。索结果。索结果。

【技术实现步骤摘要】
文本检索方法、装置、电子设备及介质


[0001]本公开涉及人工智能
,具体为自然语言处理、深度学习、预训练模型
,可应用于智慧城市、智慧政务等场景。本公开具体涉及一种文本检索方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]相关技术中通常会采用文本截断的方式进行文本检索,也即当检索内容长度超过某个限制后,仅取限制范围内的文本内容进行文本检索。但是,在利用包含复杂信息的长文本进行文本检索时,相关的关键信息可能分布在检索内容的各个位置。如果应用文本截断的方式来进行文本检索,会遗漏部分关键信息,导致检索结果不准确。

技术实现思路

[0003]本公开提供了一种文本检索方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据本公开的一方面,提供了一种文本检索方法,包括:根据检索文本中的多个关键词,获取与检索文本相关联的多个候选文本;对检索文本进行解析处理,得到与检索文本对应的第一特征信息、第二特征信息和第三特征信息;分别对多个候选文本进行解析处理,得到与多个候选文本各自对应的候选特征信息;针对每个候选文本,根据第一特征信息、第二特征信息、第三特征信息和候选特征信息,确定候选文本与检索文本之间的匹配度;以及根据匹配度对多个候选文本进行排序,并基于排序结果,获得与检索文本对应的检索结果。
[0005]根据本公开的另一方面,提供了一种文本检索装置,包括:获取模块,用于根据检索文本中的多个关键词,获取与检索文本相关联的多个候选文本;第一解析模块,用于对检索文本进行解析处理,得到与检索文本对应的第一特征信息、第二特征信息和第三特征信息;第二解析模块,用于分别对多个候选文本进行解析处理,得到与多个候选文本各自对应的候选特征信息;匹配模块,用于针对每个候选文本,根据第一特征信息、第二特征信息、第三特征信息和候选特征信息,确定候选文本与检索文本之间的匹配度;以及排序模块,用于根据匹配度对多个候选文本进行排序,并基于排序结果,获得与检索文本对应的检索结果。
[0006]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
[0007]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
[0008]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开实施例的可以应用文本检索方法和装置的示例性系统架构示意图;
[0012]图2是根据本公开实施例的文本检索方法的流程图;
[0013]图3A和图3B是根据本公开实施例的文本检索方法的示意图;
[0014]图4是根据本公开实施例的文本检索装置的框图;以及
[0015]图5是用来实现本公开实施例的文本检索方法的电子设备的框图。
具体实施方式
[0016]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0017]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0018]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0019]在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
[0020]图1是根据本公开的实施例的可以应用文本检索方法和装置的示例性系统架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
[0021]如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
[0022]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用。例如,知识阅读类应用、文档处理类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端或社交平台软件等(仅为示例)。
[0023]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0024]服务器105可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云服务、云计算、网络服务、中间件服务等基础云计算服务
的云服务器。
[0025]服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
[0026]例如,服务器105可以通过网络104获取来自终端设备101、102、103的检索文本,并基于检索文本中的多个关键词,获取与检索文本相关联的多个候选文本。之后,对检索文本进行解析处理,得到与检索文本对应的第一特征信息、第二特征信息和第三特征信息。然后分别对多个候选文本进行解析处理,得到与多个候选文本各自对应的候选特征信息。之后,针对每个候选文本,根据第一特征信息、第二特征信息、第三特征信息和候选特征信息,确定候选文本与检索文本之间的匹配度,以及根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检索方法,包括:根据检索文本中的多个关键词,获取与所述检索文本相关联的多个候选文本;对所述检索文本进行解析处理,得到与所述检索文本对应的第一特征信息、第二特征信息和第三特征信息;分别对所述多个候选文本进行解析处理,得到与所述多个候选文本各自对应的候选特征信息;针对每个候选文本,根据所述第一特征信息、所述第二特征信息、所述第三特征信息和所述候选特征信息,确定所述候选文本与所述检索文本之间的匹配度;以及根据所述匹配度对所述多个候选文本进行排序,并基于排序结果,获得与所述检索文本对应的检索结果。2.根据权利要求1所述的方法,其中,所述对所述检索文本进行解析处理,得到与所述检索文本对应的第一特征信息、第二特征信息和第三特征信息包括:对所述检索文本中的多个关键词进行词性识别,得到所述多个关键词的词性识别结果和关键词权重,并将所述多个关键词的词性识别结果和所述关键词权重确定为所述第一特征信息;对所述检索文本进行意图分类,得到所述检索文本对应的意图分类结果和意图置信度,并将所述意图分类结果和所述意图置信度确定为第二特征信息;以及对所述检索文本进行实体识别,得到第一实体识别结果以及与所述第一实体识别结果相关联的第一重要度识别结果,并将所述第一实体识别结果和所述第一重要度识别结果确定为第三特征信息;其中,所述第一重要度识别结果用于表征所述第一实体识别结果中每个第一实体的重要度。3.根据权利要求2所述的方法,其中,所述分别对所述多个候选文本进行解析处理,得到与所述多个候选文本各自对应的候选特征信息包括:针对每个候选文本,对所述候选文本进行实体识别,得到第二实体识别结果以及与所述第二实体识别结果相关联的第二重要度识别结果;其中,所述第二重要度识别结果用于表征所述第二实体识别结果中每个第二实体的重要度;以及将所述第二实体识别结果和所述第二重要度识别结果确定为所述候选特征信息。4.根据权利要求3所述的方法,其中,所述根据所述第一特征信息、所述第二特征信息、所述第三特征信息和所述候选特征信息,确定所述候选文本与所述检索文本之间的匹配度包括:针对每个所述第二实体,确定所述多个关键词中与所述第二实体相匹配的目标关键词所对应的目标关键词权重,以及所述意图分类结果中与所述第二实体相匹配的意图信息所对应的目标意图置信度;根据所述第二实体、所述第一实体识别结果中与所述第二实体对应的第一实体和所述目标关键词权重,确定所述第二实体与对应的第一实体之间的初始匹配度;根据所述第二实体与对应的第一实体之间的初始匹配度、所述目标意图置信度、所述第二实体对应的重要度以及对应的第一实体的重要度,确定所述第二实体与对应的第一实体之间的匹配度;以及根据各个第二实体与对应的第一实体之间的匹配度,确定所述候选文本与所述检索文
本之间的匹配度。5.根据权利要求4所述的方法,其中,所述分别对所述多个候选文本进行解析处理,得到与所述多个候选文本各自对应的候选特征信息还包括:针对每个候选文本,根据所述候选文本的更新时间以及与所述候选文本关联的文本的数量,确定属性特征信息;以及将所述属性特征信息、所述第二实体识别结果和所述第二重要度识别结果确定为所述候选特征信息。6.根据权利要求5所述的方法,其中,所述根据所述第一特征信息、所述第二特征信息、所述第三特征信息和所述候选特征信息,确定所述候选文本与所述检索文本之间的匹配度还包括:根据所述属性特征信息,确定属性匹配度;以及根据所述属性匹配度以及所述各个第二实体与对应的第一实体之间的匹配度,确定所述候选文本与所述检索文本之间的匹配度。7.根据权利要求1至6中任一项所述的方法,还包括:对所述检索文本进行分词处理,得到所述检索文本中的多个关键词。8.一种文本检索装置,包括:获取模块,用于根据检索文本中的多个关键词,获取与所述检索文本相关联的多个候选文本;第一解析模块,用于对所述检索文本进行解析处理,得到与所述检索文本对应的第一特征信息、第二特征信息...

【专利技术属性】
技术研发人员:陈珺仪谢奕陈佳颖
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1