【技术实现步骤摘要】
文本检索方法、装置、电子设备及介质
[0001]本公开涉及人工智能
,具体为自然语言处理、深度学习、预训练模型
,可应用于智慧城市、智慧政务等场景。本公开具体涉及一种文本检索方法、装置、电子设备、存储介质和计算机程序产品。
技术介绍
[0002]相关技术中通常会采用文本截断的方式进行文本检索,也即当检索内容长度超过某个限制后,仅取限制范围内的文本内容进行文本检索。但是,在利用包含复杂信息的长文本进行文本检索时,相关的关键信息可能分布在检索内容的各个位置。如果应用文本截断的方式来进行文本检索,会遗漏部分关键信息,导致检索结果不准确。
技术实现思路
[0003]本公开提供了一种文本检索方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据本公开的一方面,提供了一种文本检索方法,包括:根据检索文本中的多个关键词,获取与检索文本相关联的多个候选文本;对检索文本进行解析处理,得到与检索文本对应的第一特征信息、第二特征信息和第三特征信息;分别对多个候选文本进行解析处理,得到与多个候选文本各自对应的候选特征信息;针对每个候选文本,根据第一特征信息、第二特征信息、第三特征信息和候选特征信息,确定候选文本与检索文本之间的匹配度;以及根据匹配度对多个候选文本进行排序,并基于排序结果,获得与检索文本对应的检索结果。
[0005]根据本公开的另一方面,提供了一种文本检索装置,包括:获取模块,用于根据检索文本中的多个关键词,获取与检索文本相关联的多个候选文本;第一解析模块,用于对检索文本 ...
【技术保护点】
【技术特征摘要】
1.一种文本检索方法,包括:根据检索文本中的多个关键词,获取与所述检索文本相关联的多个候选文本;对所述检索文本进行解析处理,得到与所述检索文本对应的第一特征信息、第二特征信息和第三特征信息;分别对所述多个候选文本进行解析处理,得到与所述多个候选文本各自对应的候选特征信息;针对每个候选文本,根据所述第一特征信息、所述第二特征信息、所述第三特征信息和所述候选特征信息,确定所述候选文本与所述检索文本之间的匹配度;以及根据所述匹配度对所述多个候选文本进行排序,并基于排序结果,获得与所述检索文本对应的检索结果。2.根据权利要求1所述的方法,其中,所述对所述检索文本进行解析处理,得到与所述检索文本对应的第一特征信息、第二特征信息和第三特征信息包括:对所述检索文本中的多个关键词进行词性识别,得到所述多个关键词的词性识别结果和关键词权重,并将所述多个关键词的词性识别结果和所述关键词权重确定为所述第一特征信息;对所述检索文本进行意图分类,得到所述检索文本对应的意图分类结果和意图置信度,并将所述意图分类结果和所述意图置信度确定为第二特征信息;以及对所述检索文本进行实体识别,得到第一实体识别结果以及与所述第一实体识别结果相关联的第一重要度识别结果,并将所述第一实体识别结果和所述第一重要度识别结果确定为第三特征信息;其中,所述第一重要度识别结果用于表征所述第一实体识别结果中每个第一实体的重要度。3.根据权利要求2所述的方法,其中,所述分别对所述多个候选文本进行解析处理,得到与所述多个候选文本各自对应的候选特征信息包括:针对每个候选文本,对所述候选文本进行实体识别,得到第二实体识别结果以及与所述第二实体识别结果相关联的第二重要度识别结果;其中,所述第二重要度识别结果用于表征所述第二实体识别结果中每个第二实体的重要度;以及将所述第二实体识别结果和所述第二重要度识别结果确定为所述候选特征信息。4.根据权利要求3所述的方法,其中,所述根据所述第一特征信息、所述第二特征信息、所述第三特征信息和所述候选特征信息,确定所述候选文本与所述检索文本之间的匹配度包括:针对每个所述第二实体,确定所述多个关键词中与所述第二实体相匹配的目标关键词所对应的目标关键词权重,以及所述意图分类结果中与所述第二实体相匹配的意图信息所对应的目标意图置信度;根据所述第二实体、所述第一实体识别结果中与所述第二实体对应的第一实体和所述目标关键词权重,确定所述第二实体与对应的第一实体之间的初始匹配度;根据所述第二实体与对应的第一实体之间的初始匹配度、所述目标意图置信度、所述第二实体对应的重要度以及对应的第一实体的重要度,确定所述第二实体与对应的第一实体之间的匹配度;以及根据各个第二实体与对应的第一实体之间的匹配度,确定所述候选文本与所述检索文
本之间的匹配度。5.根据权利要求4所述的方法,其中,所述分别对所述多个候选文本进行解析处理,得到与所述多个候选文本各自对应的候选特征信息还包括:针对每个候选文本,根据所述候选文本的更新时间以及与所述候选文本关联的文本的数量,确定属性特征信息;以及将所述属性特征信息、所述第二实体识别结果和所述第二重要度识别结果确定为所述候选特征信息。6.根据权利要求5所述的方法,其中,所述根据所述第一特征信息、所述第二特征信息、所述第三特征信息和所述候选特征信息,确定所述候选文本与所述检索文本之间的匹配度还包括:根据所述属性特征信息,确定属性匹配度;以及根据所述属性匹配度以及所述各个第二实体与对应的第一实体之间的匹配度,确定所述候选文本与所述检索文本之间的匹配度。7.根据权利要求1至6中任一项所述的方法,还包括:对所述检索文本进行分词处理,得到所述检索文本中的多个关键词。8.一种文本检索装置,包括:获取模块,用于根据检索文本中的多个关键词,获取与所述检索文本相关联的多个候选文本;第一解析模块,用于对所述检索文本进行解析处理,得到与所述检索文本对应的第一特征信息、第二特征信息...
【专利技术属性】
技术研发人员:陈珺仪,谢奕,陈佳颖,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。