文本检索方法、装置、设备及存储介质制造方法及图纸

技术编号:33292137 阅读:14 留言:0更新日期:2022-05-01 00:13
本申请涉及人工智能技术领域,公开了一种文本检索方法、装置、设备及存储介质,方法包括:当接收到文本检索请求时,根据文本检索请求获取第一检索文本;从第一检索文本中获取与预设的词库中的词语相匹配的匹配词集,其中,词库中的各个词语均设置有对应的语义标签;从匹配词集中选择目标匹配词,并获取与目标匹配词所匹配的目标语义标签;根据目标语义标签,从词库中获取与目标匹配词匹配的同义词;获取目标匹配词在第一检索文本的位置信息;根据位置信息将同义词插入第一检索文本,得到第二检索文本;根据第一检索文本进行检索,得到第一检索结果;根据第二检索文本进行检索,得到第二检索结果;从第一检索结果以及第二检索结果中筛选目标文件。中筛选目标文件。中筛选目标文件。

【技术实现步骤摘要】
文本检索方法、装置、设备及存储介质


[0001]本申请涉及人工智能的
,尤其涉及一种文本检索方法、装置、设备及存储介质。

技术介绍

[0002]现有技术中,用户在使用检索引擎进行文本检索时,往往只是根据用户输入的检索文本进行检索,并没有识别检索文本中的同义词以及根据同义词进行二次检索,因为检索范围小,导致检索效果差。

技术实现思路

[0003]本申请的主要目的在于提供一种文本检索方法、装置、设备及存储介质,旨在提高文本检索的效果。
[0004]第一方面,本申请提供一种文本检索方法,包括:
[0005]当接收到文本检索请求时,根据所述文本检索请求获取第一检索文本;
[0006]从所述第一检索文本中获取与预设的词库中的词语相匹配的匹配词集,其中,所述词库中的各个所述词语均设置有对应的语义标签;
[0007]从所述匹配词集中选择目标匹配词,并获取与所述目标匹配词所匹配的目标语义标签;
[0008]根据所述目标语义标签,从所述词库中获取与所述目标匹配词匹配的同义词;
[0009]获取所述目标匹配词在所述第一检索文本的位置信息;
[0010]根据所述位置信息将所述同义词插入所述第一检索文本,得到第二检索文本;
[0011]根据所述第一检索文本进行检索,得到第一检索结果;
[0012]根据所述第二检索文本进行检索,得到第二检索结果;
[0013]从所述第一检索结果以及所述第二检索结果中筛选目标文件。
[0014]第二方面,本申请还提供一种文本检索装置,所述文本检索装置包括:
[0015]第一文本获取模块,用于当接收到文本检索请求时,根据所述文本检索请求获取第一检索文本;
[0016]匹配词集获取模块,用于从所述第一检索文本中获取与预设的词库中的词语相匹配的匹配词集,其中,所述词库中的各个所述词语均设置有对应的语义标签;
[0017]语义标签获取模块,用于从所述匹配词集中选择目标匹配词,并获取与所述目标匹配词所匹配的目标语义标签;
[0018]同义词匹配模块,用于根据所述目标语义标签,从所述词库中获取与所述目标匹配词匹配的同义词;
[0019]位置信息获取模块,用于获取所述目标匹配词在所述第一检索文本的位置信息;
[0020]第二文本获取模块,用于根据所述位置信息将所述同义词插入所述第一检索文本,得到第二检索文本;
[0021]第一检索模块,用于根据所述第一检索文本进行检索,得到第一检索结果;
[0022]第二检索模块,用于根据所述第二检索文本进行检索,得到第二检索结果;
[0023]目标文件获取模块,用于从所述第一检索结果以及所述第二检索结果中筛选目标文件。
[0024]第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的文本检索方法的步骤。
[0025]第四方面,本申请还提供一种存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的文本检索方法的步骤。
[0026]本申请提供一种文本检索方法、装置、设备及存储介质,本申请中,当接收到文本检索请求时,根据文本检索请求获取第一检索文本;识别第一检索文本中有同义词的匹配词,并根据匹配词在第一检索文本的位置信息,将匹配词的同义词插入第一检索文本,得到第二检索文本,后根据第一检索文本以及第二检索文本分别进行检索,并从检索结果中筛选资源文件,得到目标文件。通过本申请所提供的检索方案,可以扩大检索范围,提高文本检索的效果。
附图说明
[0027]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028]图1为本申请实施例提供的一种文本检索方法的步骤流程示意图;
[0029]图2是图1中步骤S14的一种具体实施方式对应的步骤流程图;
[0030]图3是图1中步骤S16的一种具体实施方式对应的步骤流程图;
[0031]图4是图1中步骤S17的一种具体实施方式对应的步骤流程图;
[0032]图5为本申请实施例提供的一种文本检索装置的示意性框图;
[0033]图6为本申请实施例提供的一种计算机设备的结构示意性框图。
[0034]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0035]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0036]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
[0037]本申请实施例提供一种文本检索方法、装置、设备及存储介质。其中,该文本检索方法可应用于终端设备或服务器中,该终端设备可以为手机、平板电脑、笔记本电脑、台式
电脑、个人数字助理和穿戴式设备等电子设备;该服务器可以为单台的服务器,也可以为由多台服务器组成的服务器集群。以下以该文本检索方法应用于服务器为例进行解释说明。
[0038]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0039]请参照图1,图1为本申请实施例提供的一种文本检索方法的步骤流程示意图。
[0040]如图1所示,该文本检索方法包括步骤S10至步骤S18。
[0041]步骤S10、当接收到文本检索请求时,根据所述文本检索请求获取第一检索文本。
[0042]可以理解,文本检索请求的请求参数中设置有用户输入的检索文案,即第一检索文本。
[0043]步骤S11、从所述第一检索文本中获取与预设的词库中的词语相匹配的匹配词集,其中,所述词库中的各个所述词语均设置有对应的语义标签。
[0044]可以理解,词库为预设的词语集合,词库中的每个词语都设置有对应的语义标签,语义标签用于标识词语的语义。示例性的,假设A词语与B词语对应的语义标签相同,则B词语为A词语的同义词。
[0045]依次取出词库中的词语,并判断第一检索文本中是否包含该词语,如果包含,则该词语与第一检索文本匹配,由匹配成功的词语组成的集合,即匹配词集。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检索方法,其特征在于,包括:当接收到文本检索请求时,根据所述文本检索请求获取第一检索文本;从所述第一检索文本中获取与预设的词库中的词语相匹配的匹配词集,其中,所述词库中的各个所述词语均设置有对应的语义标签;从所述匹配词集中选择目标匹配词,并获取与所述目标匹配词所匹配的目标语义标签;根据所述目标语义标签,从所述词库中获取与所述目标匹配词匹配的同义词;获取所述目标匹配词在所述第一检索文本的位置信息;根据所述位置信息将所述同义词插入所述第一检索文本,得到第二检索文本;根据所述第一检索文本进行检索,得到第一检索结果;根据所述第二检索文本进行检索,得到第二检索结果;从所述第一检索结果以及所述第二检索结果中筛选目标文件。2.根据权利要求1所述的方法,其特征在于,所述从所述第一检索文本中获取与预设的词库中的词语相匹配的匹配词集,包括:从预设的词库中确定字符最多的词语对应的字符长度为比对长度;从所述词库中获取字符长度对应所述比对长度的词语,得到比对词集;根据预设步长以及所述比对长度对所述第一检索文本进行分词,得到分词集;依次从所述比对词集中获取比对词,并根据所述比对词与所述分词集进行匹配,当所述分词集中包括所述比对词时,所述比对词匹配成功,将所述比对词添加到匹配词集中;将所述比对长度减1,并再次执行比对词集获取步骤直至所述比对长度为0,得到所述匹配词集。3.根据权利要求1所述的方法,其特征在于,所述获取所述目标匹配词在所述第一检索文本的位置信息,包括:逐个获取所述目标匹配词在所述第一检索文本的位置区间信息,直至获取到所有所述目标匹配词对应的位置区间信息;判断各个所述位置区间信息是否存在重叠区域;当各个所述位置区间信息不存在重叠区域时,将所述位置区间信息作为所述位置信息;当各个所述位置区间信息存在重叠区域时,根据所述目标匹配词的字符长度筛选符合预设条件的位置区间信息作为所述位置信息。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一检索文本进行检索,得到第一检索结果,包括:根据构成所述第一检索文本的第一字符,及构成数据库中各个资源文件的文件字符,得到第一字库;从所述第一字库中识别与预设的特殊字符集中的字符相匹配的特殊字符,并将所述特殊字符从所述第一字库中移除,得到第二字库;根据所述第二字库,计算各个所述资源文件与所述第一检索文本的相似度,得到各个所述资源文件对应所述第一检索文本的第一得分;根据所述第一得分筛选所述资源文件,得到第一检索结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第二字库,计算各个所述资源文件与所述第一检索文本的相似度,得到各个所述资源文件对应所述第一检索文本的第一得分,包括:计算所述第一检索文本对应所述第二字库中的字符的TF

IDF值,以获得所述第一检索文本对应的第一向量;计算所述各个所述资源文件对...

【专利技术属性】
技术研发人员:陈凡
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1