一种文本信息的搜索方法及装置制造方法及图纸

技术编号:36969698 阅读:10 留言:0更新日期:2023-03-22 19:30
本发明专利技术公开了一种文本信息的搜索方法及装置,所述方法包括:获取用户输入的待搜索信息,基于待搜索信息包含的词组调整ES索引中的Ngram分词边界值,并利用待搜索信息建立成与ES索引连接的匹配文档;按照Ngram分词边界值对待搜索文本信息进行分词得到若干个分词词项;将分词词项与匹配文档进行文本匹配得到目标搜索文本。本发明专利技术可以根据用户输入的待搜索信息调整ES索引中的Ngram分词边界值并建立成可与ES索引连接的匹配文档,按照Ngram分词边界值进行分词,再将分词与匹配文档进行匹配,以筛选符合用户的待搜索信息,不但减少分词后的词项数量,避免产生大量冗余无用的词项,而且可以缩短搜索的时长,提升搜索的效率。提升搜索的效率。提升搜索的效率。

【技术实现步骤摘要】
一种文本信息的搜索方法及装置


[0001]本专利技术涉及文本搜索的
,尤其涉及一种文本信息的搜索方法及装置。

技术介绍

[0002]随着自然语言技术的发展,在不同应用场景中基于词语进行搜索相关信息已经逐步依赖于人工智能算法进行实现,尤其是,用户通常会通过录入文字词语等文本内容进行搜索信息,此时,执行端会通过算法模型对文字词语等进行搜索,从而搜索得到匹配的信息,以供用户使用。
[0003]其中一种常用的搜索方法是:采用搭载了Ngram(N元语法分析器)的ES索引分析器进行搜索分析,其具体操作是:将文本块转换为有区别的、规范化的词项,分析出来的词项列表和文档的映射关系会存储在倒排索引表中,每次查询会对每个词项在倒排索引表中快速匹配到文档,再将文档去重排序合并后返回给页面显示。
[0004]但目前常用的方法有如下技术问题:Ngram分词设置的分词边界值过大,将文本块转换为有区别的词项,会产生大量冗余无用的词项,导致词项存储量大,浪费存储资源;而且由于分词边界值过大,导致每次搜索耗费大量时间进行分词,拖慢搜索性能,降低了搜索的效率。

技术实现思路

[0005]本专利技术提出一种通用的文本搜索方法及装置,所述方法在获取用户输入的待搜索信息后,以待搜索信息的词组调整ES索引中的Ngram分词边界值,同时利用待搜索信息建立成可与ES索引连接的匹配文档,在进行搜索时按照Ngram分词边界值对信息进行分词,再将分词与匹配文档进行匹配,以筛选符合用户的待搜索信息,不但减少分词后的词项数量,避免产生大量冗余无用的词项,而且可以缩短搜索的时长,提升搜索的效率。
[0006]本专利技术实施例的第一方面提供了一种文本信息的搜索方法,所述方法包括:
[0007]获取用户输入的待搜索信息,基于所述待搜索信息包含的词组调整ES索引中的Ngram分词边界值,并利用所述待搜索信息建立成与ES索引连接的匹配文档;
[0008]按照所述Ngram分词边界值对待搜索文本信息进行分词得到若干个分词词项;
[0009]将所述分词词项与所述匹配文档进行文本匹配得到目标搜索文本。
[0010]在第一方面的一种可能的实现方式中,所述基于所述待搜索信息包含的词组调整ES索引中的Ngram分词边界值,包括:
[0011]统计所述待搜索信息包含的词组数量;
[0012]按照所述词组数量的数值将所述待搜索信息拆分成若干个名称词组,并确定所述名称词组的词语长度值;
[0013]按照所述词语长度值调整ES索引中的Ngram分词边界值。
[0014]在第一方面的一种可能的实现方式中,所述利用所述待搜索信息建立成与ES索引连接的匹配文档,包括:
[0015]将所述待搜索信息添加至预设的空白文档中得到匹配文档;
[0016]调用ES索引新增文档接口,并在所述文档接口中插入所述匹配文档。
[0017]在第一方面的一种可能的实现方式中,所述将所述分词词项与所述匹配文档进行文本匹配得到目标搜索文本,包括:
[0018]按照所述匹配文档对若干个所述分词词项进行短语匹配,得到若干个匹配短语;
[0019]对若干个所述匹配短语进行去重排序得到目标搜索文本。
[0020]本专利技术实施例的第二方面提供了一种文本信息的搜索装置,所述装置包括:
[0021]调整与建立模块,用于获取用户输入的待搜索信息,基于所述待搜索信息包含的词组调整ES索引中的Ngram分词边界值,并利用所述待搜索信息建立成与ES索引连接的匹配文档;
[0022]分词模块,用于按照所述Ngram分词边界值对待搜索文本信息进行分词得到若干个分词词项;
[0023]搜索模块,用于将所述分词词项与所述匹配文档进行文本匹配得到目标搜索文本。
[0024]在第二方面的一种可能的实现方式中,所述调整与建立模块,还用于:
[0025]统计所述待搜索信息包含的词组数量;
[0026]按照所述词组数量的数值将所述待搜索信息拆分成若干个名称词组,并确定所述名称词组的词语长度值;
[0027]按照所述词语长度值调整ES索引中的Ngram分词边界值。
[0028]在第二方面的一种可能的实现方式中,所述调整与建立模块,还用于:
[0029]将所述待搜索信息添加至预设的空白文档中得到匹配文档;
[0030]调用ES索引新增文档接口,并在所述文档接口中插入所述匹配文档。
[0031]在第二方面的一种可能的实现方式中,所述搜索模块,还用于:
[0032]按照所述匹配文档对若干个所述分词词项进行短语匹配,得到若干个匹配短语;
[0033]对若干个所述匹配短语进行去重排序得到目标搜索文本。
[0034]相比于现有技术,本专利技术实施例提供的一种文本信息的搜索方法及装置,其有益效果在于:本专利技术可以在获取用户输入的待搜索信息后,以待搜索信息的词组调整ES索引中的Ngram分词边界值,同时利用待搜索信息建立成可与ES索引连接的匹配文档,在进行搜索时按照Ngram分词边界值对信息进行分词,再将分词与匹配文档进行匹配,以筛选符合用户的待搜索信息,通过调整后的Ngram分词边界值进行分词,不但减少分词后的词项数量,避免产生大量冗余无用的词项,而且可以缩短搜索的时长,提升搜索的效率。
附图说明
[0035]图1是本专利技术一实施例提供的一种文本信息的搜索方法的流程示意图;
[0036]图2是本专利技术一实施例提供的跳词匹配的操作流程图;
[0037]图3是本专利技术一实施例提供的一种文本信息的搜索方法的操作流程图;
[0038]图4是本专利技术一实施例提供的一种文本信息的搜索装置的结构示意图。
具体实施方式
[0039]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0040]随着自然语言技术的发展,在不同应用场景中基于词语进行搜索相关信息已经逐步依赖于人工智能算法进行实现,尤其是,用户通常会通过录入文字词语等文本内容进行搜索信息,此时,执行端会通过算法模型对文字词语等进行搜索,从而搜索得到匹配的信息,以供用户使用。
[0041]其中一种常用的搜索方法是:采用搭载了Ngram(N元语法分析器)的ES索引分析器进行搜索分析,其具体操作是:将文本块转换为有区别的、规范化的词项,分析出来的词项列表和文档的映射关系会存储在倒排索引表中,每次查询会对每个词项在倒排索引表中快速匹配到文档,再将文档去重排序合并后返回给页面显示。
[0042]但目前常用的方法有如下技术问题:Ngram分词设置的分词边界值过大,将文本块转换为有区别的词项,会产生大量冗余无用的词项,导致词项存储量大,浪费存储资源;而且由于分词边界值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本信息的搜索方法,其特征在于,所述方法包括:获取用户输入的待搜索信息,基于所述待搜索信息包含的词组调整ES索引中的Ngram分词边界值,并利用所述待搜索信息建立成与ES索引连接的匹配文档;按照所述Ngram分词边界值对待搜索文本信息进行分词得到若干个分词词项;将所述分词词项与所述匹配文档进行文本匹配得到目标搜索文本。2.根据权利要求1所述的文本信息的搜索方法,其特征在于,所述基于所述待搜索信息包含的词组调整ES索引中的Ngram分词边界值,包括:统计所述待搜索信息包含的词组数量;按照所述词组数量的数值将所述待搜索信息拆分成若干个名称词组,并确定所述名称词组的词语长度值;按照所述词语长度值调整ES索引中的Ngram分词边界值。3.根据权利要求1所述的文本信息的搜索方法,其特征在于,所述利用所述待搜索信息建立成与ES索引连接的匹配文档,包括:将所述待搜索信息添加至预设的空白文档中得到匹配文档;调用ES索引新增文档接口,并在所述文档接口中插入所述匹配文档。4.根据权利要求1所述的文本信息的搜索方法,其特征在于,所述将所述分词词项与所述匹配文档进行文本匹配得到目标搜索文本,包括:按照所述匹配文档对若干个所述分词词项进行短语匹配,得到若干个匹配短语;对若干个所述匹配短语进行去重排序得到目标搜索文本。5.一种文本信息的搜索装置,其特征在于,所述装置包括:调整与建立模块,用于获取用户输入的待搜索信息,基于所述待搜索信息包含的词组调整ES索引中的Ngram分词边界值,并利用所述待...

【专利技术属性】
技术研发人员:余冰邹春刚唐陈龙马旭
申请(专利权)人:广州快批计算机系统有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1