一种基于意图识别的关联搜索方法及系统技术方案

技术编号:33766611 阅读:18 留言:0更新日期:2022-06-12 14:17
本申请公开了一种基于意图识别的关联搜索方法及系统,其方法包括:获取检索内容文本;根据检索内容文本进行意图识别,得到意图检索领域;根据意图检索领域关联得到目标数据源;对目标数据源进行搜索,得到搜索结果。通过先根据检索内容文本进行意图识别,得到意图检索领域,从而关联到目标数据源,从进行精准的搜索,不需要遍历所有的数据源进行搜索了,提高了搜索过程的效率,并且搜索结果能够满足用户的搜索意图。的搜索意图。的搜索意图。

【技术实现步骤摘要】
一种基于意图识别的关联搜索方法及系统


[0001]本申请涉及信息检索
,尤其是涉及一种基于意图识别的关联搜索方法及系统。

技术介绍

[0002]目前,面向企业用户和个人用户的搜索引擎,一般都是按照企业用户或个人用户的搜索意图对不同的数据源进行内容搜索。
[0003]但是,搜索引擎对于无差别的搜索,需要逐个查询所有数据源,再对搜索到的结果进行混合排序,会导致搜索过程的效率低,并且也无法保证搜索结果满足用户搜索意图。

技术实现思路

[0004]为了提高搜索过程的效率,并且搜索结果能够满足用户的搜索意图,本申请提供了一种基于意图识别的关联搜索方法及系统。
[0005]第一方面,本申请提供一种基于意图识别的关联搜索方法,采用如下的技术方案:一种基于意图识别的关联搜索方法,包括:获取检索内容文本;根据所述检索内容文本进行意图识别,得到意图检索领域;根据所述意图检索领域关联得到目标数据源;对所述目标数据源进行搜索,得到搜索结果。
[0006]通过采用上述技术方案,在进行搜索之前,先根据检索内容文本进行意图识别,得到意图检索领域,从而关联到目标数据源,从进行精准的搜索,不需要遍历所有的数据源进行搜索了,提高了搜索过程的效率,并且搜索结果能够满足用户的搜索意图。
[0007]可选的,所述根据所述检索内容文本进行意图识别,得到意图检索领域,包括:将所述检索内容文本与预设关键词库进行关键词匹配;若成功匹配到目标关键词,则基于所述目标关键词进行意图识别,得到意图检索领域。
[0008]可选的,所述根据所述检索内容文本进行意图识别,得到意图检索领域,包括:将所述检索内容文本与预设热词库进行热词匹配;若成功匹配到目标热词,则基于所述目标热词进行意图识别,得到意图检索领域。
[0009]可选的,所述方法还包括:若未成功匹配到目标关键词和/或目标热词,则对所述检索内容文本进行向量化处理;将向量化处理后的所述检索内容文本输入预先训练的卷积神经意图识别模型,得到模型输出结果,将所述模型输出结果作为意图检索领域。
[0010]可选的,所述根据所述检索内容文本进行意图识别,得到意图检索领域之前,还包括:
获取所有数据源的数据中的重要词语,将所述重要词语作为第一热词;获取用户搜索历史文本,对所述用户搜索历史文本进行非名词清洗,得到第二热词;根据所述第一热词和所述第二热词形成热词库;接收运维人员输入的热修复词语,将所述热修复词语作为新的热词增加到所述热词库中。
[0011]可选的,所述根据所述检索内容文本进行意图识别,得到意图检索领域之前,还包括:获取业务标注数据及数据源中的数据;根据预设标签类别,对所述业务标注数据和所述数据源中的数据赋予类别标签;对所述类别标签的数据进行向量化处理后,对文本卷积神经网络模型进行训练,得到卷积神经意图识别模型。
[0012]可选的,所述根据所述意图检索领域关联得到目标数据源,包括:确定所述意图检索领域的子领域数量;当存在一个子领域时,确定与子领域对应的目标数据源;当存在多个子领域时,根据子领域历史搜索热度,设定每一个子领域的优先级;根据优先级从高到低的原则,确定与每一个子领域对应的目标数据源。
[0013]可选的,所述对所述目标数据源进行搜索,得到搜索结果,包括:当只有一个子领域对应的目标数据源时,对所述目标数据源进行搜索,得到搜索结果;当存在多个子领域对应的目标数据源时,根据每一个子领域的优先级,按照优先级从高到低的原则,依次搜索对应的目标数据源,得到每个目标数据源对应的搜索结果。
[0014]第二方面,本申请提供一种基于意图识别的关联搜索系统,采用如下的技术方案:获取模块,用于获取检索内容文本;意图识别模块,用于根据所述检索内容文本进行意图识别,得到意图检索领域;数据源关联模块,用于根据所述意图检索领域关联得到目标数据源;搜索模块,用于对所述目标数据源进行搜索,得到搜索结果。
[0015]综上,本申请包括以下有益技术效果:在进行搜索之前,先根据检索内容文本进行意图识别,得到意图检索领域,从而关联到目标数据源,进行精准的搜索,不需要遍历所有的数据源进行搜索了,提高了搜索过程的效率,并且搜索结果能够满足用户的搜索意图。
附图说明
[0016]图1是本申请的基于意图识别的关联搜索方法的流程示意图。
[0017]图2是本申请的通过关键词方式进行意图识别得到意图检索领域的过程的流程示意图。
[0018]图3是本申请的通过热词方式进行意图识别得到意图检索领域的过程的流程示意图。
[0019]图4是本申请的通过卷积神经意图识别模型的方式进行意图识别得到意图检索领
域的过程的流程示意图。
[0020]图5是本申请的根据意图检索领域关联目标数据源搜索得到搜索结果的流程示意图。
[0021]图6是本申请的基于意图识别的关联搜索系统的结构示意图。
具体实施方式
[0022]为了使本申请的目的、技术方案及优点更加清楚明白,以下通过附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0023]本申请实施例公开一种基于意图识别的关联搜索方法。
[0024]参照图1,该方法包括:101,获取检索内容文本。
[0025]其中,在当前情况下,一款具有检索功能的应用在面向企业用户或者个人用户时,由于能够提供的业务和服务范围并非是单一的,那么用户在进行搜索和检索时,需要输入检索内容,检索内容可以是通过点击应用的选项,可以是输入一段文字,也可以是语音输入之后,将语音信息转换为文本,最终得到的都是检索内容文本,检索内容文本一般可以是短词、语句或者长段文字。具体的,本申请的实施例中具有检索功能的应用,主要功能有政策检索、专利检索、商标检索、版权检索及产学研合作检索。
[0026]102,根据检索内容文本进行意图识别,确定意图检索领域。
[0027]其中,由于应用的业务和服务范围的多样性,那么需要检索的数据源就是多种,例如,一个知识产权的服务平台,可能涉及到政策检索、专利检索、商标检索、版权检索及产学研合作检索,那么数据源就有5种,分别是商标数据库、版权数据库、专利数据库、政策数据库及产学研合作数据库,每一种数据库都是需要分别进行搜索的,将会消耗大量的时间和资源进行遍历搜索,因此,需要根据检索内容文本进行意图识别,即确定用户需要搜索的目标是什么,在本实施例中,意图识别完成之后得到意图检索领域。进行意图识别得到意图检索领域的方式具体包括3种,第一种是关键词,第二种是热词,第三种是利用卷积神经意图识别模型。例如,输入的检索内容文本是H04N,H04N是国际专利分类号IPC中H大类中的中的一个小类,分类号H04N表示的是专利分类属于图像通信,很明显,用户输入H04N,需要的是从专利数据库中检索到所有分属于H04N的专利,意图检索领域就是专利数据库。
[0028]103,根据意图检索领域关联得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于意图识别的关联搜索方法,其特征在于,包括:获取检索内容文本;根据所述检索内容文本进行意图识别,得到意图检索领域;根据所述意图检索领域关联得到目标数据源;对所述目标数据源进行搜索,得到搜索结果。2.根据权利要求1所述的基于意图识别的关联搜索方法,其特征在于,所述根据所述检索内容文本进行意图识别,得到意图检索领域,包括:将所述检索内容文本与预设关键词库进行关键词匹配;若成功匹配到目标关键词,则基于所述目标关键词进行意图识别,得到意图检索领域。3.根据权利要求1所述的基于意图识别的关联搜索方法,其特征在于,所述根据所述检索内容文本进行意图识别,得到意图检索领域,包括:将所述检索内容文本与预设热词库进行热词匹配;若成功匹配到目标热词,则基于所述目标热词进行意图识别,得到意图检索领域。4.根据权利要求2和3所述的基于意图识别的关联搜索方法,其特征在于,所述方法还包括:若未成功匹配到目标关键词和/或目标热词,则对所述检索内容文本进行向量化处理;将向量化处理后的所述检索内容文本输入预先训练的卷积神经意图识别模型,得到模型输出结果,将所述模型输出结果作为意图检索领域。5.根据权利要求4所述的基于意图识别的关联搜索方法,其特征在于,所述根据所述检索内容文本进行意图识别,得到意图检索领域之前,还包括:获取所有数据源的数据中的重要词语,将所述重要词语作为第一热词;获取用户搜索历史文本,对所述用户搜索历史文本进行非名词清洗,得到第二热词;根据所述第一热词和所述第二热词形成热词库;接收输入的热修复词语,将所述热修复词语作...

【专利技术属性】
技术研发人员:宁旭章徐东升宋志军贾现永蔡子哲
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1