一种多方式丰富搜索词库优化搜索分词方法、装置、设备及存储介质制造方法及图纸

技术编号:36290001 阅读:63 留言:0更新日期:2023-01-13 10:02
一种多方式丰富搜索词库及优化搜索分词的方法、装置、设备及存储介质,所述方法包括以下步骤:S1.根据用户搜索行为构建搜索词库;S2.根据用户搜索行为数据和用户点击行为数据,优化搜索词库;S3.根据用户历史搜索行为数据,补全用户搜索词。本发明专利技术公开的一种多方式丰富搜索词库及优化搜索分词的方法,通过分析用户的搜索喜好,预测并补全用户搜索词,从而达到完整分词的效果,让分词搜索结果更接近用户意图。户意图。户意图。

【技术实现步骤摘要】
一种多方式丰富搜索词库优化搜索分词方法、装置、设备及存储介质


[0001]本专利技术属于信息检索
,具体涉及一种多方式丰富搜索词库优化搜索分词方法、装置、设备及存储介质。

技术介绍

[0002]现有的搜索词库优化方案一般采用导入整理好的通用词库,例如:水果名称库、人物名称库、地名库等,采用这种方法确实可以优化搜索的通用分词效果,但是针对于特定地域的旅游行业垂直搜索却没能有较好的优化,并且现有的搜索词库优化方案其词库的获取比较困难,依赖于各个领域的专家进行筛选和数据库的建立,往往需要花费较长的时间,还达不到较好的优化效果。另外,目前还有一种搜索词库优化方案是基于技术方案来进行优化搜索分词的,但其对自然语言处理的技术要求较高,往往还需要耗费很高的成本。

技术实现思路

[0003]本专利技术所要解决的技术问题在于针对上述现有的搜索词库优化方案存在的耗时较长以及技术要求高、成本高的问题,提供一种多方式丰富搜索词库优化搜索分词方法,一种多方式丰富搜索词库优化搜索分词装置,一种多方式丰富搜索词库优化搜索分词设备,还提供一种多方式丰富搜索词库优化搜索分词存储介质。
[0004]第一方面,本专利技术提供的一种多方式丰富搜索词库优化搜索分词方法,包括以下步骤:
[0005]S1.根据用户搜索行为数据构建搜索词库;
[0006]S2.根据所述用户搜索行为数据和用户点击行为数据,优化搜索词库;
[0007]S3.根据用户历史搜索行为数据,补全用户搜索词。
[0008]作为本专利技术的进一步改进,所述步骤S1包括:
[0009]根据公开数据库提取地方市、区、县、地方景区名称及其简称;
[0010]根据网页信息采集与所述地方市、区、县、地方景区名称对应的别名。
[0011]作为本专利技术的进一步改进,所述步骤S2包括:
[0012]在第一预设周期内对用户搜索行为数据进行分析、对用户输入的搜索词进行频次统计;
[0013]根据所述第一预设周期内用户搜索的总次数n,按照使用频次从高到底提取n/5的搜索词,其中,n为正整数;
[0014]对提取的搜索词进行语义分析,去除语义不完整的搜索词,并将剩余的搜索词与现有搜索词库中的搜索词比对,进行去重入库。
[0015]作为本专利技术的进一步改进,所述步骤S2还包括:
[0016]在第二预设周期内对用户点击行为数据进行分析、对用户点击行为产生的点击量进行统计排名;
[0017]提取点击量排名在前m的资源,对提取的资源进行关键词、主题词、地理位置信息提取;
[0018]对提取的关键词及主题词进行语义分析,提取语义匹配度较高的k个词与现有搜索词库中的搜索词比对,进行去重入库;
[0019]其中,m、k均为正整数,且m≤100,k≤2。
[0020]作为本专利技术的进一步改进,所述用户搜索行为数据包括但不限于用户搜索词;所述用户点击行为数据包括但不限于基于所述用户搜索词返回的数据对象中用户点击的资源对象;所述用户历史搜索行为数据包括但不限于从历史搜索记录中获取的用户搜索词。
[0021]作为本专利技术的进一步改进,所述步骤S3还包括,根据用户历史搜索行为数据,分析用户搜索喜好,预测用户搜索词并自动补全用户搜索词,将补充的词用于搜索,其中,预测的用户搜索词为搜索词库中的搜索词。
[0022]作为本专利技术的进一步改进,所述预测的用户搜索词为用户输入的搜索词的同义词和/或近义词。
[0023]第二方面,本专利技术还提供一种多方式丰富搜索词库优化搜索分词装置,包括:
[0024]构建模块,用于根据用户搜索行为数据构建搜索词库;
[0025]优化模块,用于根据用户搜索行为数据和用户点击行为数据,优化搜索词库;
[0026]补充模块,用于根据用户历史搜索行为数据,补全用户搜索词。
[0027]第三方面,本专利技术还提供一种多方式丰富搜索词库优化搜索分词设备,其特征在于,所述多方式丰富搜索词库优化搜索分词设备包括:存储器和至少一个处理器,所述存储器中存储有计算机执行指令;所述至少一个处理器调用所述存储器中的所述计算机执行指令,以使得所述多方式丰富搜索词库优化搜索分词设备执行上述实施例中任意一项所述的多方式丰富搜索词库优化搜索分词方法。
[0028]第四方面,本专利技术还提供一种计算机可读存储介质,其上存储有计算机执行指令,其特征在于,所述计算机执行指令被处理器执行用于实现上述实施例中任意一项所述的多方式丰富搜索词库优化搜索分词方法。
[0029]本专利技术提供的一种多方式丰富搜索词库优化搜索分词方法,通过根据用户历史搜索行为数据和用户点击行为数据,分析用户搜索喜好,根据用户输入的搜索词进行提前预测并自动补全用户搜索词,预测补充的词为搜索词库中的词,将补充的词用于搜索,从而给到用户更符合需求的搜索结果。
[0030]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0031]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术一部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]图1为本专利技术实施例提供的一种多方式丰富搜索词库优化搜索分词方法流程图;
[0033]图2为本专利技术实施例提供的一种多方式丰富搜索词库优化搜索分词装置的结构框图;
[0034]图3为本专利技术实施例提供的一种多方式丰富搜索词库优化搜索分词设备的结构示意图。
[0035]附图中各标号的含义为:
[0036]构建模块

201;优化模块

202;补充模块

203;301

存储器;302

处理器。
具体实施方式
[0037]为了使本专利技术的目的、技术方案及优点更加清楚明白,下面将结合本专利技术实施例中的附图和具体实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,对本专利技术作进一步详细说明,应当理解,此处所描述的实施例仅仅用以解释本专利技术,是本专利技术一部分实施例,而不是全部的实施例,即此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而,亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,另外,在本专利技术实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多方式丰富搜索词库优化搜索分词的方法,其特征在于,包括以下步骤:S1.根据用户搜索行为数据构建搜索词库;S2.根据所述用户搜索行为数据和用户点击行为数据,优化搜索词库;S3.根据用户历史搜索行为数据,补全用户搜索词。2.根据权利要求1所述的一种多方式丰富搜索词库优化搜索分词的方法,其特征在于,所述步骤S1包括:根据公开数据库提取地方市、区、县、地方景区名称及其简称;根据网页信息采集与所述地方市、区、县、地方景区名称对应的别名。3.根据权利要求1所述的一种多方式丰富搜索词库优化搜索分词的方法,其特征在于,所述步骤S2包括:在第一预设周期内对用户搜索行为数据进行分析、对用户输入的搜索词进行频次统计;根据所述第一预设周期内用户搜索的总次数n,按照使用频次从高到底提取n/5的搜索词,其中,n为正整数;对提取的搜索词进行语义分析,去除语义不完整的搜索词,并将剩余的搜索词与现有搜索词库中的搜索词比对,进行去重入库。4.根据权利要求1所述的一种多方式丰富搜索词库优化搜索分词的方法,其特征在于,所述步骤S2还包括:在第二预设周期内对用户点击行为数据进行分析、对用户点击行为产生的点击量进行统计排名;提取点击量排名在前m的资源,对提取的资源进行关键词、主题词、地理位置信息提取;对提取的关键词及主题词进行语义分析,提取语义匹配度较高的k个词与现有搜索词库中的搜索词比对,进行去重入库;其中,m、k均为正整数,且m≤100,k≤2。5.根据权利要求1所述的一种多方式丰富搜索词库优化搜索分词的方法,其特征在于,所述用户搜索行为数据包括但不限于用户搜索词;所...

【专利技术属性】
技术研发人员:王惠朱林波陈仕军黄敏李劭
申请(专利权)人:云南腾云信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1