分词词库更新方法、装置、系统和计算机可读存储介质制造方法及图纸

技术编号:28837420 阅读:16 留言:0更新日期:2021-06-11 23:34
本发明专利技术公开了一种分词词库更新方法、装置、系统和计算机可读存储介质。分词词库更新方法包括:建立数据表;对于用户搜索的关键词进行记录;统计当天与昨天搜索关键词的频率;根据多个算法的公式计算当天关键词中的热词;查询数据表是否存在热词;如果数据表不存在热词,则数据表录入热词;如果数据表存在热词,则进入下一步骤;根据数据表生成新词典文件;向搜索系统发送新词典文件覆盖原词典文件;命令搜索系统重新分词形成新的索引文档。分词词库更新方法实现分词词库自动更新。分词词库自动更新与现有的手动更新相比更加简单、及时、全面。

【技术实现步骤摘要】
分词词库更新方法、装置、系统和计算机可读存储介质
本专利技术涉及数据库领域,尤其涉及分词词库更新方法、装置、系统和计算机可读存储介质。
技术介绍
Elasticsearch软件可以制作搜索系统,并且采用IK分词插件进行分词。搜索系统对于分词进行搜索。IK分词插件基于关键词库进行分词。但是,各种新词层出不穷。关键词库不能自动收录新词,需要定期手动更新。因此,本领域的技术人员致力于开发一种分词词库更新方法。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是如何实现分词词库自动更新。为实现上述目的,本专利技术提供了一种分词词库更新方法、装置、系统和计算机可读存储介质。在本专利技术的一个实施方式中,一种分词词库更新方法包括:建立数据表;对于用户搜索的关键词进行记录;统计当天与昨天搜索所述关键词的频率;根据多个算法的公式计算当天所述关键词中的热词;查询所述数据表是否存在所述热词;如果所述数据表不存在所述热词,则所述数据表录入所述热词;如果所述数据表存在所述热词,则进入下一步骤;根据所述数据表生成新词典文件;向搜索系统发送所述新词典文件覆盖原词典文件;命令所述搜索系统重新分词形成新的索引文档。在本专利技术的另一实施方式中,一种分词词库更新装置包括数据库模块、前台模块、后台模块;所述数据库模块建立数据表;所述前台模块对于用户搜索的关键词进行记录;所述后台模块统计当天与昨天搜索所述关键词的频率;根据多个算法的公式计算当天所述关键词中的热词;查询所述数据表是否存在所述热词;如果所述数据表不存在所述热词,则所述数据表录入所述热词;如果所述数据表存在所述热词,则进入下一步骤;根据所述数据表生成新词典文件;向搜索系统发送所述新词典文件覆盖原词典文件;命令所述搜索系统重新分词形成新的索引文档。在本专利技术的另一实施方式中,一种分词词库更新设备包括分词词库更新装置、搜索系统;所述分词词库更新装置包括数据库模块、前台模块、后台模块;所述搜索系统包括分词词库;所述数据库模块建立数据表;所述前台模块对于用户搜索的关键词进行记录;所述后台模块统计当天与昨天搜索所述关键词的频率;根据多个算法的公式计算当天所述关键词中的热词;查询所述数据表是否存在所述热词;如果所述数据表不存在所述热词,则所述数据表录入所述热词;如果所述数据表存在所述热词,则进入下一步骤;根据所述数据表生成新词典文件;向搜索系统发送所述新词典文件覆盖原词典文件;命令所述搜索系统重新分词形成新的索引文档。在本专利技术的另一实施方式中,一种计算机可读存储介质包括计算机程序,所述计算机程序在计算机上运行,所述计算机执行所述分词词库更新方法。本专利技术提供的分词词库更新方法具有以下有益效果:通过根据多个算法的公式计算当天所述关键词中的热词,使得所述数据表录入所述热词,并且根据所述数据表生成新词典文件,命令所述搜索系统重新分词形成新的索引文档,从而实现分词词库自动更新。分词词库自动更新与现有的手动更新相比更加简单、及时、全面。以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。附图说明图1是本专利技术分词词库更新方法一个实施例的流程示意图;图2是本专利技术分词词库更新方法另一实施例的流程示意图;图3是本专利技术分词词库更新方法另一实施例的流程示意图;图4是本专利技术分词词库更新方法另一实施例的流程示意图;图5是本专利技术分词词库更新装置一个实施例的模块示意图;图6是本专利技术分词词库更新设备一个实施例的模块示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图示中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。为了阐释的目的而描述了本专利技术的一些示例性实施例,需要理解的是,本专利技术可通过附图中没有具体示出的其他方式来实现。图1是本专利技术分词词库更新方法一个实施例的流程示意图。如图1所示,分词词库更新方法100包括步骤S110至S190B。步骤S110,建立数据表。如表1所示,数据表包括三个字段Id、Word、Created_at。第一个字段Id表示编号。第二个字段Word表示关键词。第三个字段Created_at表示创建时间。三个字段Id、Word、Created_at的类型为Int、Varchar、Int。第一种类型Int表示整数类型。第二种类型Varchar表示可变长度字符串。三个字段Id、Word、Created_at的长度为11、255、11。表1名类型长度IdInt11WordVarchar255Created_atInt11如表2所示,数据表包括三条记录。三条记录的关键词为中国、第三关键词、第二关键词。第一条和第二条记录的关键词中国、第三关键词属于中文关键词。第三条记录的关键词第二关键词属于英文关键词。第一条记录的编号和创建时间为1、2020-12-1117:27:38。第二条记录的编号和创建时间为2、2020-12-1117:27:54。第三条记录的编号和创建时间为3、2020-12-1117:27:58。数据表的关键词来自搜索系统的分词词库和原词典文件。表2步骤S120,对于用户搜索的关键词进行记录。用户搜索了第一关键词、第二关键词、第三关键词、第四关键词、第五关键词、第六关键词、第七关键词、第八关键词、第九关键词,这些关键词记录下来。步骤S130,统计当天与昨天搜索关键词的频率。根据统计,当天搜索第一关键词、第二关键词、第三关键词、第四关键词、第五关键词、第六关键词、第七关键词、第八关键词、第九关键词的频率为3233、4000、6000、6345、2334、1434、3067、5056、6023。昨天搜索第一关键词、第二关键词、第三关键词、第四关键词、第五关键词、第六关键词、第七关键词、第八关键词、第九关键词的频率本文档来自技高网...

【技术保护点】
1.一种分词词库更新方法,其特征在于,包括:/n建立数据表;/n对于用户搜索的关键词进行记录;/n统计当天与昨天搜索所述关键词的频率;/n根据多个算法的公式计算当天所述关键词中的热词;/n查询所述数据表是否存在所述热词;/n如果所述数据表不存在所述热词,则所述数据表录入所述热词;/n如果所述数据表存在所述热词,则进入下一步骤;/n根据所述数据表生成新词典文件;/n向搜索系统发送所述新词典文件覆盖原词典文件;/n命令所述搜索系统重新分词形成新的索引文档。/n

【技术特征摘要】
1.一种分词词库更新方法,其特征在于,包括:
建立数据表;
对于用户搜索的关键词进行记录;
统计当天与昨天搜索所述关键词的频率;
根据多个算法的公式计算当天所述关键词中的热词;
查询所述数据表是否存在所述热词;
如果所述数据表不存在所述热词,则所述数据表录入所述热词;
如果所述数据表存在所述热词,则进入下一步骤;
根据所述数据表生成新词典文件;
向搜索系统发送所述新词典文件覆盖原词典文件;
命令所述搜索系统重新分词形成新的索引文档。


2.如权利要求1所述的分词词库更新方法,其特征在于,所述计算当天所述关键词中的热词包括:
根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算所述关键词的第一热度,其中B(W)为所述关键词的第一热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率,Btp与Atp的和为所述关键词的频率总和,Tp为所述关键词的频率总和与所述关键词的个数之比,R为当天搜索所述关键词的频率与所述关键词的频率总和之比的平均值;
根据第二算法的公式计算所述关键词的第二热度,其中为所述关键词的第二热度;
根据加权平均法的公式计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,α为第一权重,β为第二权重;
通过所述加权热度的排名取得所述热词。


3.如权利要求1所述的分词词库更新方法,其特征在于,所述计算当天所述关键词中的热词包括:
根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算所述关键词的第一热度,其中B(W)为所述关键词的第一热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率,Btp与Atp的和为所述关键词的频率总和,Tp为所述关键词的频率总和与所述关键词的个数之比,R为当天搜索所述关键词的频率与所述关键词的频率总和之比的平均值;
根据第三算法的公式Score=(P-1)÷(T+2)G计算所述关键词的第三热度,其中Score为所述关键词的第三热度,P为用户搜索所述关键词的次数,T为所述关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式H(W)=α×B(W)+γ×Score计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,α为第一权重,γ为第三权重;
通过所述加权热度的排名取得所述热词。


4.如权利要求1所述的分词词库更新方法,其特征在于,所述计算当天所述关键词中的热词包括:
根据第二算法的公式计算所述关键词的第二热度,其中为所述关键词的第二热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率;
根据第三算法的公式Score=(P-1)÷(T+2)G计算所述关键词的第三热度,其中Score为所述关键词的第三热度,P为用户搜索所述关键词的次数,T为所述关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,β为第二权重,γ为第三权重;
通过所述加权热度的排名取得所述热词。


5.一种分词词库更新装置,其特征在于,包括数据库模块、前台模块、后台模块;
所述数据库模块建立数据表;
所述前台模块对于用户搜索的关键词进行记录;
所述后台模块统计当天与昨天搜索所述关键词的频率;
根据多个算法的公式计算当天所述关键词中的热词;
查询所述数据表是否存在所述热词;
如果所述数据表不存在所述热词,则所述数据表录入所述热词;
如果所述数据表存在所...

【专利技术属性】
技术研发人员:沙烨金仲伟张垒朱磊
申请(专利权)人:上海观察者信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1