【技术实现步骤摘要】
分词词库更新方法、装置、系统和计算机可读存储介质
本专利技术涉及数据库领域,尤其涉及分词词库更新方法、装置、系统和计算机可读存储介质。
技术介绍
Elasticsearch软件可以制作搜索系统,并且采用IK分词插件进行分词。搜索系统对于分词进行搜索。IK分词插件基于关键词库进行分词。但是,各种新词层出不穷。关键词库不能自动收录新词,需要定期手动更新。因此,本领域的技术人员致力于开发一种分词词库更新方法。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是如何实现分词词库自动更新。为实现上述目的,本专利技术提供了一种分词词库更新方法、装置、系统和计算机可读存储介质。在本专利技术的一个实施方式中,一种分词词库更新方法包括:建立数据表;对于用户搜索的关键词进行记录;统计当天与昨天搜索所述关键词的频率;根据多个算法的公式计算当天所述关键词中的热词;查询所述数据表是否存在所述热词;如果所述数据表不存在所述热词,则所述数据表录入所述热词;如果所述数据表存在所述热词,则进入下一步骤;根据所述数据表生成新词典文件;向搜索系统发送所述新词典文件覆盖原词典文件;命令所述搜索系统重新分词形成新的索引文档。在本专利技术的另一实施方式中,一种分词词库更新装置包括数据库模块、前台模块、后台模块;所述数据库模块建立数据表;所述前台模块对于用户搜索的关键词进行记录;所述后台模块统计当 ...
【技术保护点】
1.一种分词词库更新方法,其特征在于,包括:/n建立数据表;/n对于用户搜索的关键词进行记录;/n统计当天与昨天搜索所述关键词的频率;/n根据多个算法的公式计算当天所述关键词中的热词;/n查询所述数据表是否存在所述热词;/n如果所述数据表不存在所述热词,则所述数据表录入所述热词;/n如果所述数据表存在所述热词,则进入下一步骤;/n根据所述数据表生成新词典文件;/n向搜索系统发送所述新词典文件覆盖原词典文件;/n命令所述搜索系统重新分词形成新的索引文档。/n
【技术特征摘要】
1.一种分词词库更新方法,其特征在于,包括:
建立数据表;
对于用户搜索的关键词进行记录;
统计当天与昨天搜索所述关键词的频率;
根据多个算法的公式计算当天所述关键词中的热词;
查询所述数据表是否存在所述热词;
如果所述数据表不存在所述热词,则所述数据表录入所述热词;
如果所述数据表存在所述热词,则进入下一步骤;
根据所述数据表生成新词典文件;
向搜索系统发送所述新词典文件覆盖原词典文件;
命令所述搜索系统重新分词形成新的索引文档。
2.如权利要求1所述的分词词库更新方法,其特征在于,所述计算当天所述关键词中的热词包括:
根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算所述关键词的第一热度,其中B(W)为所述关键词的第一热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率,Btp与Atp的和为所述关键词的频率总和,Tp为所述关键词的频率总和与所述关键词的个数之比,R为当天搜索所述关键词的频率与所述关键词的频率总和之比的平均值;
根据第二算法的公式计算所述关键词的第二热度,其中为所述关键词的第二热度;
根据加权平均法的公式计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,α为第一权重,β为第二权重;
通过所述加权热度的排名取得所述热词。
3.如权利要求1所述的分词词库更新方法,其特征在于,所述计算当天所述关键词中的热词包括:
根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算所述关键词的第一热度,其中B(W)为所述关键词的第一热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率,Btp与Atp的和为所述关键词的频率总和,Tp为所述关键词的频率总和与所述关键词的个数之比,R为当天搜索所述关键词的频率与所述关键词的频率总和之比的平均值;
根据第三算法的公式Score=(P-1)÷(T+2)G计算所述关键词的第三热度,其中Score为所述关键词的第三热度,P为用户搜索所述关键词的次数,T为所述关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式H(W)=α×B(W)+γ×Score计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,α为第一权重,γ为第三权重;
通过所述加权热度的排名取得所述热词。
4.如权利要求1所述的分词词库更新方法,其特征在于,所述计算当天所述关键词中的热词包括:
根据第二算法的公式计算所述关键词的第二热度,其中为所述关键词的第二热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率;
根据第三算法的公式Score=(P-1)÷(T+2)G计算所述关键词的第三热度,其中Score为所述关键词的第三热度,P为用户搜索所述关键词的次数,T为所述关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,β为第二权重,γ为第三权重;
通过所述加权热度的排名取得所述热词。
5.一种分词词库更新装置,其特征在于,包括数据库模块、前台模块、后台模块;
所述数据库模块建立数据表;
所述前台模块对于用户搜索的关键词进行记录;
所述后台模块统计当天与昨天搜索所述关键词的频率;
根据多个算法的公式计算当天所述关键词中的热词;
查询所述数据表是否存在所述热词;
如果所述数据表不存在所述热词,则所述数据表录入所述热词;
如果所述数据表存在所...
【专利技术属性】
技术研发人员:沙烨,金仲伟,张垒,朱磊,
申请(专利权)人:上海观察者信息技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。