【技术实现步骤摘要】
字典树参数更新方法、装置、设备及存储介质
本申请实施例涉及数据处理领域,尤其涉及一种字典树参数更新方法、装置、设备及存储介质。
技术介绍
AC自动机(Aho-Corasickautomation)主要用于进行词的匹配查找,其实现方式是通过遍历查询(query)找出所有在字典树上的词。但是,传统的AC自动机仅能进行词的匹配。另外,现有技术中,在对词进行统计时,通常是先分词,然后统计整体词及每个令牌(token)出现的次数等信息。但是,在词表规模大的情况下,上述统计的处理方式是非常耗时的,只能离线执行并额外保存一份结果。
技术实现思路
为了解决上述至少一个技术问题,本申请实施例提供了以下方案。第一方面,本申请实施例还提供了一种字典树参数更新方法,该方法包括:构建字典树,字典树包括至少两个路径;更新字典树上每个路径包含的节点的参数;其中,参数包括搜索次数和出现次数。第二方面,本申请实施例还提供了一种字典树参数更新装置,该装置包括:构建模块,用于构建字典树,字典树包
【技术保护点】
1.一种字典树参数更新方法,其特征在于,包括:/n构建字典树,所述字典树包括至少两个路径;/n更新所述字典树上每个路径包含的节点的参数;/n其中,所述参数包括搜索次数和出现次数。/n
【技术特征摘要】
1.一种字典树参数更新方法,其特征在于,包括:
构建字典树,所述字典树包括至少两个路径;
更新所述字典树上每个路径包含的节点的参数;
其中,所述参数包括搜索次数和出现次数。
2.根据权利要求1所述的方法,其特征在于,所述更新所述字典树上每个路径包含的节点的参数,包括:
步骤一:更新当前路径上所有节点的参数;
步骤二:切换至所述字典树的下一个路径,并将所述下一个路径作为当前路径;
重复执行步骤一和步骤二,直至更新完所述字典树上每个路径包含的节点的参数。
3.根据权利要求2所述的方法,其特征在于,所述更新当前路径上所有节点的参数,包括:
步骤一:更新当前路径上当前节点的搜索次数,所述当前节点的搜索次数为其自身的搜索次数与当前节点的子节点的搜索次数之和;
步骤二:从当前节点切换至当前路径上的下一个节点,并将所述下一个节点作为当前节点;
重复执行上述步骤一至步骤二,直至更新完当前路径上所有节点的参数。
4.根据权利要求3所述的方法,其特征在于,更新所述字典树上每个路径包含的节点的参数之后,所述方法还包括:
确定当前路径上每个节点的指针节点;
若所述指针节点中包含有终结符,则更新所述指针节点的参数。
5.根据权利要求4所述的方法,其特征在于,所述确定当前路径上每个节点的指针节点,包括:
步骤一:确定当前节点的指针节点是否为空;
步骤二:若为空,则将当前节点的子节点的指针节点设置为所述字典树的根节点;
步骤三:若不为空,则确定当前节点的指针节点的子节点;
步骤四:若所述当前节点的指针节点的子节点中存在当前节点的子节点,则将当前节点的子节点连接至当前节点的指...
【专利技术属性】
技术研发人员:王哲,颜杰,张炫,李波,曾少斌,胡俊,覃志奎,刘鸿,未波波,杨鹏伟,钟剑哲,乔柯岩,冯子剑,郭琳琳,赵向洋,李朋,张红玉,苏盈盈,
申请(专利权)人:喜大上海网络科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。