一种分词词库更新方法及系统技术方案

技术编号:15329529 阅读:87 留言:0更新日期:2017-05-16 13:11
本发明专利技术提供了一种分词词库更新系统,包括:日志采集模块、日志分析模块、分词评价模块以及分词校正与过滤模块,其中该分词校正和过滤模块包括构造子模块、切分子模块以及过滤子模块。本发明专利技术还提供了对应的方法。实施本发明专利技术的分词词库更新系统及方法,基于分词业务日志分析,通过对分词业务系统的分词效果进行评价,提取出分词效果不好的分词输入,根据使用参考概率表的Z分词过滤算法对分词效果不好的分词输入进行分词校正和过滤输出新词词组,并将该新词词组更新到分词词库中,不断完善分词词库,解决了分词词库不能适时且适应实际分词应用环境的问题,有效提高分词效果。

Method and system for updating participle lexicon

The invention provides a segmentation lexicon update system, including: log collection module, log analysis module, evaluation module and segmentation segmentation correction and filtering module, wherein the word segmentation correction and filtering module includes structure module, module and filtering module cut molecules. The invention also provides a corresponding method. The word thesaurus update system and method, analysis of business segmentation based journal based on the evaluation of segmentation business system of word segmentation, extract the segmentation result is not good word input, word segmentation correction and filtering the output word phrase segmentation filtering algorithm using Z according to the reference probability table is not good for the input word segmentation effect, and will update the word phrase to word thesaurus, and constantly improve the word thesaurus, solve word vocabulary can not be timely to adapt to the actual application environment and segmentation problems, effectively improve the segmentation effect.

【技术实现步骤摘要】
一种分词词库更新方法及系统
本专利技术涉及数据处理
,更具体地说,涉及一种分词词库更新方法及系统。
技术介绍
在搜索系统中,分词效果的好坏是影响搜索效果的关键因素。而分词过程所依赖的词库,是分词技术的重要组成部分。目前常见的词库生成方法是采用统计的方法:对输入语料中相邻共现的各个字的组合(即字组)的频度进行统计,计算其互现信息,其中,该互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,则可认为此字组可能构成了一个词。通过上述方法生成词库,再将词库应用与线上分词业务。然而采用上述词频统计的方法生成的中文词库,存在的技术问题主要有:经常切分出一些共现频度高但并不是词的常用字组;大部分词库都是属于通用词库,不适合某些垂直搜索场景,比如商品名称搜索、地名搜索、人名搜索等;词库往往是静态的,线下生成再线上使用,不能快速根据实际使用情况进行更新和完善;词库对于新词的识别效果较差。
技术实现思路
本专利技术要解决的技术问题在于,针对现有的词频统计方法生成中文词库的上述缺陷,提供一种分词词库更新方法及系统。本专利技术解决上述问题的技术方案是提供了一种分词词库更新系统,包括:日志本文档来自技高网...
一种分词词库更新方法及系统

【技术保护点】
一种分词词库更新系统,其特征在于,包括:日志采集模块,用于采集分词业务系统在运行过程中输出的分词业务日志;日志分析模块,用于对所述日志采集模块采集到的所述分词业务日志进行统计分析,并提取相关有效数据;分词评价模块,用于根据评价规则对所述相关有效数据进行评价得到分词效果不好的分词输入;以及分词校正与过滤模块,用于对所述分词评价模块所得到的所述分词效果不好的分词输入进行分词校正和过滤输出新词词组,并将该新词词组更新到分词词库中。

【技术特征摘要】
1.一种分词词库更新系统,其特征在于,包括:日志采集模块,用于采集分词业务系统在运行过程中输出的分词业务日志;日志分析模块,用于对所述日志采集模块采集到的所述分词业务日志进行统计分析,并提取相关有效数据;分词评价模块,用于根据评价规则对所述相关有效数据进行评价得到分词效果不好的分词输入;以及分词校正与过滤模块,用于对所述分词评价模块所得到的所述分词效果不好的分词输入进行分词校正和过滤输出新词词组,并将该新词词组更新到分词词库中。2.根据权利要求1中所述的分词词库更新系统,其特征在于,所述分词业务系统包括搜索系统,所述相关有效数据包括搜索结果的订购次数或者浏览次数和/或搜索关键词的转换率和/或搜索结果的首页命中比例和/或搜索关键词的召回率和/或分词输入的分词结果;所述评价规则包括搜索关键词的转换率小于第一预设阈值和/或搜索结果个数小于第二预设阈值和/或使用量小于预设阈值和/或分词输入的分词结果大于第三预设阈值。3.根据权利要求1中所述的分词词库更新系统,其特征在于,所述分词校正与过滤模块包括构造子模块和切分子模块,其中:所述构造子模块,用于扫描语料数据,并计算每个单词到下一个单词的概率来构造一参考概率表;所述切分子模块,用于对所述分词效果不好的分词输入进行全切分得到基础分词词组。4.根据权利要求3中所述的分词词库更新系统,其特征在于,所述分词校正与过滤模块还包括过滤子模块,所述过滤子模块用于根据使用所述参考概率表的Z分词过滤算法对所述切分子模块全切分后得到的所述基础分词词组进行过滤得到所述新词词组,并将所述新词词组更新到分词词库中。5.根据权利要求4中所述的分词词库更新系统,其特征在于,所述过滤子模块包括:扫描单元,用于扫描该基础分词词组并获取该基础分词词组中基础分词共有但未包含在该基础分词词组中的前向词列表;第一判断单元,用于判断该前向词列表的长度是否大于第一变量i,其中,该第一变量i的初始值为0;第一添加单元,用于在判断该前向词列表的长度大于第一变量i时,从参考概率表中查询该前向词列表中第i个前向词的概率,并在判断该第i个前向词的概率存在或者大于或等于预设的第一阈值时,将该第i个前向词添加到该基础分词词组中;第一自加单元,用于在判断该第i个前向词的概率不存在或者小于预设的第一阈值时,或者在将该第i个前向词添加到该基础分词词组后,第一变量i自加;第二扫描单元,用于在判断该前向词列表的长度小于或等于该第一变量i时,扫描该基础分词词组,获取具有前向关系的词组的集合,其中,具有前向关系的词组表示为{A,B},A为第一词元,B为第二词元;第二判断单元,用于判断该集合的大小是否小于第二变量j,其中,第二变量j的初始值为0;第二添加单元,在判断该集合的大小小于第二变量j时,取出该集合中第j个词组中的第一词元A和第二词元B,并从参考概率表中查询P(A)和P(AB),并计算P(B|A);在判断P(B|A)小于预设的第二阈值时,判断该第二词元B是否已经存在于分词词库中,若否,则将该第二词元B添加到该基础分词词组;第二自加单元,用于在判断P(B|A)大于或等于预设的第二阈值时,或者在判断第二词元B已经存在于分词词库中时,或者将第二词元B添加到该基础分词词组后,第二变量j自加;第三添加单元,用于在判断该集合的大小大于或等于第二变量j时,将该基础分词词组进行排重后得到的新词词组添加...

【专利技术属性】
技术研发人员:杨睛龙胡正才周美芳刘平华李海平曲晓园高宝兵陈国锐
申请(专利权)人:卓望数码技术深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1