一种基于查询日志的新词自动查找系统和方法技术方案

技术编号:8105784 阅读:183 留言:0更新日期:2012-12-21 04:38
本发明专利技术公开了一种基于查询日志的新词自动查找系统及方法,主要包括:查询日志预处理模块,用于根据设置的定时新词发现的时间,定期从查询日志中获取定时间隔的这一段时间内的查询串及查询频次等;新词发现模块,根据所述查询串的分词结果,统计相同n-gram串的频次;计算n-gram词串的共现率;归并候选新词集合中相近频次的父子串;新词生成模块,对候选新词集合应用过滤和剪枝策略,去除候选新词集合中的垃圾串,得到最终的新词集合。采用本发明专利技术,解决现有统计方法的语料库难获取和规则方法的不易扩展等问题,通过使用词串共现率,辅以过滤策略,能够简便易行地从查询日志中自动发现新词,将最终新词集合导入分词词库中,从而实现增量式新词发现。

【技术实现步骤摘要】

本专利技术涉及互联网信息处理领域,特别涉及。
技术介绍
随着互联网的飞速发展,网络信息的发布和传播越来越快,网络新词也随之层出不穷。根据中国语言文字工作委员会的专家所做的统计,自改革开放以来20年内平均每年产生800多个新词语,而近年来,网络的发达早已使新词的产生速度远远超过这一数字。新词的产生导致进行互联网信息处理时,对词语的切分、理解和信息检索的能力大大下降。因此如何有效地发现新词,是互联网信息处理领域的一项重要工作。因此,这里所称的“新词”,不仅包含传统语言学上的词语,还包括互联网上最新出现的广为传颂的短语。目前的新词发现方法主要有基于统计和基于规则两种方法。基于统计的方法,首 先利用统计模型,根据词语的特征信息获取候选串,再利用词频等信息过滤垃圾串,该方法依赖于语料库的完善,并且倾向于识别较短或高频的新词,识别新短语及低频词的能力较差。基于规则的方法,一般是根据新词的语言构词特征或构词模式特点建立规则库、领域词典或模式库,然后通过模式匹配发现新词,该方法需要专业领域知识及语言学基础,可移植性和可扩展性较差,更新速度较慢。新词常常是对新事物或新事件的概述,在构成方面没有普遍统一的规律,常常不符合汉字的构词规则,并且新词产生速度快,覆盖范围广,语料收集工作较难同步。因此传统的基于统计和基于规则进行新词识别的方法已无法满足当前快速、准确发现新词的需求。但是现有技术采用基于统计的方法,对语料库的要求较高,容易产生垃圾串,且常常由于数据稀疏导致无法识别出低频新词;而基于规则的方法又依赖规则获取的有效性和完备性,无法满足新词快速更新的需求。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供,以解决现有统计方法的语料库难获取和规则方法的不易扩展等问题,通过使用词串共现率,辅以过滤策略,该新词自动查找系统和方法不需要构建语料库和特殊规则,能够简便易行地从查询日志中自动发现新词。为达到上述目的,本专利技术的技术方案是这样实现的 一种基于查询日志的新词自动查找系统,主要包括查询日志预处理模块、新词发现模块和新词生成模块;其中 查询日志预处理模块,用于根据设置的定时新词发现的时间,定期的从查询日志中获取定时间隔的这一段时间内的查询串及查询频次,并对查询串进行分词处理,保存每个n-gram串及相应的频次;新词发现模块,根据所述查询串的分词结果,统计相同n-gram串的频次;根据单个词的频次和n-gram串的频次计算n-gram词串的共现率,并选取共现率较高的词串作为候选新词集合;归并候选新词集合中相近频次的父子串; 新词生成模块,对候选新词集合应用过滤和剪枝策略,去除候选新词集合中的垃圾串,得到最终的新词集合。将最终新词集合导入分词词库中,从而实现增量式新词发现。其中所述过滤和剪枝策略包括基本语言学构词规则策略和成词模式过滤策略。所述基本语言学构词规则策略,包括字数过滤规则,纯数字字母串和日期过滤规贝U,常见辅助词过滤规则和常见查询搭配词过滤规则。所述成词模式过滤策略,包括叠词模式过滤和四字词的2-2模式剪枝。 —种基于查询日志的新词自动查找方法,该方法包括 A、查询串的分词处理步骤选取一段时间的查询日志,使用查询串及查询频次,删除该查询日志中的其他信息,并使用分词工具对查询串进行切分; B、新词发现的实现步骤,包括词串频率的统计、词串共现率计算以及父子串归并; C、新词过滤的步骤,包括对生成的候选新词集合进行过滤,去除垃圾串。其中步骤A所述使用分词工具对查询串进行切分,对于一个查询串,分词切分时会返回多个粒度的结果;采用分词的最大粒度结果,以保证词串中任意词的组合均不为已经存在的词。步骤A进一步包括按照传统语言学概念,将词语根据成词字数分为单元词、二元词、三元词、四元词和多元词,并通过扩展该语言学概念,根据数据串进行分词处理后成词的词数,将所述词串分为2-gram、3-gram、…、n-gram ;词串中的每个词称为token,则n-gram 的格式为…。其中词串频率统计,具体为统计1-gram、2-gram、3-gram、4-gram和5-gram的词串的频次,并将相同词串的词频进行累加,输出为n-gram及其词频,表示为〈n-gram,t f (n-gram) >;其中,I -gram的词是已存在的词,不需进入候选新词集合,但在计算词串共现率时需要使用,因此仍需统计该类词串的词频并单独保存起来; 词串共现率计算,具体为使用词串中所有词共同出现的概率来表示其组合成词的可能性,选取共现率较高的词串作为候选新词集合;所述共现率根据每个词的词频和整个词串的词频计算得到,以解决基于统计的方法中单纯根据单个词的词频筛选时,由于数据稀疏而导致的漏识别低频新词的问题; 父子串归并,具体为遍历获取到的所有n-gram串,如果两个词串存在父子包含关系,且两者的查询频率相同或相近,则从候选新词集合中删除子串。步骤C所述新词过滤策略,具体为根据语言学构词规则统计及成词模式研究获得垃圾串过滤规则,主要包括字数过滤规则、纯数字字母串和日期过滤规则、常见辅助词过滤规则、常见查询词过滤枝规则及叠词模式过滤规则、2-2模式剪枝规则。本专利技术所提供的基于查询日志的新词自动查找系统和方法,具有以下优点 该专利技术使用词串共现率,辅以过滤策略的基于查询日志的新词发现方法,解决了基于统计方法中由于语料库导致的垃圾串多、低频新词无法识别的问题,及基于规则方法中依赖规则定义而不易扩展的问题。本专利技术还采用了增量式的新词发现技术,新词一经发现,可立即加入分词词库中,能够确保新词不被重复发现。本专利技术的新词自动查找系统和方法,应用于任意
的查询日志样本数据集中,尤其适用于分词词典扩充及热词挖掘等方面的应用。附图说明图I为本专利技术提供的基于查询日志的新词自动查找方法流程 图2为本专利技术所述的新词发现过程示意 图3为本专利技术提供的基于查询日志的新词自动查找系统示意图。具体实施例方式下面结合附图及本专利技术的实施例对本专利技术的方法作进一步详细的说明。本专利技术的基本思想是针对统计方法的语料库难获取和规则方法的不易扩展等问 题,提出本专利技术的使用词串共现率,辅以过滤策略的基于查询日志的新词自动发现系统和方法。其目的在于,达到不需构建语料库和特殊规则,能够简便易行地从查询日志中自动发现新词。本专利技术还实现了增量式新词发现,新词一经发现,可立即加入分词词库中,确保新词不被重复发现。其适用于分词词典扩充及热词挖掘等各方面应用。新词识别技术,通常分为基于字和基于词两种。一般来说,基于字的新词识别方法以单个字为基本元素,能获取较高的召回率,而基于词的新词识别方法以每个词为基本元素,具有较高的准确率。随着样本集的增大,两者的差距呈先大后小的趋势,当样本集较为巨大时,差距可以忽略不计。然而,样本数据集毕竟有限,因此本专利技术采用基于词的方法,即先利用分词工具对查询串做分词处理,再进行新词的识别。图3为本专利技术提供的基于查询日志的新词自动查找系统示意图,如图3所示,该基于查询日志的新词查找系统主要包括查询日志预处理模块301、新词发现模块302和新词生成模块303。其中 所述查询日志预处理模块301,用于根据设置的定时新词发现的时间,定期的从查询日志中获取定时间隔的这一段时间内的本文档来自技高网
...

【技术保护点】
一种基于查询日志的新词自动查找系统,其特征在于,主要包括查询日志预处理模块、新词发现模块和新词生成模块;其中:查询日志预处理模块,用于根据设置的定时新词发现的时间,定期的从查询日志中获取定时间隔的这一段时间内的查询串及查询频次,并对查询串进行分词处理,保存每个n?gram串及相应的频次;新词发现模块,根据所述查询串的分词结果,统计相同n?gram串的频次;根据单个词的频次和n?gram串的频次计算n?gram词串的共现率,并选取共现率较高的词串作为候选新词集合;归并候选新词集合中相近频次的父子串;新词生成模块,对候选新词集合应用过滤和剪枝策略,去除候选新词集合中的垃圾串,得到最终的新词集合。

【技术特征摘要】

【专利技术属性】
技术研发人员:张爱琦崔世起杨青
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1