一种基于查询日志的新词自动查找系统和方法技术方案

技术编号：8105784 阅读：183 留言：0更新日期：2012-12-21 04:38

本发明专利技术公开了一种基于查询日志的新词自动查找系统及方法，主要包括：查询日志预处理模块，用于根据设置的定时新词发现的时间，定期从查询日志中获取定时间隔的这一段时间内的查询串及查询频次等；新词发现模块，根据所述查询串的分词结果，统计相同n-gram串的频次；计算n-gram词串的共现率；归并候选新词集合中相近频次的父子串；新词生成模块，对候选新词集合应用过滤和剪枝策略，去除候选新词集合中的垃圾串，得到最终的新词集合。采用本发明专利技术，解决现有统计方法的语料库难获取和规则方法的不易扩展等问题，通过使用词串共现率，辅以过滤策略，能够简便易行地从查询日志中自动发现新词，将最终新词集合导入分词词库中，从而实现增量式新词发现。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网信息处理领域，特别涉及。
技术介绍
随着互联网的飞速发展，网络信息的发布和传播越来越快，网络新词也随之层出不穷。根据中国语言文字工作委员会的专家所做的统计，自改革开放以来20年内平均每年产生800多个新词语，而近年来，网络的发达早已使新词的产生速度远远超过这一数字。新词的产生导致进行互联网信息处理时，对词语的切分、理解和信息检索的能力大大下降。因此如何有效地发现新词，是互联网信息处理领域的一项重要工作。因此，这里所称的“新词”，不仅包含传统语言学上的词语，还包括互联网上最新出现的广为传颂的短语。目前的新词发现方法主要有基于统计和基于规则两种方法。基于统计的方法，首先利用统计模型，根据词语的特征信息获取候选串，再利用词频等信息过滤垃圾串，该方法依赖于语料库的完善，并且倾向于识别较短或高频的新词，识别新短语及低频词的能力较差。基于规则的方法，一般是根据新词的语言构词特征或构词模式特点建立规则库、领域词典或模式库，然后通过模式匹配发现新词，该方法需要专业领域知识及语言学基础，可移植性和可扩展性较差，更新速度较慢。新词常常是对新事物或新事件的概述，在构成方面没有普遍统一的规律，常常不符合汉字的构词规则，并且新词产生速度快，覆盖范围广，语料收集工作较难同步。因此传统的基于统计和基于规则进行新词识别的方法已无法满足当前快速、准确发现新词的需求。但是现有技术采用基于统计的方法，对语料库的要求较高，容易产生垃圾串，且常常由于数据稀疏导致无法识别出低频新词；而基于规则的方法又依赖规则获取的有效性和完备性，无法满足新词快速更新的需求。
技术实现思路
有鉴于...

【技术保护点】
一种基于查询日志的新词自动查找系统，其特征在于，主要包括查询日志预处理模块、新词发现模块和新词生成模块；其中：查询日志预处理模块，用于根据设置的定时新词发现的时间，定期的从查询日志中获取定时间隔的这一段时间内的查询串及查询频次，并对查询串进行分词处理，保存每个n？gram串及相应的频次；新词发现模块，根据所述查询串的分词结果，统计相同n？gram串的频次；根据单个词的频次和n？gram串的频次计算n？gram词串的共现率，并选取共现率较高的词串作为候选新词集合；归并候选新词集合中相近频次的父子串；新词生成模块，对候选新词集合应用过滤和剪枝策略，去除候选新词集合中的垃圾串，得到最终的新词集合。

【技术特征摘要】

【专利技术属性】
技术研发人员：张爱琦，崔世起，杨青，
申请(专利权)人：人民搜索网络股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人