基于序列模式的新词发现方法技术

技术编号:3941510 阅读:203 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于序列模式的新词发现方法,该方法包括:步骤A、基于序列模式抽取候选字符串;步骤B、估计候选字符串的成词概率;步骤C、将成词概率大于第一预设阈值的候选字符串作为新词输出。该方法根据已有的序列模式发现算法挖掘得到候选字符串,通过对字符串上下文和内部结构来估计字符串的成词概率,并引入N元语法和分词算法来进行候选字符串的过滤。该方法的优点在于:1)新词发现的计算复杂度大大降低,大大提高了新词发现的速度。2)支持任意长度的新词发现。3)准确率明显超出了已有的新词发现方法,通过采用全新的字符串成词概率估计和垃圾串过滤策略,本方法的新词发现准确率大大提高。

【技术实现步骤摘要】

本专利技术涉及文本信息处理
,特别涉及一种。
技术介绍
近年来,随着网络日益普及,互联网上的文本规模逐步扩大,信息资源不断增加。 为了从大量的资源中检索和挖掘有价值的信息,研究界大力发展文本处理的技术。其中,新 词发现技术是诸多公司和研究所的研究热点。所谓新词发现,是指从文本中以自动或半自动的方式获得未登录词。半自动的新 词获取需要人工干预,而自动新词获取不需要人工干预。新词发现是学术界和工业界的研究热点。对于学术界而言,良好的新词发现方法 能够极大地扩充词典,减轻词典编纂者的工作量,也能极大地帮助研究人员研究新词新语。 对于工业界而言,好的新词发现方法可以在应用在不同领域,例如拼音输入法、微博和博客 的实时挖掘、分词系统的词表扩充、舆论监控、敏感词提取、突发性事件发现和热点信息提取等等。尽管学术界对新词的定义存在争议,导致对新词的界定不尽相同。比较流行的定 义为,新词是通过各种途径产生的具有现代汉语基本词汇所没有的新形式、新意义和新用 法的词语。该定义在理论上可行,但在工程实践中可操作性不强。新意义和新用法在实践 中不容易判定。因此,本方法从文本处理的工程实际出发,把新词界定为未登录词,即词表未覆盖 的词语都是新词。关于新词发现的研究方法,主要包括如下两种(1)基于监督的新词发现方法,该方法适合处理低频和较短的字符串组成的新词。 这种方法一般基于训练语料,采用各种统计模型进行识别。基于监督的新词发现方法的缺 点在于容易受到训练语料和分词系统的影响,导致系统准确率不高或者获得的新词存在种 种限制。(2)基于非监督的新词发现方法,该方法适合处理高频和较长的字符串组成的新 词。这种方法一般不需要训练语料进行统计分析,直接从字或词出发计算字符串或词串的 成词概率。基于非监督的新词发现方法的缺点在于计算复杂度太高,新词发现的准确率不尚ο
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是如何提供一种计算复杂度低、新词发现准确率高并 能够支持任意长度的新词发现的新词发现方法。(二)技术方案为解决上述技术问题,本专利技术提供了一种,该方法 包括步骤A、基于序列模式抽取候选字符串;步骤B、估计候选字符串的成词概率;步骤C、将成词概率大于第一预设阈值的候选字符串作为新词输出。优选地,所述步骤C具体包括基于N元语法对成词概率大于第一预设阈值的候选 字符串进行垃圾串过滤,将剩余的候选字符串作为新词输出。优选地,所述基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾 串过滤,将剩余的候选字符串作为新词输出具体包括步骤301、对成词概率大于第一预设阈值的候选字符串进行分词;步骤302、对词进行N元搭配测试,找出垃圾串;步骤303、对垃圾串进行过滤,将剩余的候选字符串作为新词输出。优选地,所述基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾 串过滤,将剩余的候选字符串作为新词输出具体包括如果成词概率大于第一预设阈值的 候选字符串的子串是新词且该子串成词概率高于所述成词概率大于第一预设阈值的候选 字符串的成词概率,则判定所述成词概率大于第一预设阈值的候选字符串是垃圾串,对垃 圾串进行过滤,将所述成词概率大于第一预设阈值的候选字符串的子串作为新词输出。优选地,所述步骤A具体包括步骤201、计算汉字频次;步骤202、输出左候选字符串和右候选字符串;步骤203、抽取候选字符串。优选地,所述步骤202具体包括构造左有序pat数组结构输出左候选字符串并构 造右有序Pat数组结构输出右候选字符串。优选地,所述构造左有序pat数组结构输出左候选字符串具体包括计算累积频 次,构造索引堆,对索引堆排序,根据索引堆提取公共前缀,将出现频度大于第二预设阈值 的公共前缀作为左候选字符串输出。优选地,所述构造右有序pat数组结构输出右候选字符串具体包括计算累积频 次,构造索引堆,对索引堆排序,根据索引堆提取公共前缀,将出现频度大于第三预设阈值 的公共前缀作为右候选字符串输出。优选地,所述成词概率的计算公式为:p (S) = λ J (S) * λ 2q (S),其中,t (S)和q (S)分别为字符串S的左右邻接概率和内部构成概率。入工和λ2分别为t(s)和q(S)的权重;所述t(S)的计算公式为权利要求一种,其特征在于,该方法包括步骤A、基于序列模式抽取候选字符串;步骤B、估计候选字符串的成词概率;步骤C、将成词概率大于第一预设阈值的候选字符串作为新词输出。2.如权利要求1所述的新词发现方法,其特征在于,所述步骤C具体包括基于N元语 法对成词概率大于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为 新词输出。3.如权利要求2所述的新词发现方法,其特征在于,所述基于N元语法对成词概率大 于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为新词输出具体包 括步骤301、对成词概率大于第一预设阈值的候选字符串进行分词;步骤302、对词进行N元搭配测试,找出垃圾串;步骤303、对垃圾串进行过滤,将剩余的候选字符串作为新词输出。4.如权利要求2所述的新词发现方法,其特征在于,所述基于N元语法对成词概率大 于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为新词输出具体包 括如果成词概率大于第一预设阈值的候选字符串的子串是新词且该子串成词概率高于所 述成词概率大于第一预设阈值的候选字符串的成词概率,则判定所述成词概率大于第一预 设阈值的候选字符串是垃圾串,对垃圾串进行过滤,将所述成词概率大于第一预设阈值的 候选字符串的子串作为新词输出。5.如权利要求1所述的新词发现方法,其特征在于,所述步骤A具体包括步骤201、计算汉字频次;步骤202、输出左候选字符串和右候选字符串;步骤203、抽取候选字符串。6.如权利要求5所述的新词发现方法,其特征在于,所述步骤202具体包括构造左有 序pat数组结构输出左候选字符串并构造右有序pat数组结构输出右候选字符串。7.如权利要求6所述的新词发现方法,其特征在于,所述构造左有序pat数组结构输出 左候选字符串具体包括计算累积频次,构造索引堆,对索引堆排序,根据索引堆提取公共 前缀,将出现频度大于第二预设阈值的公共前缀作为左候选字符串输出。8.如权利要求6所述的新词发现方法,其特征在于,所述构造右有序pat数组结构输出 右候选字符串具体包括计算累积频次,构造索引堆,对索引堆排序,根据索引堆提取公共 前缀,将出现频度大于第三预设阈值的公共前缀作为右候选字符串输出。9.如权利要求1-8中任一项所述的新词发现方法,其特征在于,所述成词概率的计算 公式为p(S) = Xlt(S)*X2q(S),其中,t(S)和q(S)分别为字符串S的左右邻接概率和内 部构成概率。入工和λ2分别为t(S)和q(S)的权重;所述t (S)的计算公式为柳=count(Sl) * count(SR) * fregjS) Jreq(S) freq{S) a其中,Coimt(SL)为字符串S的左邻接字数目;count (Se)为字符串S的右邻接字数目; freq(S)为字符串S的频次;α为调整因子;所述q(S)的计算公式为2q{S) = ^qm(Si)=Σ礼⑷Si eS,、 word(s) ^本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:牟小峰
申请(专利权)人:北京新媒传信科技有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1