一种新词发现方法和系统技术方案

技术编号:6818231 阅读:246 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种新词发现方法和系统,基于bigram语言模型分别提取了前背景语料的bigram元素,并分别得到前背景语料的统计信息,利用统计信息及第一预设规则过滤bigram元素,再利用n-gram语言模型及第二预设规则对剩余的bigram元素进行前景语料中的扩展,n-gram元素的更新不需要对背景语料重新计算,避免对背景语料里已有新词重新发现,利用第二预设规则判别新词的边界,去除垃圾bigram元素和n-gram元素,简单易用,减少了人工校对的负担。

【技术实现步骤摘要】

本专利技术涉及文本信息处理领域,尤其涉及一种新词发现方法和系统
技术介绍
中文(还有日语等亚洲语言)不像西方语言那样使用空格表示词的边界,因此分词是中文语言处理的首要任务。然而随着互联网内容服务(比如微博、小说)的迅速发展, 网络新词不断涌现,自动语音识别(ASR)、文本-语音(TTS)、搜索引擎等系统里所采用的分词模型需要不断更新新词才不会过时,因此新词发现最近成为研究热点。目前新词发现所面临的问题大概有三方面1.缺乏有效依据。对于新词目前没有明确定义,现有技术中,一般是用词典(作为背景语料)去除前景语料中的非新词,再用规则从剩余的短语碎片中判断新词。但是由于新词的组成千差万别,许多情况下不具备普遍规律,如小说中的人名译名,魔法名,种族名, 用词典和规则的方法往往达不到良好效果。2.词边界难于确定。现有技术中,采用基于语料库和概率统计方法的统计语言模型(一般为用前N-I个汉字来推测当前这个汉字的Markov模型称为N-gram(N元文法)语言模型,其中,当N= 1,2,3时,分别称为Unigram模型、Bigram模型和!digram模型)建立分词系统时,对于前景语料,背景语料的分词模型可信度大打折扣,特别是在新词附近;而采用停用词(语料中词频较高,但没有意义的词,如“的”、“太”等)规则的方法时,停用词也会带来负面作用,过滤掉一些可能新词,比如"可的便利店"的“可的”。3.更新困难。依赖于分词的新词发现,往往需要将背景语料和前景语料结合起来重新训练分词模型,滚动地发现新词,流程复杂而且耗时。
技术实现思路
本专利技术的目的在于提供一种新词发现方法和系统,利用背景语料的统计信息筛选新词,对新词的边界进行判别,避免对背景语料里已有新词重新发现,减少了人工校对的负担。为解决上述问题,本专利技术提出一种新词发现方法,包括根据bigram语言模型抽取已知背景语料的bigram元素,并统计所述已知背景语料中所有bigram元素的词频和与种数;根据bigram语言模型抽取前景语料的bigram元素,并统计所述前景语料中所有 bigram元素的词频和与种数;根据上述所有统计确定所述前景语料中符合第一预设规则的bigram元素;根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展,确定所述前景语料中符合第二预设规则的n-gram元素,得到新词列表。进一步的,所述第一预设规则包括该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值;所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值;该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。进一步的,所述已知背景语料为国家语委现代汉语语料库中的语料。进一步的,所述相关度的计算公式为权利要求1.一种新词发现方法,其特征在于,包括根据bigram语言模型抽取已知背景语料的bigram元素,并统计所述已知背景语料中所有bigram元素的词频和与种数;根据bigram语言模型抽取前景语料的bigram元素,并统计所述前景语料中所有 bigram元素的词频和与种数;根据上述所有统计确定所述前景语料中符合第一预设规则的bigram元素; 根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展,得到所述前景语料的n-gram元素,确定所述前景语料中符合第二预设规则的n-gram元素,得到新词列表。2.如权利要求1所述的新词发现方法,其特征在于,所述第一预设规则包括该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值;所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值;该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。3.如权利要求2所述的新词发现方法,其特征在于,所述相关度的计算公式为4.如权利要求1所述的新词发现方法,其特征在于,所述已知背景语料为国家语委现代汉语语料库中的语料。5.如权利要求1所述的新词发现方法,其特征在于,所述第二预设规则包括该n-gram元素由某(n_l) -gram元素向前或向后扩展一个字得到时,该n-gram元素关于该(n-l)-gram元素的条件概率大于第四预设阈值;该n-gram元素向前或向后扩展一个字得到(n+1)-gram元素时,该(n+1)-gram元素关于该n-gram元素的条件概率小于等于所述第四预设阈值;该n-gram元素的词频与所述前景语料中所有bigram元素的词频均值之比大于第五预设阈值。6.如权利要求5所述的新词发现方法,其特征在于,得到新词列表时,某(n-D-gram 元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时,保留该 (n-1) -gram元素于所述新词列表中;其中,当由Xi_n+1,. . .,Xi^1组成的(n-1) -gram元素向后扩展一个字Xi得到由Xi_n+1,. . .,Xi组成的n-gram元素时,使该由Xi_n+1,...,Xi组成的n-gram元素关于该由Xi_n+1, · · ·,Xi^1组成的(n-1) -gram元素的条件概率P (Xi | Xi_n+1,. . .,Xi^1)大于第四预设阈值的字Xi有j种,则定义该由Xi-n+1,. . ·,X^组成的(11-1)1仪111元素独立成词的向后独立概率?31_1&_11+1,..., Xh)为7.如权利要求5所述的新词发现方法,其特征在于,根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中,对所述剩余的bigram元素及得到trigram元素进行筛选更新。8.如权利要求7所述的新词发现方法,其特征在于,当由Xi_2,Xp1组成的bigram元素向后扩展一个字Xi_得到由Xi_2,,Xi_组成的 trigram元素时,满足所述字Xi_关于该bigram元素的条件概率大于所述第四预设阈值后, 若该bigram元素的首字Xi_2关于由Xi_1; Xi组成的bigram元素的条件概率大于所述第四预设阈值,则所述由Xi_2,Xi-!, Xi-组成的trigram元素能继续扩展;若该bigram元素的首字Xi_2关于由Xi_1; Xi组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由χ",Xh组成的bigram元素和所述由Xi_2,,Xi_组成的 trigram元素均不是有效的新词;当由Xi_2,Xp1组成的bigram元素向前扩展一个字Xi__3得到由Xi_3_,Xi_2,X^1组成的 trigram元素时,满足所述字Xi__3关于该bigram元素的条件概率大于所述第四预设阈值后,若该bigram元素的尾字Xh关于由Xi_3,Xi_2组成的bigram元素的条件概率大于所述第四预设阈值,则所述由Xi-3_,Xi_2,Xi-!组成的trigr本文档来自技高网...

【技术保护点】
1.一种新词发现方法,其特征在于,包括:根据bigram语言模型抽取已知背景语料的bigram元素,并统计所述已知背景语料中所有bigram元素的词频和与种数;根据bigram语言模型抽取前景语料的bigram元素,并统计所述前景语料中所有bigram元素的词频和与种数;根据上述所有统计确定所述前景语料中符合第一预设规则的bigram元素;根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展,得到所述前景语料的n-gram元素,确定所述前景语料中符合第二预设规则的n-gram元素,得到新词列表。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴悦
申请(专利权)人:盛乐信息技术上海有限公司
类型:发明
国别省市:31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1