新词发现中的字符串过滤方法技术

技术编号:4109672 阅读:179 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种新词发现中字符串过滤方法,该方法包括:步骤A、估计候选字符串的成词概率;步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出。本发明专利技术所述方法在区分垃圾串和词语串时使用了概率估计方法,通过词的上下文约束和词位的成词概率来给字符串排序,同时采用了N元搭配来过滤垃圾串。本发明专利技术所述方法的优点在于:1)支持任意长度的新词发现(大于等于2个汉字);2)识别准确率明显提高;3)计算复杂度低,符合工程实用的目的。

【技术实现步骤摘要】

本专利技术涉及文本信息处理
,特别涉及一种。
技术介绍
近年来,随着互联网的逐渐流行,各种电子资源文本规模日渐扩大,文本中包含的 信息越来越多。为了从大量的资源中检索和挖掘有价值的信息,研究界和企业界大力开发 各种文本处理和数据挖掘技术。各种文本处理和数据挖掘的方法往往是基于词语,因此自 动发现新词是进行文本处理和数据挖掘的重要部分。所谓新词发现,是指从文本中以自动或半自动的方式获得未登录词。由于现有汉语分词方法、理论及实现中的种种缺陷,尚无一种汉语分词方法能够 在分词准确率和分词速度上达到较高的水平。汉语分词的准确率高,往往需要增大分词中 的计算开销,从而导致分词系统在工程上不适用;汉语分词的速度快,往往需要降低分词中 的准确率,从而也容易导致分词系统在工程上不适用。导致分词系统准确率无法提高的重要原因在于未登录词识别准确率不高,包括人 名、地名、组织机构名和其它类型的新词。为了提高未登录词的识别准确率,必须从文本里 发现未登录词,并把这些发现的未登录词注入词典,从而减少未登录词的识别错误。新词发现的研究方法主要包括如下两种1)基于监督的新词发现方法,该方法适合处理低频和较短的字符串组成的新词。 这种方法一般基于训练语料,采用各种统计模型进行识别。基于监督的新词发现方法的缺 点在于容易受到训练语料和分词系统的影响,导致系统准确率不高或者获得的新词存在种 种限制。2)基于非监督的新词发现方法,该方法适合处理高频和较长的字符串组成的新 词。这种方法一般不需要训练语料进行统计分析,直接从字或词出发计算字符串或词串的 成词概率。基于非监督的新词发现的缺点在于计算复杂性太高,新词发现的准确率不高。对基于无监督的新词发现方法而言,需要把垃圾串(即垃圾字符串)和词语串 (词语字符串)区分开来。垃圾串并不是新词,词语串是新词。所谓新词发现,就是把垃圾 串和词语串区分开,仅保留词语串即可。由于二者并没有明显的外在形式特征,因此该问题 并不容易处理。学术界现有的区分垃圾串和词语串的方法如下(1)基于规则的垃圾串过滤。通过对文本中词语构成特点的分析,总结得到大量构 词法知识,包括过滤规则、构词规则、特殊构词规则等。通过语言学规则来限定和约束字与 字的组合从而发现新词。基于规则的方法对于过滤明显的垃圾串非常有用,该方法能区分 出绝大多数词语串,但是也会保留大量垃圾串,过滤精度比较低。(2)基于字符串组合概率来过滤垃圾串。通过分词系统切分文本,通过统计单字与 其它字符串的成词概率来保留词语串或过滤垃圾串。字与字或字与字符串之间的成词概率通过大规模语料库可以估计得到,成词概率超过预设阈值的字符串可以作为词语串或者垃 圾串。相对于规则方法而言,统计方法能够从成词概率上估计字符串的概率大小,该方法在 准确率上明显优于规则方法,但仍然保留了大量垃圾串。(3)基于η元语法的新词发现。通过统计字与字的N元搭配来发现新词,例如二元、 三元、四元等等,并对超出一定出现阈值的N元字符串进行语言学规则过滤,符合规则的字 符串判断为新词。该方法的缺陷在于,新词的长度并不确定,因此必须统计大量字符串的N 元搭配,而这种统计方法往往会占用大量资源。如果仅统计长度有限的新词,则较长的新词 必定会遗漏。另外,基于规则的过滤方法的效果并不太好。(4)基于多种特征量的背景比对。通过比较候选字符串的多种特征量以及和背景 文本之间的概率差异来判断新词的概率,这些特征量包括上下文熵、似然比等等。背景文本 往往是与测试文本相似的文本,通过比较二者之间的差异来判断测试文本中的新词。该方 法的缺陷在于计算复杂性较高,而且背景文本的确定也比较困难,实用性并不好。以上诸种垃圾串过滤方法均有其局限性,或者过滤的准确率太低,或者计算复杂 性太高,过滤效果和表现并不能满足工程应用的要求。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是如何提供一种计算复杂度低、新词发现准确率高并 能够支持任意长度的。(二)技术方案为解决上述技术问题,本专利技术提供了一种新词发现中字符串过滤方法,该方法包 括步骤Α、估计候选字符串的成词概率;步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出。优选地,所述步骤B具体包括基于N元语法对成词概率大于第一预设阈值的候选 字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出。优选地,所述基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾 串过滤,将剩余的候选字符串作为词语串输出具体包括步骤201、对成词概率大于第一预设阈值的候选字符串进行分词;步骤202、对词进行N元搭配测试,找出垃圾串;步骤203、对垃圾串进行过滤,将剩余的候选字符串作为词语串输出。优选地,所述基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾 串过滤,将剩余的候选字符串作为词语串输出具体包括如果成词概率大于第一预设阈值 的候选字符串的子串是新词且该子串成词概率高于所述成词概率大于第一预设阈值的候 选字符串的成词概率,则判定所述成词概率大于第一预设阈值的候选字符串是垃圾串,对 垃圾串进行过滤,将所述成词概率大于第一预设阈值的候选字符串的子串作为词语串输 出ο优选地所述成词概率的计算公式为:p (S) = λ J (S) * λ 2q (S),其中,t (S)和q (S) 分别为字符串S的左右邻接概率和内部构成概率。入工和λ2分别为t(s)和q(S)的权重;所述t(S)的计算公式为「0029本文档来自技高网
...

【技术保护点】
一种新词发现中字符串过滤方法,其特征在于,该方法包括:步骤A、估计候选字符串的成词概率;步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出。

【技术特征摘要】
一种新词发现中字符串过滤方法,其特征在于,该方法包括步骤A、估计候选字符串的成词概率;步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出。2.如权利要求1所述的方法,其特征在于,所述步骤B具体包括基于N元语法对成词 概率大于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出ο3.如权利要求2所述的方法,其特征在于,所述基于N元语法对成词概率大于第一预设 阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出具体包括步骤201、对成词概率大于第一预设阈值的候选字符串进行分词;步骤202、对词进行N元搭配测试,找出垃圾串;步骤203、对垃圾串进行过滤,将剩余的候选字符串作为词语串输出。4.如权利要求2所述的方法,其特征在于,所述基于N元语法对成词概率大于第一预设 阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出具体包括如果 成词概率大于第一预设阈值的候选字符串的子串...

【专利技术属性】
技术研发人员:牟小峰
申请(专利权)人:北京新媒传信科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1