新词发现中的字符串过滤方法技术

技术编号:4109672 阅读:202 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种新词发现中字符串过滤方法,该方法包括:步骤A、估计候选字符串的成词概率;步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出。本发明专利技术所述方法在区分垃圾串和词语串时使用了概率估计方法,通过词的上下文约束和词位的成词概率来给字符串排序,同时采用了N元搭配来过滤垃圾串。本发明专利技术所述方法的优点在于:1)支持任意长度的新词发现(大于等于2个汉字);2)识别准确率明显提高;3)计算复杂度低,符合工程实用的目的。

【技术实现步骤摘要】

本专利技术涉及文本信息处理
,特别涉及一种。
技术介绍
近年来,随着互联网的逐渐流行,各种电子资源文本规模日渐扩大,文本中包含的 信息越来越多。为了从大量的资源中检索和挖掘有价值的信息,研究界和企业界大力开发 各种文本处理和数据挖掘技术。各种文本处理和数据挖掘的方法往往是基于词语,因此自 动发现新词是进行文本处理和数据挖掘的重要部分。所谓新词发现,是指从文本中以自动或半自动的方式获得未登录词。由于现有汉语分词方法、理论及实现中的种种缺陷,尚无一种汉语分词方法能够 在分词准确率和分词速度上达到较高的水平。汉语分词的准确率高,往往需要增大分词中 的计算开销,从而导致分词系统在工程上不适用;汉语分词的速度快,往往需要降低分词中 的准确率,从而也容易导致分词系统在工程上不适用。导致分词系统准确率无法提高的重要原因在于未登录词识别准确率不高,包括人 名、地名、组织机构名和其它类型的新词。为了提高未登录词的识别准确率,必须从文本里 发现未登录词,并把这些发现的未登录词注入词典,从而减少未登录词的识别错误。新词发现的研究方法主要包括如下两种1)基于监督的新词发现方法,该方法适合处理低频和较本文档来自技高网...

【技术保护点】
一种新词发现中字符串过滤方法,其特征在于,该方法包括:步骤A、估计候选字符串的成词概率;步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出。

【技术特征摘要】
一种新词发现中字符串过滤方法,其特征在于,该方法包括步骤A、估计候选字符串的成词概率;步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出。2.如权利要求1所述的方法,其特征在于,所述步骤B具体包括基于N元语法对成词 概率大于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出ο3.如权利要求2所述的方法,其特征在于,所述基于N元语法对成词概率大于第一预设 阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出具体包括步骤201、对成词概率大于第一预设阈值的候选字符串进行分词;步骤202、对词进行N元搭配测试,找出垃圾串;步骤203、对垃圾串进行过滤,将剩余的候选字符串作为词语串输出。4.如权利要求2所述的方法,其特征在于,所述基于N元语法对成词概率大于第一预设 阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出具体包括如果 成词概率大于第一预设阈值的候选字符串的子串...

【专利技术属性】
技术研发人员:牟小峰
申请(专利权)人:北京新媒传信科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1