基于序列模式的新词发现方法技术

技术编号：3941510 阅读：203 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于序列模式的新词发现方法，该方法包括：步骤Ａ、基于序列模式抽取候选字符串；步骤Ｂ、估计候选字符串的成词概率；步骤Ｃ、将成词概率大于第一预设阈值的候选字符串作为新词输出。该方法根据已有的序列模式发现算法挖掘得到候选字符串，通过对字符串上下文和内部结构来估计字符串的成词概率，并引入Ｎ元语法和分词算法来进行候选字符串的过滤。该方法的优点在于：１）新词发现的计算复杂度大大降低，大大提高了新词发现的速度。２）支持任意长度的新词发现。３）准确率明显超出了已有的新词发现方法，通过采用全新的字符串成词概率估计和垃圾串过滤策略，本方法的新词发现准确率大大提高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本信息处理
，特别涉及一种。
技术介绍
近年来，随着网络日益普及，互联网上的文本规模逐步扩大，信息资源不断增加。为了从大量的资源中检索和挖掘有价值的信息，研究界大力发展文本处理的技术。其中，新词发现技术是诸多公司和研究所的研究热点。所谓新词发现，是指从文本中以自动或半自动的方式获得未登录词。半自动的新词获取需要人工干预，而自动新词获取不需要人工干预。新词发现是学术界和工业界的研究热点。对于学术界而言，良好的新词发现方法能够极大地扩充词典，减轻词典编纂者的工作量，也能极大地帮助研究人员研究新词新语。对于工业界而言，好的新词发现方法可以在应用在不同领域，例如拼音输入法、微博和博客的实时挖掘、分词系统的词表扩充、舆论监控、敏感词提取、突发性事件发现和热点信息提取等等。尽管学术界对新词的定义存在争议，导致对新词的界定不尽相同。比较流行的定义为，新词是通过各种途径产生的具有现代汉语基本词汇所没有的新形式、新意义和新用法的词语。该定义在理论上可行，但在工程实践中可操作性不强。新意义和新用法在实践中不容易判定。因此，本方法从文本处理的工程实际出发，把新词界定为未登录词，即词表未覆盖的词语都是新词。关于新词发现的研究方法，主要包括如下两种(1)基于监督的新词发现方法，该方法适合处理低频和较短的字符串组成的新词。这种方法一般基于训练语料，采用各种统计模型进行识别。基于监督的新词发现方法的缺点在于容易受到训练语料和分词系统的影响，导致系统准确率不高或者获得的新词存在种种限制。(2)基于非监督的新词发现方法，该方法适合处理高频和...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：牟小峰，
申请(专利权)人：北京新媒传信科技有限公司，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人