【技术实现步骤摘要】
本专利技术涉及文本信息处理
,特别涉及一种。
技术介绍
近年来,随着互联网的逐渐流行,各种电子资源文本规模日渐扩大,文本中包含的 信息越来越多。为了从大量的资源中检索和挖掘有价值的信息,研究界和企业界大力开发 各种文本处理和数据挖掘技术。各种文本处理和数据挖掘的方法往往是基于词语,因此自 动发现新词是进行文本处理和数据挖掘的重要部分。所谓新词发现,是指从文本中以自动或半自动的方式获得未登录词。由于现有汉语分词方法、理论及实现中的种种缺陷,尚无一种汉语分词方法能够 在分词准确率和分词速度上达到较高的水平。汉语分词的准确率高,往往需要增大分词中 的计算开销,从而导致分词系统在工程上不适用;汉语分词的速度快,往往需要降低分词中 的准确率,从而也容易导致分词系统在工程上不适用。导致分词系统准确率无法提高的重要原因在于未登录词识别准确率不高,包括人 名、地名、组织机构名和其它类型的新词。为了提高未登录词的识别准确率,必须从文本里 发现未登录词,并把这些发现的未登录词注入词典,从而减少未登录词的识别错误。新词发现的研究方法主要包括如下两种1)基于监督的新词发现方法,该 ...
【技术保护点】
一种新词发现中字符串过滤方法,其特征在于,该方法包括:步骤A、估计候选字符串的成词概率;步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出。
【技术特征摘要】
一种新词发现中字符串过滤方法,其特征在于,该方法包括步骤A、估计候选字符串的成词概率;步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出。2.如权利要求1所述的方法,其特征在于,所述步骤B具体包括基于N元语法对成词 概率大于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出ο3.如权利要求2所述的方法,其特征在于,所述基于N元语法对成词概率大于第一预设 阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出具体包括步骤201、对成词概率大于第一预设阈值的候选字符串进行分词;步骤202、对词进行N元搭配测试,找出垃圾串;步骤203、对垃圾串进行过滤,将剩余的候选字符串作为词语串输出。4.如权利要求2所述的方法,其特征在于,所述基于N元语法对成词概率大于第一预设 阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出具体包括如果 成词概率大于第一预设阈值的候选字符串的子串...
【专利技术属性】
技术研发人员:牟小峰,
申请(专利权)人:北京新媒传信科技有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。