一种新词发现方法和系统技术方案

技术编号：6818231 阅读：246 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种新词发现方法和系统，基于bigram语言模型分别提取了前背景语料的bigram元素，并分别得到前背景语料的统计信息，利用统计信息及第一预设规则过滤bigram元素，再利用n-gram语言模型及第二预设规则对剩余的bigram元素进行前景语料中的扩展，n-gram元素的更新不需要对背景语料重新计算，避免对背景语料里已有新词重新发现，利用第二预设规则判别新词的边界，去除垃圾bigram元素和n-gram元素，简单易用，减少了人工校对的负担。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本信息处理领域，尤其涉及一种新词发现方法和系统。
技术介绍
中文(还有日语等亚洲语言)不像西方语言那样使用空格表示词的边界，因此分词是中文语言处理的首要任务。然而随着互联网内容服务(比如微博、小说)的迅速发展，网络新词不断涌现，自动语音识别(ASR)、文本-语音(TTS)、搜索引擎等系统里所采用的分词模型需要不断更新新词才不会过时，因此新词发现最近成为研究热点。目前新词发现所面临的问题大概有三方面1.缺乏有效依据。对于新词目前没有明确定义，现有技术中，一般是用词典(作为背景语料)去除前景语料中的非新词，再用规则从剩余的短语碎片中判断新词。但是由于新词的组成千差万别，许多情况下不具备普遍规律，如小说中的人名译名，魔法名，种族名，用词典和规则的方法往往达不到良好效果。2.词边界难于确定。现有技术中，采用基于语料库和概率统计方法的统计语言模型(一般为用前N-I个汉字来推测当前这个汉字的Markov模型称为N-gram(N元文法)语言模型，其中，当N= 1，2，3时，分别称为Unigram模型、Bigram模型和！digram模型)建立分词系统时，对于前景语料，背景语料的分词模型可信度大打折扣，特别是在新词附近；而采用停用词(语料中词频较高，但没有意义的词，如“的”、“太”等)规则的方法时，停用词也会带来负面作用，过滤掉一些可能新词，比如"可的便利店"的“可的”。3.更新困难。依赖于分词的新词发现，往往需要将背景语料和前景语料结合起来重新训练分词模型，滚动地发现新词，流程复杂而且耗时。
技术实现思路
本专利技术的目的在于提供一种新词发现方法和系...

【技术保护点】
１．一种新词发现方法，其特征在于，包括：根据ｂｉｇｒａｍ语言模型抽取已知背景语料的ｂｉｇｒａｍ元素，并统计所述已知背景语料中所有ｂｉｇｒａｍ元素的词频和与种数；根据ｂｉｇｒａｍ语言模型抽取前景语料的ｂｉｇｒａｍ元素，并统计所述前景语料中所有ｂｉｇｒａｍ元素的词频和与种数；根据上述所有统计确定所述前景语料中符合第一预设规则的ｂｉｇｒａｍ元素；根据ｎ－ｇｒａｍ语言模型对所述前景语料中剩余的ｂｉｇｒａｍ元素进行在所述前景语料中的向前和向后扩展，得到所述前景语料的ｎ－ｇｒａｍ元素，确定所述前景语料中符合第二预设规则的ｎ－ｇｒａｍ元素，得到新词列表。

【技术特征摘要】

【专利技术属性】
技术研发人员：吴悦，
申请(专利权)人：盛乐信息技术上海有限公司，
类型：发明
国别省市：31

全部详细技术资料下载我是这个专利的主人