一种科技术语的新词识别方法技术

技术编号:7843353 阅读:210 留言:0更新日期:2012-10-13 01:43
本发明专利技术提供一种新词识别方法,包括:对科技文本进行断句处理,构建机器词典;对断句切分出的短句进行词表匹配分词,然后对剩下的语串进行原子分词,自动抽取二字词、三字词及多字词;应用统计学方法对抽取的词汇进行排序,对排序的词汇进行评价,获得新词。本发明专利技术的方法极大地提高了新词识别的准确性和全面性。

【技术实现步骤摘要】

本专利技术涉及计算机中文信息处理技术,更具体地,涉及ー种科技术语的新词识别方法
技术介绍
中文信息处理技术已经在计算机网络、数据库技术、软件工程、文献检索识别等
得到了广泛的应用。中文自动分词是中文信息处理的一项基础性工作,许多中文信息处理项目都涉及分词问题,例如机器翻译、自动文摘、自动分类和中文文献库检索等。由于中文文本是连续书写的,字与字之间、词与词之间没有空格,所以中文文本处理的首要问题是分词,词汇的准确区分是进行中文文本处理的基础。 但词汇的区分对于词典中的词汇没有问题,但对于新词的出现,却不能实现准确的识别。自然语言处理领域的专家一直尝试用不同的方法借助计算机从大規模的文本中自动抽取新词。由于社会和技术的发展以及新词语的不断涌现,导致自动分词中出现很多不成词的散串,影响了分词准确率。因此有效识别新词,对提高中文自动分词的总体效果可以起到重要的作用。诸如专利文献的科技文献作为技术信息的有效载体,随着技术的迅速发展,不断涌现出各种各样的新概念,这些新概念往往以科技新词汇的形式体现出来。从大量的专利文献中自动发掘这些反映新概念的词汇对于很多应用具有重要价值,例如基于字典的分词、专利检索、专利分类、专利机器翻译。腾讯科技(深圳)有限公司于2007年6月27日提交名称为“ー种中文分词方法及系统”的中国专利技术专利申请,在该专利技术的技术方案中,首先通过基于字符串的分词方法、基于理解的分词方法等传统分词方法进行处理,然后通过字间出现的概率和既定阈值相比较,识别新词。该方法对于具有规律性的一些表达但不构成新词的情况没有进行处理,准确率较差。微软公司于2005年3月16日提交的名称为“切分非切分语言的输入字符序列的方法”的中国专利技术专利申请,在该申请的技术方案中,首先识别单字符序列,确定作为单字符出现的独立性概率,组合单字符,确定该单字符序列的总独立词概率,判定该概率,确定新词。首先该方法没有将既有词汇排除,容易将既有词汇和新单字混合,准确率较差;另外,该方法没有考虑中文的特殊性,对于中文的应用不具有普适性。
技术实现思路
为克服现有技术的上述缺陷,本专利技术提出。根据本专利技术的ー个方面,提出了ー种新词识别方法,包括步骤1,对科技文本进行断句处理,构建机器词典;步骤2,对断句切分出的短句进行词表匹配分词,然后对剩下的语串进行原子分词,自动抽取二字词、三字词及多字词;步骤3,应用统计学方法对抽取的词汇进行排序,对排序的词汇进行评价,获得新词。本专利技术的方法通过采用机械分词、词表匹配后统计评价,应用多种评价组合方式,进行新词的识别和获取,极大地提高了新词识别的准确性和全面性。附图说明图I为根据本专利技术的新词识别方法的总的流程图。如图所示,为了能明确实现本专利技术的实施例的结构,在图中标注了特定的结构和器件,但这仅为示意需要,并非意图将本专利技术限定在该特定结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。具体实施例方式下面结合附图和具体实施例对本专利技术提供的进行详细描述。 在以下的描述中,将描述本专利技术的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本专利技术的一些或者全部结构或者流程来实施本专利技术。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本专利技术。在其他情况下,为了不混淆本专利技术,对于ー些众所周知的特征将不再进行详细阐述。可以理解,本专利技术的中文新词识别方法,可以应用于多种終端设备,例如个人计算机、个人数字助理、移动通信设备、平板电脑等各种智能处理设备,因此本专利技术的方法不限于某种特定类型的終端设备。总的来说,图I示出根据本专利技术的新词识别方法的总的流程,如图I所示,该方法包括首先对专利文本先进行断句处理,构建机器词典,然后对切分出的短句进行分词;在词表匹配后,对剩下的语串进行原子分词;原子切分后,自动抽取二字词、三字词及多字词,应用统计学方法对其进行排序,并且对排序的词汇进行评价,获得新词。进ー步可以再由人エ加以筛选。具体地,如图I所示,其中,对于断句处理,包括根据分隔符、回车换行符、标点符号等语句的分隔标志,把整篇的科技文本分隔成多个短句。其中,对于机器词典构建,包括将常用词表和技木、专利领域的专业词表合井形成初始机器词典,此后通过不断加入机器识别且通过人工审核的新术语词对机器词典加以扩充。其中,对于分词,主要是指机械分词,将待分析的汉字串或者短句与ー个“充分大的”机器词典中的词条进行配对,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法包括正向最大匹配法、逆向最大匹配法、最少切分方法和双向最大匹配法。具体地,对于逆向最大匹配法,是指在每个分句中,按从右至左的方向,把最后一个字符与其左边的字符根据设定的最大长度进行组合,然后与机器词典中的词条进行对比,若匹配成功,则视为识别出ー个词,否则减少一个字符继续匹配,直至到最短两字符,如果还不能匹配成功,则将右边界向左推进ー个字符,再进行上述操作。上述的四种机械分词方法可以组合使用,进行优化筛选。对于原子切分,包括将匹配后剩余语串中的ー个汉字、短句前后的开始结束标识字段、全角标点符号、相连的数字字母或者单字节字符都视为原子,把语串从左到右切分成単独原子。对于新词排序,包括将单独原子按照从左到右或者从右到左的顺序分别组成相邻的两字词汇,并且将这些词汇按照在技术文本或者专利文本中出现的频率由高到低排列。进ー步,将单独原子按照从左到右或者从右到左的顺序分别组成相邻的三字或者四字词汇,并且将这些词汇按照在技术文本或者专利文本中出现的频率由高到低排列。对于评价方法针对二字词,使用下述三种评价方法获取二字词最终评价。第一种评价方法是采用基于相似性来判别任意词对的关联程度,基于关联程度,判别为新词。其中,计算方法包括log λ = IogL (c12, C1, p)+IogL (c2-c12, N-C1, p)-IogL (c12, C1, P1)-IogL (c2-c12, N-C1,P2), L(k, η, X)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新词识别方法,包括 步骤I,对科技文本进行断句处理,构建机器词典; 步骤2,对断句处理切分出的短句进行词表匹配分词,然后对剩下的语串进行原子分词,自动抽取二字词、三字词及多字词; 步骤3,应用统计学方法对抽取的词汇进行排序,进而对排序后的词汇进行评价,获得新词。2.根据权利要求I所述的方法,其中,步骤I还包括 根据诸如分隔符、回车换行符和标点符号的语句分隔标志,把科技文本分隔成多个短句; 基于常用词表和技术、专利领域的专业词表合并形成机器词典。3.根据权利要求2所述的方法,其中,步骤2还包括 基于正向最大匹配法、逆向最大匹配法、最少切分方法和双向最大匹配法的一种或者几种,将上述多个短句和机器词典进行匹配,识别旧词; 将识别后剩余语串中的汉字、短句前后的开始结束标识字段、全角标点符号、相连的数字字母或者单字节字符视为原子,把语串从左到右切分成单独原子,提取二字词、三字词和四子词。4.根据权利要求3所述的方法,其中,步骤3还包括将单独原子按照从左到右或者从右到左的顺序分别组成相邻的两字词汇,并且将这些词汇按照在技术文本中出现的频率由高到低排列。5.根据权利要求4的方法,其中,步骤3中评价方法包括 第一评价方法采用基于相似性来判别任意词...

【专利技术属性】
技术研发人员:曲晓光雷静丰瑾侯晓艳徐锡涛
申请(专利权)人:北京新发智信科技有限责任公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1