一种科技术语的新词识别方法技术

技术编号：7843353 阅读：210 留言：0更新日期：2012-10-13 01:43

本发明专利技术提供一种新词识别方法，包括：对科技文本进行断句处理，构建机器词典；对断句切分出的短句进行词表匹配分词，然后对剩下的语串进行原子分词，自动抽取二字词、三字词及多字词；应用统计学方法对抽取的词汇进行排序，对排序的词汇进行评价，获得新词。本发明专利技术的方法极大地提高了新词识别的准确性和全面性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机中文信息处理技术，更具体地，涉及ー种科技术语的新词识别方法。
技术介绍
中文信息处理技术已经在计算机网络、数据库技术、软件工程、文献检索识别等
得到了广泛的应用。中文自动分词是中文信息处理的一项基础性工作，许多中文信息处理项目都涉及分词问题，例如机器翻译、自动文摘、自动分类和中文文献库检索等。由于中文文本是连续书写的，字与字之间、词与词之间没有空格，所以中文文本处理的首要问题是分词，词汇的准确区分是进行中文文本处理的基础。但词汇的区分对于词典中的词汇没有问题，但对于新词的出现，却不能实现准确的识别。自然语言处理领域的专家一直尝试用不同的方法借助计算机从大規模的文本中自动抽取新词。由于社会和技术的发展以及新词语的不断涌现，导致自动分词中出现很多不成词的散串，影响了分词准确率。因此有效识别新词，对提高中文自动分词的总体效果可以起到重要的作用。诸如专利文献的科技文献作为技术信息的有效载体，随着技术的迅速发展，不断涌现出各种各样的新概念，这些新概念往往以科技新词汇的形式体现出来。从大量的专利文献中自动发掘这些反映新概念的词汇对于很多应用具有重要价值，例如基于字典的分词、专利检索、专利分类、专利机器翻译。腾讯科技(深圳)有限公司于2007年6月27日提交名称为“ー种中文分词方法及系统”的中国专利技术专利申请，在该专利技术的技术方案中，首先通过基于字符串的分词方法、基于理解的分词方法等传统分词方法进行处理，然后通过字间出现的概率和既定阈值相比较，识别新词。该方法对于具有规律性的一些表达但不构成新词的情况没有进行处理，准确率较差。微软公司于...

【技术保护点】

【技术特征摘要】
1.一种新词识别方法，包括步骤I，对科技文本进行断句处理，构建机器词典；步骤2，对断句处理切分出的短句进行词表匹配分词，然后对剩下的语串进行原子分词，自动抽取二字词、三字词及多字词；步骤3，应用统计学方法对抽取的词汇进行排序，进而对排序后的词汇进行评价，获得新词。2.根据权利要求I所述的方法，其中，步骤I还包括根据诸如分隔符、回车换行符和标点符号的语句分隔标志，把科技文本分隔成多个短句；基于常用词表和技术、专利领域的专业词表合并形成机器词典。3.根据权利要求2所述的方法，其中，步骤2还包括基于正向最大匹配法、逆向最大匹配法、最少切分方法和双向最大匹配法的一种或者几种，将上述多个短句和机器词典进行匹配，识别旧词；将识别后剩余语串中的汉字、短句前后的开始结束标识字段、全角标点符号、相连的数字字母或者单字节字符视为原子，把语串从左到右切分成单独原子，提取二字词、三字词和四子词。4.根据权利要求3所述的方法，其中，步骤3还包括将单独原子按照从左到右或者从右到左的顺序分别组成相邻的两字词汇，并且将这些词汇按照在技术文本中出现的频率由高到低排列。5.根据权利要求4的方法，其中，步骤3中评价方法包括第一评价方法采用基于相似性来判别任意词...

【专利技术属性】
技术研发人员：曲晓光，雷静，丰瑾，侯晓艳，徐锡涛，
申请(专利权)人：北京新发智信科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人