当前位置: 首页 > 专利查询>苗玉水专利>正文

汉语文本智能分词法制造技术

技术编号:4291025 阅读:296 留言:0更新日期:2012-04-11 18:40
本发明专利技术是一种主要基于汉语语法分析基础上的计算机或嵌入式可移动设备的汉语文本智能分词方法,它是一种基于理解的汉语文本分词方法。本发明专利技术所采用的汉语语法是词法和句法以及构词法与英语几乎完全相一致的一种新型汉语语法,所分词的汉语文本可以是汉字,也可以是与《汉语拼音方案》具有一一对应关系的汉语拼音文本,属于计算机或各种手持嵌入式可移动设备汉语信息处理技术领域。它能广泛应用于汉语的拼音-汉字双向转换、简体-繁体转换、汉语的语音识别、语音合成、机器翻译以及信息检索搜索等领域。

【技术实现步骤摘要】

本专利技术是一种主要基于汉语语法分析基础上的计算机或嵌入式可移动设备的汉语文本智能分词方法,所采用的汉语语法是词法和句法以及构词法与英语几乎完全相一致的一种新型汉语语法,所分词的汉语文本可以是汉字以及与《汉语拼音方案》具有一一对应关系的汉语拼音文本,由于一个汉字对应于一个汉语拼音音节,因此本专利技术凡是适用汉字的地方,对与《汉语拼音方案》具有一一对应关系的汉语拼音的对应音节也同样适用,本专利技术属于计算机或各种手持嵌入式可移动设备汉语信息处理

技术介绍
二十世纪四十年代起,计算机的飞速发展在全球范围内引起了 一场以电子计算机为中心的第三次技术革命,它把人类从繁重的脑力劳动中解放出来,开创了人类智力解放的新纪元。 众所周知,拼音文字文本比如英语文本是按词连写,词与词之间已经是分隔好的词串,本身不存在分词问题,而由于我国记录汉语使用的是方块表意汉字,由方块表意汉字组成的汉语文本是一种没有按词切分的连续汉字或音节串,通常需要以词为基本单位进行切分后,才能交给计算机作进一步处理。例如汉语的汉语拼音与汉字的转换、汉字的简体和繁体转换、汉语的语音识别、汉语文本的语音合成、机器翻译以及信息检索等等,都需要先进行词的切分,这样汉语信息处理的准确性就会大大提高。比如对信息搜索来说,如果不切词只能按字进行检索,当检索德国货币单位〃 马克〃 时,就会把〃 马克思〃 检索出来。对所有的传统的汉语文本的分词系统来说,它需要做的工作就是把字串分成词串并将词与词之间用空格隔开。 由于汉语分词是汉语信息进一步处理的前提和基础,其重要性日益提高,为此众多单位和个人对汉语文本的分词技术都进行了深入的研究和有益的探索,80年代初至今比较典型的分词系统有我国第一个实用的自动分词系统,北京航空航天大学计算机系于1983年设计实现的CDWS分词系统、山西大学计算机系研制的ABWS自动分词系统、北京航空航天大学于1988年实现的分词系统CASS、北京师范大学现代教育研究所于1991前后研制实现的书面汉语自动分词专家系统、清华大学研制的SEG分词系统、国家语委文字所应用句法分析技术的汉语自动分词、复旦分词系统、哈工大统计分词系统、杭州大学改进的匪分词系统、Microsoft Research汉语句法分析器中的自动分词系统、北大计算语言所分词系统等等,目前市面上商业化比较有影响的是海量科技的分词系统。 应该说上面的各个分词系统对我国的汉语信息处理技术的发展都做出了重要贡献,这些系统所用的技术一般是下列三种中的一种或它们的组合,这三种技术是 基于汉字或音节串匹配的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行匹配,若在词典中找到某个汉字或音节串,则匹配成功识别出 一个词。 基于统计的分词方法,这种方法的基本思想是相邻的字同时出现的次数越多,就越有可能构成一个词,因此字与字相邻共现的频率或概率能够较好的反映成词的可信度,当与字与字相邻共现的频率或概率有关的数据高于某一个阈值时,便可认为此字组可能构成了一个词,这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。 基于理解的分词方法,其基本思想就是通过对词法、句法、构词法、句型等汉语语法知识的综合分析运用来达到准确切分汉语文本的单词和消除歧义现象的目的,它模拟了人对汉语句子的理解过程。 上面几种方法其实最好的是基于理解的方法,这种分词方法需要使用大量的汉语语言知识即汉语的语法知识,由于汉语白话文的历史没有超过100年,在本专利技术出现前,人们对汉语的语法规律掌握和提炼得还很不够,因此使得汉语语言知识非常笼统复杂,难以将各种语法信息组织成机器可直接读取的形式,这样就使得基于理解的分词系统只能处于摸索试验探讨阶段,长期来只能处于一种人们期望达到的理想境界。 实际上人们采用机械分词法和统计规律分词法进行分词也是无奈之举,一有机会人们还是希望用理解的方式来分词,因为这更符合人脑的阅读时的分词理解机制,是最终的解决分词问题的方法,但由于以上所有的分词方法都是在没有系统的汉语语法理论指导和支持的基础上开发的,因此各个开发研究单位虽然都很努力,在后来的所开发的分词系统中都尽可能利用了现有的汉语语法知识,但是由于现有的汉语语法知识体系的不完备,客观上只能部分地利用了汉语的语法知识,为了提高系统分词的准确性,只能借助于机械分词和统计规律来弥补,比如现在市面上做得比较有影响的海量分词系统,它们的分词系统采用的方法叫复方分词方法,意思是采用了多种方法来进行分词。虽然以上各种系统的分词方法动用了一切可用的方法来进行分词,但是离真正的模拟人的大脑基于理解的智能分词机制还有相当的距离,导致了分词效果与正常的人工分词还有不少距离,还需要进一步地改进和完善,甚至有的系统出现了对词的界定非常随意,经过有些系统分出来的"词"不是汉语语法意义上的"词"的情况,这就给汉语句型的正确描述进而进行不同语言比如汉英之间的正确机器翻译带来了极大的困难。
技术实现思路
本专利技术是首先通过建立一种与英语语法基本完全相一致的汉语语法来为智能分词奠定基础,这样就使得整个分词系统能够模拟人脑的分词过程来进行分词,使得分词系统更加智能化,它是一种基于理解的分词方法,这样也就克服了原来由于缺少系统性和完整性的与国际语法理论体系接轨的汉语语法系统的支持,而使分词方法过多地依赖机械分词和统计规律分词方法的弊端,极大地提高了汉语文本分词的准确性,使得中文信息搜索更加准确,可以更好地支持世界使用最广的两大语言汉语和英语的相互翻译。 本专利技术的具体做法是词法方面首先将汉语的词类分成名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词;句法方面将汉语的句子成分划为主语、谓语宾语、表语、同位语、定语、状语、补语;将句子的复句分为并列复句和主从复句,主从复句中的从句又可以分为主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句;将汉语动词时态分为过去时、现在时、现在将来时、过去将来时;汉语动词体式分为一般式、进行式、完成式、完成进行式;建立汉语动词的非谓语动词、被动语态和谓语动词的虚拟5语气;汉语的构词法方面主要通过在词根基础上加前缀、中缀、后缀、前后缀的方法以及词根与词根复合的方法来构词,这样就建立了与英语语法基本完全相一致的汉语语法体系,然后再提取这些词法、句法、句型以及构词法中的特征词,根据它们对分词切分判别的重要和难易程度分别按类别归入一级词库、二级词库和三级词库,比如 将汉语的非单个汉字或音节的专用名词、代词、数量词、部分副词、介词、连词、语气词和象声词、表征并列复句和各个从句的特征词、动词各种时体系统、被动语态、虚拟语气的特征词、构词法的前后缀分类列入一级词库,这些特征词具有常用、固定、相对词数少、更容易判定的特点。 将主要表征汉语成语的四字词、单音词、形容词、动词、未列入一级词库的其它名词和副词分类列入二级词库,这些词具有常用、固定但量大的特点。列入二级词库的副词主要是方式副词,如果不考虑副词后面的"地"和形容词后面的"的"的差别,这类副词与形容词大部分同形,由于在本专利技术中副词后面的"地"和形容词后面的"的"是被作为一个单音节词作单独切分本文档来自技高网
...

【技术保护点】
一种主要基于与英语语法的词法句法及其构词法基本相一致的新型汉语语法分析基础上的计算机或嵌入式可移动设备的汉字文本和与《汉语拼音方案》具有一一对应关系的汉语拼音文本的分词方法。

【技术特征摘要】

【专利技术属性】
技术研发人员:苗玉水
申请(专利权)人:苗玉水
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1