一种中文分词方法及系统技术方案

技术编号:2835943 阅读:286 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及中文信息处理领域,提供了一种中文分词方法及系统。所述方法包括以下步骤:A.对输入的中文文本进行原子切分,并根据所得的原子序列建立初始的切分词图;B.基于原子序列分别进行词典词切分和特定词识别,并将各自的独立分词结果添加到所述切分词图中;C.根据所述切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。本发明专利技术基于中文文本的原子序列分别进行词典词切分和特定词识别,根据各自的独立分词结果生成一条最优分词路径,最终按照该最优分词路径输出综合分词结果,从而提高了中文分词的准确性。另外,在特定词识别中,根据具体情况有选择地启动对各类特定词的识别,提高了中文分词的效率。

【技术实现步骤摘要】

本专利技术涉及中文信息处理领域,更具体地说,涉及一种中文分词方法及系统
技术介绍
中文信息处理技术现已在计算机网络、数据库技术、软件工程等计算机领域得到了广泛应用,而中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理项目中都涉及到分词问题,如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。由于中文文本是连写的,词之间没有空格,因而在中文文本处理中,首先遇到的问题是分词的问题,词的正确切分是进行中文文本处理的必要条件。中文分词算法可分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法(1)基于字符串匹配的分词方法又称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,从而识别出一个词。(2)基于理解的分词方法是指,在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象,它模拟了人对句子的理解过程,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词方法还不够成熟。(3)基于统计的分词方法的理论基础是,从形式上看词是稳定的字的组合,因此在上下文中相邻的字同时出现的次数越多,就越有可能构成一个词。因此可以对文本中相邻共现的各个字的组合的频度进行统计,即计算一个字组中字与字间的相邻共现概率,当该概率高于某一个阈值时,便可认为此字组可能构成了一个词。统计分词方法切分出来的词都是带有概率信息的,最后通过在所有可能的切分结果中选出一种概率最大的分词结果,这种方法具有自动消除歧义的优点,目前这种方法是分词的主流方法。在一种现有的分词方法中,具体步骤如下A.将输入文本切分为单个原子;B.从切分得到的原子序列中识别出词典已收录词汇,简称为词典词;C.利用系统中保存的常见歧义词切分表,对识别出的词典词进行切分排歧;D.然后在切分排歧的基础上,进一步识别具有规律性的特定词(如时间词、数词、人名、地名等),最后输出分词结果。上述现有技术的方法存在以下弊端词典词切分、歧义词的切分排歧以及特定词识别是几个相互独立的阶段,这样会导致前一阶段出现的错误将传导至后一阶段,无法及时修正,使得最终输出的分词结果错误。例如,若最初输入的句子是“王芳是研究生物的。”,经过词典词切分(可采用正向最大匹配算法)后的结果是“王/芳/是/研究生/物/的/。”,可知出现了“研究生/物”的切分错误;歧义词的切分排歧阶段主要是利用系统保存的常见歧义词切分表,而常见歧义词切分表存在一个致命缺陷,其永远也涵盖不了所有的语言歧义现象,不具有很好的扩展性,若在该例中没有包含“研究生物”这个项的话,那么“研究生/物”的切分错误就不会被纠正过来;在下一阶段,利用时间数词表、人名姓氏表和地名后缀表进行特定词识别,最终输出的分词结果则为“王芳/是/研究生/物/的/。”,这个结果仍然延续了词典词切分阶段出现的错误。因此需要一种新的中文分词方法,提高中文分词的准确性。
技术实现思路
本专利技术的目的在于提供一种中文分词系统,旨在解决现有的中文分词方法准确性较低的问题。本专利技术的目的还在于提供一种中文分词方法,以更好地解决现有技术中存在的上述问题。为了实现专利技术目的,所述中文分词系统,包括输入输出单元、原子切分单元、词典词切分单元和特定词识别单元,所述系统还包括一个切分词图单元和一个分词路径生成单元;所述切分词图单元与原子切分单元、词典词切分单元及特定词识别单元相连,用于将原子切分单元、词典词切分单元及特定词识别单元的独立分词结果分别保存在切分词图中;所述分词路径生成单元与切分词图单元相连,用于根据切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。优选地,所述特定词识别单元包括时间数词识别模块、人名识别模块、地名识别模块;所述时间数词识别模块存有一个时间数词表,用于识别时间词和数词,并将所述时间词和数词保存到切分词图中;所述人名识别模块存有一个人名姓氏表,用于识别人名,并将所述人名保存到切分词图中;所述地名识别模块存有一个地名后缀表,用于识别地名,并将所述地名保存到切分词图中。优选地,所述特定词识别单元进一步包括一个与所述时间数词识别模块、人名识别模块、地名识别模块分别相连的启动配置模块;所述启动配置模块用于对所述时间数词识别模块、人名识别模块、地名识别模块进行有选择的启动。优选地,所述分词路径生成单元进一步用于根据所述各独立分词结果的概率信息,计算所述切分词图中每个结点的词弧概率,并将词弧概率乘积最大的分词路径作为最优分词路径。为了更好地实现专利技术目的,所述中文分词方法基于前述的中文分词系统,包括以下步骤A.对输入的中文文本进行原子切分,并根据所得的原子序列建立初始的切分词图;B.基于原子序列分别进行词典词切分和特定词识别,并将各自的独立分词结果添加到所述切分词图中;C.根据所述切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。优选地,所述步骤A之前还包括在所述中文分词系统中存入词典及特定词表;所述词典收录常用词汇;所述特定词表包括时间数词表、人名姓氏表、地名后缀表。优选地,所述步骤B中进行词典词切分的步骤包括,采取正向最大匹配算法将所述原子序列与词典中收录的词汇进行对比,将所匹配的词汇确定为词典词。优选地,所述步骤B中的特定词识别包括执行以下三类操作中的至少一者利用所述时间数词表识别时间词和数词; 利用所述人名姓氏表识别人名;利用所述地名后缀表识别地名。优选地,所述步骤C进一步包括根据所述各独立分词结果的概率信息,计算所述切分词图中每个结点的词弧概率,并将词弧概率乘积最大的分词路径作为最优分词路径。优选地,所述独立分词结果的概率信息包括词典词的概率信息及特定词的概率信息;所述词典词的概率信息是指词典所收录词汇具有的成词概率;所述特定词的概率信息是指隐马尔可夫模型中的初始概率、发射概率和转移概率。本专利技术基于中文文本的原子序列分别进行词典词切分和特定词识别,根据各自的独立分词结果生成一条最优分词路径,最终按照该最优分词路径输出综合分词结果,从而提高了中文分词的准确性。另外,在特定词识别中,根据具体情况有选择地启动对各类特定词的识别,提高了中文分词的效率。附图说明图1是本专利技术的中文分词系统结构图;图2是图1所示系统在一个实施例中特定词识别单元的内部结构图;图3是图1所示系统在另一实施例中特定词识别单元的内部结构图;图4是本专利技术的中文分词方法流程图;图5是本专利技术一个实施例中的中文分词方法流程图;图6是本专利技术的一个实施例中进行原子切分后的切分词图的示意图;图7是本专利技术的一个实施例中进行特定词识别后的切分词图的示意图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术通过将输入的中文文本进行原子切分,并基于原子序列分别进行词典词切分和特定词识别,将各自的独立分词结果添加到切分词图中,再根据切分词图中的各独立分词结果生成一条最优分词路径,最终按照该最优分本文档来自技高网
...

【技术保护点】
一种中文分词系统,包括输入输出单元、原子切分单元、词典词切分单元和特定词识别单元,其特征在于,所述系统还包括一个切分词图单元和一个分词路径生成单元;所述切分词图单元与原子切分单元、词典词切分单元及特定词识别单元相连,用于将原子切分单元、词典词切分单元及特定词识别单元的独立分词结果分别保存在切分词图中;所述分词路径生成单元与切分词图单元相连,用于根据切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:张会鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1