一种中文分词方法及系统技术方案

技术编号:2918624 阅读:175 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及计算机及中文信息处理领域,提供了一种中文分词方法及系统。所述方法包括以下步骤:A.对输入文本以传统分词方法进行第一级分词;B.从第一级分词结果中提取出连续单字序列,通过其构词概率进行第二级分词;C.利用第二级分词识别出的新词更新分词结果,并输出。本发明专利技术在利用传统分词方法进行第一级分词之后,再对从第一级分词结果中提取出的连续单字序列根据构词概率进行第二级分词,从而将那些词典未收录且不具规律性的新词识别出来,提高了中文分词的准确率。

【技术实现步骤摘要】

本专利技术涉及计算机及中文信息处理领域,更具体地说,涉及一种中文分词方法及系统
技术介绍
中文信息处理技术现已在计算机网络、数据库技术、软件工程等计算机领域得到了广泛应用,而中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理项目中都涉及到分词问题,如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。由于中文文本是连写的,词之间没有空格,因而在中文文本处理中,首先遇到的问题是分词的问题,词的正确切分是进行中文文本处理的必要条件。中文分词算法可分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法(1)基于字符串匹配的分词方法又称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,从而识别出一个词。(2)基于理解的分词方法是指,在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象,它模拟了人对句子的理解过程,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词方法还不够成熟。(3)基于统计的分词方法的理论基础是,从形式上看词是稳定的字的组合,因此在上下文中相邻的字同时出现的次数越多,就越有可能构成一个词。因此可以对文本中相邻共现的各个字的组合的频度进行统计,即计算一个字组中字与字间的相邻共现概率,当该概率高于某一个阈值时,便可认为此字组可能构成了一个词。统计分词方法切分出来的词都是带有概率信息的,最后通过在所有可能的切分结果中选出一种概率最大的分词结果,这种方法具有自动消除歧义的优点,目前这种方法是分词的主流方法。在一种现有的分词方法中,具体步骤如下A.将输入文本切分为单个的原子,并利用原子序列建立初始的切分词图;B.从切分得到的原子序列中识别出字典已收录词汇以及规律性词汇(如时间词、数词、人名、地名等),添加到切分词图中;C.根据切分词图生成最优路径分词结果序列。由上可知,该现有分词方法无法对词典未收录且不具规律性的新词进行识别,因此需要一种能识别出此类新词的中文分词方法,从而进一步提高分词准确率。
技术实现思路
本专利技术的目的在于提供一种中文分词系统,旨在解决现有技术无法对词典未收录且不具规律性的新词进行识别,因而分词准确率无法得到进一步提高的问题。本专利技术的目的还在于提供一种中文分词方法,以更好地解决现有技术中存在的上述问题。为了实现专利技术目的,所述中文分词系统包括用于传统分词的第一级分词单元,所述系统还包括第二级分词单元;所述第二级分词单元与第一级分词单元相连,用于从第一级分词单元的分词结果中提取出连续单字序列,通过其构词概率进行新词识别,并利用识别的新词更新分词结果。优选地,所述中文分词系统还包括输入输出单元和词汇存储单元;所述输入输出单元用于输入文本,并将最终的分词结果输出;所述词汇存储单元与输入输出单元、第一级分词单元以及第二级分词单元相连,用于存储输入的文本,并根据第一级分词单元和第二级分词单元的分词操作更新分词结果。优选地,所述第二级分词单元进一步包括单字序列模块、概率计算模块和新词判定模块;所述单字序列模块从词汇存储单元存储的第一级分词结果中提取出连续单字序列,并输入概率计算模块;所述概率计算模块计算所述连续单字序列中每个单字的构词概率;所述新词判定模块根据所述连续单字序列中每个单字的构词概率,判定所述连续单字序列是否为新词。优选地,所述构词概率是指,在一个连续单字序列中一个单字以一种构词方式存在的概率;所述构词方式包括作为一个词的词首、作为一个词的词中、作为一个词的词尾,以及单独成词。优选地,所述概率计算模块计算构词概率的公式为WCP(x)=C(x,WCM)/C(x);其中x是所述连续单字序列中的任一单字,WCP(x)为所述任一单字的构词概率,C(x,WCM)是所述任一单字以一种特定构词方式在文本中出现的次数,C(x)是所述任一单字在文本中出现的总数。优选地,所述新词判定模块中设有一个概率阈值,若一个连续单字序列中每个单字的构词概率均大于所述概率阈值,则判定所述连续单字序列为一个新词。为了更好地实现专利技术目的,所述中文分词方法包括以下步骤A.对输入文本以传统分词方法进行第一级分词;B.从第一级分词结果中提取出连续单字序列,通过其构词概率进行第二级分词;C.利用第二级分词识别出的新词更新分词结果,并输出。优选地,所述步骤A中的传统分词方法,包括以下几种基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。优选地,所述步骤B包括B1.计算连续单字序列中每个单字的构词概率;B2.将所述每个单字的构词概率与设定的概率阈值进行对比,若一个连续单字序列中每个单字的构词概率均大于所述概率阈值,则将所述连续单字序列判定为一个新词。优选地,所述步骤B1中计算构词概率的公式为WCP(x)=C(x,WCM)/C(x);其中x是所述连续单字序列中的任一单字,WCP(x)为所述任一单字的构词概率,C(x,WCM)是所述任一单字以一种特定构词方式在文本中出现的次数,C(x)是所述任一单字在文本中出现的总数。本专利技术在利用传统分词方法进行第一级分词之后,再对从第一级分词结果中提取出的连续单字序列根据构词概率(Word Composition Probability,WCP)进行第二级分词,从而将那些词典未收录且不具规律性的新词识别出来,提高了中文分词的准确率。附图说明图1是本专利技术的中文分词系统的结构图;图2是本专利技术的一个实施例中中文分词系统的第二分词单元的内部结构图;图3是本专利技术的中文分词方法的流程图;图4是本专利技术的一个实施例中中文分词方法的流程图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术首先利用传统分词方法对输入文本进行第一级分词,然后从第一级分词结果中提取出连续单字序列,并计算每个单字的构词概率,利用构词概率对该连续单字序列进行第二级分词,从而将那些词典未收录且不具规律性的新词识别出来,提高了中文分词的准确率。图1示出了本专利技术的中文分词系统100的结构,该系统可应用于多种终端设备中,例如个人计算机(Personal Computer,PC)、个人数字助理(Personal DigitalAssistant,PDA)、移动电话(Mobile Phone,MP)等,因此本专利技术的中文分词系统100不应限定应用于某种特定类型的终端设备。该中文分词系统100包括输入输出单元101、词汇存储单元102、第一级分词单元103和第二级分词单元104,各个功能单元之间进行信息交互。应当说明的是,本专利技术所有图示中各设备之间的连接关系是为了清楚阐释其信息交互及控制过程的需要,因此应当视为逻辑上的连接关系,而不应仅限于物理连接。其中(1)输入输出单元101主要执行以下功能接收原始的中文文本输入,并将其存储到词汇存储单元102中;当第一级分词单元103和第二级分词单元104完成词汇切分之后,则从词汇存储单元102中提取最终的分词结果并输出。(2)词汇存储单本文档来自技高网
...

【技术保护点】
一种中文分词系统,包括用于传统分词的第一级分词单元,其特征在于,所述系统还包括第二级分词单元;所述第二级分词单元与第一级分词单元相连,用于从第一级分词单元的分词结果中提取出连续单字序列,通过其构词概率进行新词识别,从而利用识别的新词 更新分词结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:张会鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1