一种分词处理方法及设备技术

技术编号:2834275 阅读:182 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例涉及信息处理技术,公开了一种分词处理方法,该方法包括:接收待分词的语句;切分所述语句并获得所述语句的所有分词方式;分别计算所述的所有分词方式中每种分词方式的语句权值,比较每种分词方式的语句权值从所述的所有分词方式中确定所述语句的分词结果。本发明专利技术实施例还公开了一种分词处理设备。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,特别涉及一种分词处理方法及设备
技术介绍
随着信息技术的发展,信息处理设备对信息的处理能力越来越强,可以满 足处理需要理解能力的需求,比如信息识别、纠错、分词处理等。词是 表达语意的最小单位,分词技术如何能让计算机识别简单的词以便信息处 理的需要,其在信息检索、信息纠错、自动翻译等方面有着广泛的用途。在英语中,词和词之间是以空格为自然分隔符的;但在汉语或其他语言中,词和词 之间没有明显的分隔,比如我是一个学生,,可以分词为我/是/一个/学生, 这是基于我们对语言语义的理解基础上作出的判断,那么信息处理设备(比如 计算机,以下以计算机为例)在如何能进行分词操作?目前现有技术的分词方 法包括基于词表的分词方法,即依据一个词库,采用长词优先原则进行分 词,即对于一个需要分词的语句T,先从第一个字A开始,找出在词库中第一 个字最长的词X;然后把该语句T删除词X,对剩下的所有词构成的语句T,进 行采用上述切分方式进行类似的切分。比如对语句中国人民共和国,在词 库中中国,,是一个词,中国人,,是一个词、中国人民也是一个词的话, 则以最长的中国人民作为一个词,最终将语句切分成中国人民/共和国。 使用这种分词方法会引发一些切分错误因为在语义表达中,切分出来的长词 并不是我们期望的分词结果,正如上面对语句中国人民共和国的分词处理 结果。
技术实现思路
本专利技术实施例提供一种分词处理方法及设备,用以解决目前分词处理结果准确率不高的问题。本专利技术实施例提供的分词处理方法包括 接收待分词的语句;切分所述语句并获得所述语句的所有分词方式;分别计算所述的所有分词方式中每种分词方式的语句权值,比较每种分 词方式的语句权值,从所述的所有分词方式中确定所述语句的分词结果。本专利技术实施例提供一种分词处理设备,包括接收单元用于接收待分词的语句;切分单元用于切分所述语句并获得所述接收单元接收的语句的所有分 词方式;结果确定单元用于所述的所有分词方式中每种分词方式的语句权值, 比较每种分词方式的语句权值,从所述的所有分词方式中确定所述语句的分 词结果。本专利技术有益效果如下通过对各种分词方式进行量化比较,从而进一步 确定最终分词结果,相比基于词表的分词方法获得的分词结果提高了准确率, 提高分词处理设备的处理效率。附图说明图1是本专利技术实施例的方法流程示意图2是本专利技术实施例创建FChain、 LChain的流程示意图3是本专利技术实施例语言模型分析的流程示意图4是本专利技术实施例确定最终分词结果的流程示意图5是本专利技术实施例分词处理设备的结构示意图。具体实施例方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图 对本专利技术作进一步地详细描述。本专利技术实施例的核心在于,结合使用基于词表的分词方法和基于统计的 分词方法获得更优的中文分词策略,获得分词结果。如下为本专利技术相关技术术语的描述1、 词库 一个数据库或数据表,存储了需要使用的所有词的集合,相 当于汉语中的词典;2、 字是语言定义的最小表达单位,用于和其他字组合构成可表达语 言的词,字也可以单独成词,相当于汉语的汉字;3、 语言模型用来训练分词的基础文件,可以是单个文件,也可以多 个文件组合;内容可以是一般文章、小说、报纸新闻等;4、 词指在词库中对应的词组,是字或字的组合(其中字是语言定义的 最小表达单位,用于和其他字组合构成可表达语言的词,字也可以单独成词, 相当于汉语的字,,),相当于汉语意义上的词,本专利技术的词不限于汉语, 可以是其他语言(比如日语)甚至是为了其他需要自定义语言的词;5、 语句是词或者词的组合,本专利技术所指语句可以是真实的语句,也 可以是没有具体语言含义的的词的组合;6、 词首链表FChain:指以某一个字开头的所有词构成的链表,比如中 的词首链表为中国-> 中华-> 中间-> 中国人-> 中奖-> 中意-> 中暑;7、 词尾链表LChain:指以某一个字结束的所有词构成的链表,比如家 的词首链表为大家->专家->科学家->数学家;8、 异构词链表IChain:指的是分词后,上一个词的词尾和下一个词的 词首组成的组合,比如解决技术问题经过分词后得到如下分词结果解决/技术/问题,则决技、术问就构成了异构词,决技->术问构成的链表即为异构词链表;需要补充说明的是, 一个词可能既是词,又是异构词,比如国人,在分词结果中国/人中是异构词,而在中/国人中则是词;9、 词频Freq(A):词或者异构词出现的频率;10、 权值词或者异构词对应的权值可以是根据词频以及其他统计项计 算出来数值,表示该词或者异构词出现的可能性大小,指示一组词和短语中 的每个词和短语的重要程度。比如可以设定词在词首链表中的权值为M(A), 在词尾链表中的权值为N(A),在异构词链表中的权值为MM(A);11、 权值因子权值因子在建立分词方案的时候确定,每个链表都有自 己的权值,比如可以设定词首链表的权值因子为F(A),词尾链表的权值因子 为L(A),异构次首链表的权值因子为FF(A),异构词尾链表的权值因子为 IX(A);12、 语句权值是用于表征分词结果对应的具体数值,根据语句对应的算的结果S,可以是各个链表的权值与权值因子乘积的总和S,也可以是根 据具体的语言和分词策略等确定其他的语句权值计算方式。不同的分词方式, 相应S的值会不同,比如对于深圳大学城,如果分词结果是(深圳/大学/ 城),则语句权值为S(深圳/大学/城)=M(深圳F(A) + M(大学F(A)十]V[(城F(A) + 1^(深圳)*!^(八)+ N(大学L(A) +NQA)*L(A) + MM(圳大FF(A) + MM(学城FF(A) 如果分词结果是(深圳/大学城),则语句权值为S(深圳/大学城)=M(深圳F(A) + M(大学城F(A)+ N(深圳)承L(A)十N(大学城L(A)+ MM(圳大FF(A)从上可知,S(深圳/大学城)计算的方法和S(深圳/大学/城)不一样,在 最后的统计中,根据需要可以取语句权值S最大对应的分词结果作为最终分 词结果。需要说明的是, 一般在分词有歧义的时候才通过计算最大的语句权 值S来推导最终分词结果。比如,如果圳大在词库中没有即其不是一个 词,则分词结果深/圳大/学城不成立,也就可以不计算其语句权值。本专利技术实施例的方法可以在分词处理设备上完成,分词处理设备可以是 个人计算机,手机,个人数字助理等数字设备,也可以是一个软件或者硬件 实现的独立功能模块,当然该独立功能模块可以存在于具体的数字设备中。具体如图1所示,为本专利技术实施例的流程示意图,该实施例用于对一 语句进行分词处理Stepl:根据词库创建词首链表FChain和词尾链表LChain,并初始化每 个词的词频Freq(A),该步骤的具体方法如图2所示(需要说明的是,并不是 每次分词操作都要执行该步骤,该步骤是根据词库初始化FChain、 LChain、 每个词的词频Freq(A), 一旦创建了就可以供后续分词操作直接使用这些已经 初始化好);Step2:基于全切分规则,从语言模型中统计分出每个可行的词,修改 FChain和LChain中的词频,生成IChain,并初始化本文档来自技高网...

【技术保护点】
一种分词处理方法,其特征在于,所述方法包括:接收待分词的语句;切分所述语句并获得所述语句的所有分词方式;分别计算所述的所有分词方式中每种分词方式的语句权值,比较每种分词方式的语句权值,从所述的所有分词方式中确定所述语句的分词结果。

【技术特征摘要】
1.一种分词处理方法,其特征在于,所述方法包括接收待分词的语句;切分所述语句并获得所述语句的所有分词方式;分别计算所述的所有分词方式中每种分词方式的语句权值,比较每种分词方式的语句权值,从所述的所有分词方式中确定所述语句的分词结果。2. 如权利要求1所述的方法,其特征在于,切分所述语句并获得所述 语句的所有分词方式包括获取所述语句的首字;根据词表确定所述语句中以所述首字为首的首词;切分获得所述语句的截首词句的所有分词方式,根据所述首词和所述截 首词句的所有分词方式获得所述语句的所有分词方式。3. 如权利要求1所述的方法,其特征在于,所述计算每种分词方式对 应的语句权值的方法是获取给定分词方式中各词在分词过程链表中的权值;利用所述权值和所述分词过程链表的权值因子进行数学运算获得所述 给定分词方式的语句权值。4. 如权利要求3所述的方法,其特征在于,所述分词过程链表根据词 库初始化获得,并通过语言模型进行修改。5. 如权利要求3或4所述的方法,其特征在于,所述分词过程链表包 括如下之一或其组合词首链表或词尾《连表或异构词4...

【专利技术属性】
技术研发人员:朱鹏喜
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1