一种分词处理方法及设备技术

技术编号：2834275 阅读：182 留言：0更新日期：2012-04-11 18:40

本发明专利技术实施例涉及信息处理技术，公开了一种分词处理方法，该方法包括：接收待分词的语句；切分所述语句并获得所述语句的所有分词方式；分别计算所述的所有分词方式中每种分词方式的语句权值，比较每种分词方式的语句权值从所述的所有分词方式中确定所述语句的分词结果。本发明专利技术实施例还公开了一种分词处理设备。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理领域，特别涉及一种分词处理方法及设备。
技术介绍
随着信息技术的发展，信息处理设备对信息的处理能力越来越强，可以满足处理需要理解能力的需求，比如信息识别、纠错、分词处理等。词是表达语意的最小单位，分词技术如何能让计算机识别简单的词以便信息处理的需要，其在信息检索、信息纠错、自动翻译等方面有着广泛的用途。在英语中，词和词之间是以空格为自然分隔符的；但在汉语或其他语言中，词和词之间没有明显的分隔，比如我是一个学生，，可以分词为我/是/一个/学生，这是基于我们对语言语义的理解基础上作出的判断，那么信息处理设备(比如计算机，以下以计算机为例)在如何能进行分词操作？目前现有技术的分词方法包括基于词表的分词方法，即依据一个词库，采用长词优先原则进行分词，即对于一个需要分词的语句T，先从第一个字A开始，找出在词库中第一个字最长的词X;然后把该语句T删除词X,对剩下的所有词构成的语句T，进行采用上述切分方式进行类似的切分。比如对语句中国人民共和国，在词库中中国，，是一个词，中国人，，是一个词、中国人民也是一个词的话，则以最长的中国人民作为一个词，最终将语句切分成中国人民/共和国。使用这种分词方法会引发一些切分错误因为在语义表达中，切分出来的长词并不是我们期望的分词结果，正如上面对语句中国人民共和国的分词处理结果。
技术实现思路
本专利技术实施例提供一种分词处理方法及设备，用以解决目前分词处理结果准确率不高的问题。本专利技术实施例提供的分词处理方法包括接收待分词的语句；切分所述语句并获得所述语句的所有分词方式；分别计算所...

【技术保护点】
一种分词处理方法，其特征在于，所述方法包括：接收待分词的语句；切分所述语句并获得所述语句的所有分词方式；分别计算所述的所有分词方式中每种分词方式的语句权值，比较每种分词方式的语句权值，从所述的所有分词方式中确定所述语句的分词结果。

【技术特征摘要】
1.一种分词处理方法，其特征在于，所述方法包括接收待分词的语句；切分所述语句并获得所述语句的所有分词方式；分别计算所述的所有分词方式中每种分词方式的语句权值，比较每种分词方式的语句权值，从所述的所有分词方式中确定所述语句的分词结果。2. 如权利要求1所述的方法，其特征在于，切分所述语句并获得所述语句的所有分词方式包括获取所述语句的首字；根据词表确定所述语句中以所述首字为首的首词；切分获得所述语句的截首词句的所有分词方式，根据所述首词和所述截首词句的所有分词方式获得所述语句的所有分词方式。3. 如权利要求1所述的方法，其特征在于，所述计算每种分词方式对应的语句权值的方法是获取给定分词方式中各词在分词过程链表中的权值；利用所述权值和所述分词过程链表的权值因子进行数学运算获得所述给定分词方式的语句权值。4. 如权利要求3所述的方法，其特征在于，所述分词过程链表根据词库初始化获得，并通过语言模型进行修改。5. 如权利要求3或4所述的方法，其特征在于，所述分词过程链表包括如下之一或其组合词首链表或词尾《连表或异构词4...

【专利技术属性】
技术研发人员：朱鹏喜，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人