中文文本的分词方法及装置制造方法及图纸

技术编号:16819066 阅读:80 留言:0更新日期:2017-12-16 12:29
本发明专利技术实施例公开了一种中文文本的分词方法及装置,通过接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词,再对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景,然后根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果,能有效解决现有词库未基于不同的场景进行歧义处理的问题,对同一段词汇的容易混淆的意思进行深度识别,准确性高。

The method and device of Chinese text segmentation

The embodiment of the invention discloses a device and a word segmentation method Chinese text, by receiving text segmentation, matching processing of the text for the initial segmentation according to the standard of thesaurus, the word segmentation text initial segmentation, through the CRF model, the text recognition scene. Then according to the segmentation of the scene text entry of ambiguity recognition, so as to obtain the text segmentation results, can effectively solve the existing problems of the thesaurus without ambiguity processing based on different scenarios, the depth of recognition on the same section of the vocabulary easily confused, high accuracy.

【技术实现步骤摘要】
中文文本的分词方法及装置
本专利技术涉及计算机领域,尤其涉及一种中文文本的分词方法及装置。
技术介绍
中文分词指将一个汉字序列切分成一个一个单独的词。中文分词在信息检索、机器翻译和语音识别等领域起重要作用,是中文语音处理过程中必不可少的一个环节。一般地,由于存在分词歧义的问题,传统的基于词典的机械分词方法的准确度达不到100%。例如,“南京市长江大桥”可以分成“南京市长江大桥”,也可以分成“南京市长江大桥”。如果不依赖其他知识,两种分词方式似乎都是合理的现有的分词技术依赖的词库是二维的,最多只有词性和简单的概率权重。在算法模型上,未基于不同的场景进行歧义处理。目前国内的词库的缩写词条是人工添加的,比较机械。
技术实现思路
本专利技术实施例的目的是提供一种中文文本的分词方法及装置,能有效解决现有词库未基于不同的场景进行歧义处理的问题,准确性高。为实现上述目的,本专利技术实施例提供了一种中文文本的分词方法,包括步骤:接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词;对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景;根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果。与现有技术相比,本专利技术公开的中文文本的分词方法通过接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词,再对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景,然后根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果,能有效解决现有词库未基于不同的场景进行歧义处理的问题,对同一段词汇的容易混淆的意思进行深度识别,准确性高。作为上述方案的改进,还包括步骤:将所述分词结果中的长词通过已训练的缩写模型进行简化处理获得对应的缩写词,将所述缩写词与所述标准词库进行匹配校验。作为上述方案的改进,所述标准词库为具有多元语义的网络词库,通过以下步骤获取所述具有多元语义的网络词库:收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。本专利技术实施例还提供了一种中文文本的分词装置,包括:初始分词模块,用于接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词;场景识别模块,用于对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景;歧义识别模块,用于根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果。与现有技术相比,本专利技术公开的中文文本的分词装置通过初始分词模块接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词,再通过场景识别模块对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景,然后通过歧义识别模块根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果,能有效解决现有词库未基于不同的场景进行歧义处理的问题,对同一段词汇的容易混淆的意思进行深度识别,准确性高。作为上述方案的改进,所述装置还包括:长词简化处理模块,用于将所述分词结果中的长词通过已训练的缩写模型进行简化处理获得对应的缩写词,将所述缩写词与所述标准词库进行匹配校验。作为上述方案的改进,所述标准词库为具有多元语义的网络词库,通过以下步骤获取所述具有多元语义的网络词库具体为:收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。附图说明图1是本专利技术实施例1中一种中文文本的分词方法的流程示意图。图2是本专利技术实施例2中一种中文文本的分词方法的流程示意图。图3是本专利技术实施例3中一种中文文本的分词装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,是本专利技术实施例1提供的一种中文文本的分词方法的流程示意图,包括步骤:S1、接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词;其中,所述标准词库为具有多元语义的网络词库,和传统的二维词库的区别是可以支撑基于自然语言处理的词条切分,并且可以提供更丰富的扩展属性S2、对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景;其中,CRF(ConditionalRandomField)条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。S3、根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果。具体实施时,通过接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词,再对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景,然后根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果,能有效解决现有词库未基于不同的场景进行歧义处理的问题,对同一段词汇的容易混淆的意思进行深度识别,准确性高。优选地,如图2所示,在实施例1的基础上,还包括步骤:S4、将所述分词结果中的长词通过已训练的缩写模型进行简化处理获得对应的缩写词,将所述缩写词与所述标准词库进行匹配校验。通过上述方案,可以自动生成缩写并进行校验匹配,可以省去很多人工整理缩写词的工作量。优选地,通过以下步骤获取所述具有多元语义的网络词库:收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。参见图3,是本专利技术实施例3提供的一种中文文本的分词装置的结构示意图,包括:初始分词模块101,用于接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词;场景识别模块102,用于对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景;歧义识别模块103,用于根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果。具体实施时,通过初始分词模块101接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词,再通过场景识别模块102对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景,然后通过歧义识别模块103根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果,能有效解决现有词库未基于不同的场景进行歧义处理的问题,对同一段词汇的容易混淆的意思进行深度识别,准确性高。优选地,所述中文文本的分词装置100还包括:长词简化处理模块,用于将所述分词结果中的长词通过已训练的缩写模型进行简化处理获得对应的缩写词,将所述缩写词与所述标准词库进行匹配校验。其中,所述标准词库为具有多元语义的网络词库,通过以下步骤获取所述具有多元语义的网络词库具体为:收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。综上,本专利技术实施例公开了一种中文文本的分词方法及装置,通过接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词,再对所述待分词文本进行初本文档来自技高网...
中文文本的分词方法及装置

【技术保护点】
一种中文文本的分词方法,其特征在于,包括步骤:接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词;对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景;根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果。

【技术特征摘要】
1.一种中文文本的分词方法,其特征在于,包括步骤:接收待分词文本,根据标准词库进行匹配处理后对所述待分词文本进行初始分词;对所述待分词文本进行初始分词后,通过CRF模型,识别所述待分词文本的场景;根据所述待分词的场景,对所述待分词文本的词条进行歧义识别,从而获得所述待分词文本的分词结果。2.如权利要求1所述的中文文本的分词方法,其特征在于,所述方法还包括步骤:将所述分词结果中的长词通过已训练的缩写模型进行简化处理获得对应的缩写词,将所述缩写词与所述标准词库进行匹配校验。3.如权利要求1所述的中文文本的分词方法,其特征在于,所述标准词库为具有多元语义的网络词库,通过以下步骤获取所述具有多元语义的网络词库:收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。4.一种中文文本的分词装置,其特征在...

【专利技术属性】
技术研发人员:晋彤李永康
申请(专利权)人:广州特道信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1