中文文本分词方法及其系统技术方案

技术编号:23149903 阅读:42 留言:0更新日期:2020-01-18 13:47
本申请涉及信息处理技术,公开了一种中文文本分词方法及其系统。该方法包括:将目标文本拆分成多个句子;识别所述多个句子中的断点词语,根据所识别的断点词语将每个句子划分成多个小节,所述断点词语是在任何句子中出现时意义唯一且作为独立意义存在的字、词或短语;以及将对应所述每个句子的多个小节的文本进行分词处理。本申请的实施方式在保证分词准确性的前提下,极大的提高了分词速度和分词结果的可靠性。

Chinese text segmentation method and system

【技术实现步骤摘要】
中文文本分词方法及其系统
本申请涉及信息处理技术,特别涉及文本分词技术。
技术介绍
中文分词是中文文本信息处理的重要基础,比如文本内容的自动识别及自动分类、搜索引擎、机器翻译等技术中首要解决的就是中文分词的问题,其中分词的速度和准确性直接影响各项技术的实用性。
技术实现思路
本申请的目的在于提供一种中文文本分词方法及其系统,在保证分词准确性的前提下,极大的提高了分词速度和分词结果的可靠性。本申请公开了一种中文文本分词方法,包括:将目标文本拆分成多个句子;识别所述多个句子中的断点词语,根据所识别的断点词语将每个句子划分成多个小节,所述断点词语是在任何句子中出现时意义唯一且作为独立意义存在的字、词或短语;将对应所述每个句子的多个小节的文本进行分词处理。在一个优选例中,所述识别所述多个句子中的断点词语之前,还包括:提取语料库中的各文本中满足意义唯一且作为独立意义存在的字、词或短语为断点词语,构建断点词语库;所述识别所述多个句子中的断点词语,进一步包括:r>基于所述断点词语本文档来自技高网...

【技术保护点】
1.一种中文文本分词方法,其特征在于,包括:/n将目标文本拆分成多个句子;/n识别所述多个句子中的断点词语,根据所识别的断点词语将每个句子划分成多个小节,所述断点词语是在任何句子中出现时意义唯一且作为独立意义存在的字、词或短语;/n将对应所述每个句子的多个小节的文本进行分词处理。/n

【技术特征摘要】
1.一种中文文本分词方法,其特征在于,包括:
将目标文本拆分成多个句子;
识别所述多个句子中的断点词语,根据所识别的断点词语将每个句子划分成多个小节,所述断点词语是在任何句子中出现时意义唯一且作为独立意义存在的字、词或短语;
将对应所述每个句子的多个小节的文本进行分词处理。


2.如权利要求1所述的中文文本分词方法,其特征在于,所述识别所述多个句子中的断点词语之前,还包括:
提取语料库中的各文本中满足意义唯一且作为独立意义存在的字、词或短语为断点词语,构建断点词语库;
所述识别所述多个句子中的断点词语,进一步包括:
基于所述断点词语库,识别所述多个句子中的断点词语。


3.如权利要求1所述的中文文本分词方法,其特征在于,所述将对应每个句子的多个小节的文本进行分词处理,进一步包括:
将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法进行分词处理,其中对于任一小节的文本:
如果该小节的文本的最短分词路径唯一,确定该路径为目标分词路径;
如果该小节的文本的最短分词路径有多个,计算每个最短分词路径中各词语的词频和,并计算各最短分词路径中两两所述词频和的差值;
如果任一差值都大于预设阈值,则确定词频和最大的最短分词路径为目标分词路径,否则根据该目标文本中除该小节外的其它各小节的目标分词结果确定该小节的目标分词路径;
按照所述目标分词路径对该小节的文本进行分词处理。


4.如权利要求3所述的中文文本分词方法,其特征在于,所述根据该目标文本中除该小节外的其它各小节的目标分词结果确定该小节的目标分词路径,进一步包括:
统计该小节的多个最短分词路径中分词结果不同的词语;
计算所述分词结果不同的词语在所述目标文本的其它各小节的目标分词结果中的数量和,确定数量和最大的词语对应的最短分词路径为目标分词路径。


5.如权利要求1所述的中文文本分词方法,其特征在于,所述根据所识别的断点词语将每个句子划分为多个小节,进一步包括:
将每个句子中的各断点词语用预设符号或预设标识替换,并根据所述预设符号或预设标识的...

【专利技术属性】
技术研发人员:张新华王朝选位鲁松顾佳槟
申请(专利权)人:浙江蓝鸽科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1