基于统计和基于词典的中文分词方法技术

技术编号：34261256 阅读：104 留言：0更新日期：2022-07-24 13:53

本发明专利技术提供了一种基于统计和基于词典的中文分词方法，结合基于统计和基于词典的分词方法，形成一个分词系统。一种基于统计和基于词典的中文分词方法，包括以下步骤：S1.输入需要待分词语句；S2.对本句话进行原子分词；S3.对输入的句子进行利用词典的机械分词，即使用双数组Trie树算法对句子进行正向最大匹配;S4.使用最短路径方法进行分词;S5.输出分词结果，词频后处理，人工纠正。人工纠正。人工纠正。

Chinese word segmentation method based on statistics and dictionary

全部详细技术资料下载

【技术实现步骤摘要】
基于统计和基于词典的中文分词方法

[0001]本专利技术涉及一种分词方法或分词系统，具体涉及一种基于统计和基于词典的中文分词方法，属于自然语言处理分词

技术介绍

[0002]自然语言处理，即实现人机间自然语言通信，实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。对中文自然语言处理的领域来说，“分词”一直是一项十分重要且基础的步骤。分词就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作。
[0003]当前中文分词主要有几种方法：基于词典的分词方法、基于统计的机器学习算法。本专利技术结合基于统计和基于词典的分词方法，形成一个分词系统。

技术实现思路

[0004]本专利技术目的是提供了一种基于统计和基于词典的中文分词方法，结合基于统计和基于词典的分词方法，形成一个分词系统。
[0005]本专利技术为实现上述目的，通过以下技术方案实现：一种基于统计和基于词典的中文分词方法，包括以下步骤：S1.输入需要待分词语句；S2.对本句话进行原子分词；S3. 对输入的句子进行利用词典的机械分词，即使用双数组Trie树算法对句子进行正向最大匹配;S4.使用最短路径方法进行分词;S5.输出分词结果，词频后处理，人工纠正。
[0006]所述基于统计和基于词典的中文分词方法优选方案，使用双数组Trie树算法对句子进行正向最大匹配具体过程如下：在切分语句时，将语句的每个字符串与词表...

【技术保护点】

【技术特征摘要】
1.一种基于统计和基于词典的中文分词方法，其特征在于，包括以下步骤：S1.输入需要待分词语句；S2.对本句话进行原子分词；S3. 对输入的句子进行利用词典的机械分词，即使用双数组Trie树算法对句子进行正向最大匹配;S4.使用最短路径方法进行分词;S5.输出分词结果，词频后处理，人工纠正。2.根据权利要求1所述基于统计和基于词典的中文分词方法，其特征在于：使用双数组Trie树算法对句子进行正向最大匹配具体过程如下：在切分语句时，将语句的每个字符串与词表中的词逐一进行匹配，找到则切分，否则不予切分；正向最大匹配算法需要获取两部分，一个是分词词典，另一个是需要被分词的文档；假定分词词典中的最长词有个汉字字符串，则用被处理文档的当前字符串中的前个字作为匹配字段，查找字典；若此时分词词典中存在这样一个字符串，则匹配成功，而此时被匹配的字段切分出来；如果匹配失败，将匹配字段中的最后一个字去掉，对此时剩下的字串重新与分词词典进行...

【专利技术属性】
技术研发人员：李晓瑜，尹青山，冯落落，冯卫森，李沛，高明，王建华，
申请(专利权)人：山东新一代信息产业技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人