基于统计和深度学习的智能中文分词方法技术

技术编号：22467658 阅读：91 留言：0更新日期：2019-11-06 11:28

本发明专利技术公开了基于统计和深度学习的智能中文分词方法，包括数据预处理；领域术语集构建；分词方法选择；分词判定。本发明专利技术的有益效果是采用了基于统计的分词方法与深度学习技术相结合的分词模型，适用范围广，能对专业领域专业词语进行准确分词，算法简单分词速度快。

An intelligent Chinese word segmentation method based on statistics and deep learning

全部详细技术资料下载

【技术实现步骤摘要】
基于统计和深度学习的智能中文分词方法
本专利技术属于分词
，涉及一种针对专业领域文档，能够提高其专业术语分词准确性的技术。
技术介绍
中文分词(ChineseWordSegmentation)就是将一个汉字序列切分成一个个单独的词的过程，它是进行自然语言处理的基础。中文信息处理作为自然语言处理的一个分支，它包括三个层次：词法分析、句法分析和语义分析，其中中文分词是词法分析的第一步。中文分词应用领域十分广泛，小到POS词性标注、NER命名实体识别，大到自动分类、自动校对、搜索引擎、语音合成、机器翻译等。基于统计的中文分词方法，分词准确性不高，尤其难以对专业领域专业词语进行准确分词；仅使用基于深度学习的分词方法，算法复杂度高，分词速度慢。
技术实现思路
本专利技术的目的在于提供基于统计和深度学习的智能中文分词方法，解决了仅使用双向LSTM算法进行中文分词时复杂性高，分词速度慢等问题。本专利技术的有益效果是采用了基于统计的分词方法与深度学习技术相结合的分词模型，适用范围广，能对专业领域专业词语进行准确分词，算法简单分词速度快。本专利技术所采用的技术方案是按照以下步骤进行：Step1.数据预处理；Step2.领域术语集构建；Step3.分词方法选择；Step4.分词判定。进一步，Step1.中对待分词的文本文档进行预处理，借助文中原有标点符号、段落分隔符等具有分隔作用的符号将文档切分，从而得到较短的句子或字符串。进一步，Step2.中对某个领域中各个子学科从1到n进行编号，建立术语集TS，统计各个子学科中最常用的m个专业术语，这些每个学科最常用的专业术语分别构成...

【技术保护点】
1.基于统计和深度学习的智能中文分词方法，其特征在于按照以下步骤进行：Step1.数据预处理；Step2.领域术语集构建；Step3.分词方法选择；Step4.分词判定。

【技术特征摘要】
1.基于统计和深度学习的智能中文分词方法，其特征在于按照以下步骤进行：Step1.数据预处理；Step2.领域术语集构建；Step3.分词方法选择；Step4.分词判定。2.基于统计和深度学习的智能中文分词方法，其特征在于：所述Step1.中对待分词的文本文档进行预处理，借助文中原有标点符号、段落分隔符等具有分隔作用的符号将文档切分，从而得到较短的句子或字符串。3.基于统计和深度学习的智能中文分词方法，其特征在于：所述Step2.中对某个领域中各个子学科从1到n进行编号，建立术语集TS，统计各个子学科中最常用的m个专业术语，这些每个学科最常用的专业术语分别构成相应的学科术语集TSi。4.基于统计和深度学习的智能中文分词方法，其特征在于：所述Step3.中根据待分词文档题目判断本文档所属子学科领域，提取相应学科术语集TSi，遍历术语集TSi，统计待分词文档中包含的学科领域专业术语及其数量，文档段落中专业术语出现总次数即为定义专业术语数量阈值为Γ＝k·total_num，分词方法的选择如下所示：文档中专业术语出现总次数等于每个专业术语出现次数的累加和，其中，numj表示第j个专业术语在文档中出现的次数，对于专业术...

【专利技术属性】
技术研发人员：徐建国，刘梦凡，刘泳慧，
申请(专利权)人：山东科技大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人