基于统计和深度学习的智能中文分词方法技术

技术编号:22467658 阅读:91 留言:0更新日期:2019-11-06 11:28
本发明专利技术公开了基于统计和深度学习的智能中文分词方法,包括数据预处理;领域术语集构建;分词方法选择;分词判定。本发明专利技术的有益效果是采用了基于统计的分词方法与深度学习技术相结合的分词模型,适用范围广,能对专业领域专业词语进行准确分词,算法简单分词速度快。

An intelligent Chinese word segmentation method based on statistics and deep learning

【技术实现步骤摘要】
基于统计和深度学习的智能中文分词方法
本专利技术属于分词
,涉及一种针对专业领域文档,能够提高其专业术语分词准确性的技术。
技术介绍
中文分词(ChineseWordSegmentation)就是将一个汉字序列切分成一个个单独的词的过程,它是进行自然语言处理的基础。中文信息处理作为自然语言处理的一个分支,它包括三个层次:词法分析、句法分析和语义分析,其中中文分词是词法分析的第一步。中文分词应用领域十分广泛,小到POS词性标注、NER命名实体识别,大到自动分类、自动校对、搜索引擎、语音合成、机器翻译等。基于统计的中文分词方法,分词准确性不高,尤其难以对专业领域专业词语进行准确分词;仅使用基于深度学习的分词方法,算法复杂度高,分词速度慢。
技术实现思路
本专利技术的目的在于提供基于统计和深度学习的智能中文分词方法,解决了仅使用双向LSTM算法进行中文分词时复杂性高,分词速度慢等问题。本专利技术的有益效果是采用了基于统计的分词方法与深度学习技术相结合的分词模型,适用范围广,能对专业领域专业词语进行准确分词,算法简单分词速度快。本专利技术所采用的技术方案是按照以下步骤进行:Step1.数据预处理;Step2.领域术语集构建;Step3.分词方法选择;Step4.分词判定。进一步,Step1.中对待分词的文本文档进行预处理,借助文中原有标点符号、段落分隔符等具有分隔作用的符号将文档切分,从而得到较短的句子或字符串。进一步,Step2.中对某个领域中各个子学科从1到n进行编号,建立术语集TS,统计各个子学科中最常用的m个专业术语,这些每个学科最常用的专业术语分别构成相应的学科术语集TSi。进一步,Step3.中根据待分词文档题目判断本文档所属子学科领域,提取相应学科术语集TSi,遍历术语集TSi,统计待分词文档中包含的学科领域专业术语及其数量,文档段落中专业术语出现总次数即为定义专业术语数量阈值为Γ=k·total_num,分词方法的选择如下所示:文档中专业术语出现总次数等于每个专业术语出现次数的累加和,其中,numj表示第j个专业术语在文档中出现的次数,对于专业术语数量阈值Γ=k·total_num,其中,k表示比例系数,total_num表示文档总字数,当待分词文档某一段落中专业术语出现总次数大于阈值时,说明该段落大量使用了学科领域的专业术语,为提高分词准确率,应采用双向LSTM算法进行分词;当待分词文档某一段落中专业术语出现总次数小于阈值时,可以认为该段落为一般性描述,专业术语使用较少,故采取基于统计的分词方法即隐马尔科夫模型完成对段落的分词。进一步,Step4.中定义一个成词信息熵Ψ其中,p(x,y)为汉字x和汉字y共现的概率,p(x)、p(y)分别表示汉字x和y出现的概率,λ为比例系数,ε为允许的误差项,对于经过隐马尔科夫模型分词方法完成的分词,需通过计算成词信息熵Ψ来判断汉字x和y的紧密程度,从而确定其是否能够构成一个词,成词信息熵的值越大,表示这两个字构成一个词的结合程度越高;反之,表示构成一个词的结合程度越低,经过成词信息熵的筛选,进一步提高了隐马尔科夫模型分词准确性。双向LSTM神经网络会将第一次预测的结果作为一个新的特征,进行下面的预测,具有很高的准确性和较强的学习能力,故不需对其分词结果再做一次判定。附图说明图1为领域文档准确分词的总体过程流程图;图2为数据(文本)预处理过程流程图;图3为Bi-LSTM(双向LSTM)的网络结构图。具体实施方式下面结合具体实施方式对本专利技术进行详细说明。本专利技术基于统计和深度学习的智能中文分词方法流程如图1所示,步骤如下:Step1.数据预处理。图2为数据(文本)预处理过程流程图;对待分词的文本文档进行预处理,可借助文中原有标点符号、段落分隔符等具有分隔作用的符号将文档切分,从而得到较短的句子或字符串。考虑到中文书写格式和特征,作者通常将内容相似或逻辑联系紧密的内容放在一个自然段中。因此,领域的专业术语一般会在某一个或某几个自然段大量重复出现,对于专业术语大量出现的段落,应该选择分词准确性高,消除歧义能力强的分词方法进行处理;而对于专业术语不集中出现的段落(如背景介绍、作者观点、总结性文字等)可以采取基于统计的中文分词方法,就能得到较高的准确性,同时提高分词速度,降低算法复杂度。对一篇专业领域文档进行准确分词,包括文本预处理、借助学科术语集统计专业术语在文档中出现次数、分词模型选择以及完成分词几个步骤。文本预处理是进行分词的前提和基础。段落作为表现文章层次的最小结构单位,同一自然段内容差异小,可以选择同一种方法进行分词处理。故应首先借助段落分隔符将原文档划分为多个段落,将每个段落作为文档分词的一个数据处理单元,采取同一分词方法;再借助标点符号等分隔符对文档段落继续切分,用空格代替原来的分隔符。经过预处理后的文本,得到的是以段落为单位的较短的句子或字符串的组合。在分词过程中,对这些短句或较短字符串逐一进行处理,从而减少匹配次数,提高分词效率,降低分词难度。Step2.领域术语集构建。通过文档标题通常可以粗略判定该文档所属领域的子学科,提取构建好的相关子学科的学科术语集,遍历学科术语集,统计每个段落中常用专业术语出现次数,最终得出该段落专业术语出现总次数。对某个领域中各个子学科从1到n进行编号,建立术语集TS,统计各个子学科中最常用的m个专业术语(不同学科,m取值可能不同),这些每个学科最常用的专业术语分别构成相应的学科术语集TSi。Step3.分词方法选择。根据待分词文档题目判断本文档所属子学科领域,提取相应学科术语集TSi。遍历术语集TSi,统计待分词文档中包含的学科领域专业术语及其数量,并用矩阵表示。文档段落中专业术语出现总次数即为定义专业术语数量阈值为Γ=k·total_num。分词方法的选择如下所示:文档中专业术语出现总次数等于每个专业术语出现次数的累加和,其中,numj表示第j个专业术语在文档中出现的次数。对于专业术语数量阈值Γ=k·total_num,其中,k表示比例系数,total_num表示文档总字数。也就是说,当待分词文档某一段落中专业术语出现总次数大于阈值时,说明该段落大量使用了学科领域的专业术语,为提高分词准确率,应采用双向LSTM算法进行分词;当待分词文档某一段落中专业术语出现总次数小于阈值时,可以认为该段落为一般性描述,专业术语使用较少,故采取基于统计的分词方法即隐马尔科夫模型完成对段落的分词即可。图3为双向LSTM网络结构图。Step4.分词判定。定义一个成词信息熵Ψ其中,p(x,y)为汉字x和汉字y共现的概率,p(x)、p(y)分别表示汉字x和y出现的概率,λ为比例系数,ε为允许的误差项。对于经过隐马尔科夫模型分词方法完成的分词,需通过计算成词信息熵Ψ来判断汉字x和y的紧密程度,从而确定其是否能够构成一个词。成词信息熵的值越大,表示这两个字构成一个词的结合程度越高;反之,表示构成一个词的结合程度越低。经过成词信息熵的筛选,进一步提高了隐马尔科夫模型分词准确性。双向LSTM神经网络会将第一次预测的结果作为一个新的特征,进行下面的预测,具有很高的准确性和较强的学习能力,故不需对其分词结果再做一次判定。以上所述仅是对本专利技术的较佳实施方式而已本文档来自技高网...

【技术保护点】
1.基于统计和深度学习的智能中文分词方法,其特征在于按照以下步骤进行:Step1.数据预处理;Step2.领域术语集构建;Step3.分词方法选择;Step4.分词判定。

【技术特征摘要】
1.基于统计和深度学习的智能中文分词方法,其特征在于按照以下步骤进行:Step1.数据预处理;Step2.领域术语集构建;Step3.分词方法选择;Step4.分词判定。2.基于统计和深度学习的智能中文分词方法,其特征在于:所述Step1.中对待分词的文本文档进行预处理,借助文中原有标点符号、段落分隔符等具有分隔作用的符号将文档切分,从而得到较短的句子或字符串。3.基于统计和深度学习的智能中文分词方法,其特征在于:所述Step2.中对某个领域中各个子学科从1到n进行编号,建立术语集TS,统计各个子学科中最常用的m个专业术语,这些每个学科最常用的专业术语分别构成相应的学科术语集TSi。4.基于统计和深度学习的智能中文分词方法,其特征在于:所述Step3.中根据待分词文档题目判断本文档所属子学科领域,提取相应学科术语集TSi,遍历术语集TSi,统计待分词文档中包含的学科领域专业术语及其数量,文档段落中专业术语出现总次数即为定义专业术语数量阈值为Γ=k·total_num,分词方法的选择如下所示:文档中专业术语出现总次数等于每个专业术语出现次数的累加和,其中,numj表示第j个专业术语在文档中出现的次数,对于专业术...

【专利技术属性】
技术研发人员:徐建国刘梦凡刘泳慧
申请(专利权)人:山东科技大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1