基于无监督学习的思想政治教育领域文献分词方法及系统技术方案

技术编号：23149933 阅读：36 留言：0更新日期：2020-01-18 13:47

本公开公开了基于无监督学习的思想政治教育领域文献分词方法及系统，包括：构建n‑gram语言模型，利用预先构建的训练集对n‑gram语言模型进行训练，生成字级n‑gram语言模型；接收思想政治教育领域文献的待分词文本，利用维特比Viterbi算法和训练好的字级n‑gram语言模型对输入的待分词文本进行分词并输出初始分词结果；基于初始分词结果，计算领域文献构词指标的词频偏差TFD；根据词频偏差TFD，计算排序词频偏差rTFD；利用计算得到的排序词频偏差rTFD，对初始分词结果中的初始分词词组的合并，实现对分词结果的优化并输出最终分词结果。

Method and system of document segmentation in Ideological and political education based on unsupervised learning

全部详细技术资料下载

【技术实现步骤摘要】
基于无监督学习的思想政治教育领域文献分词方法及系统
本公开涉及分词
，特别是涉及基于无监督学习的思想政治教育领域文献分词方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
，并不必然构成现有技术。在实现本公开的过程中，专利技术人发现现有技术中存在以下技术问题：思想政治教育作为中国精神文明建设的主要内容，也是解决社会矛盾与问题的主要途径之一，而随着思想政治教育水平的不断进步，思想政治教育文献数量逐年增加，对诸多思想政治教育文献进行更深度的分析也是思想政治教育的重中之重，而要对海量的思想政治教育文献进行分析，中文分词是进行深度分析的重要基础。但是思想政治教育领域的特殊性决定了新词诞生速度快，覆盖面广，包含了大量包括历史事件、政策要领、法律条目等领域词汇，这对中文分词带来很大阻碍。传统基于有监督学习的分词方法需要对繁多的思想政治教育领域文献进行标注，从而获得大量的人工标注数据集进行训练，但是仍然对于歧义以及未登录词处理不尽人意，毕竟人工标注无法包含全领域的所有词汇，尤其在特定领域，有监督学习的方法其实并不理想。随着信息社会的发展，信息传播速度加快，新词汇的诞生与传播普及速度也在加快，这导致未登录词的增多，也大大增加了人工训练领域先验知识的成本以及人工标注的成本，尤其对于特定领域，因为有监督学习的分词方法很难登录全领域词汇，领域内专业词汇太多，导致切分效果并不理想。
技术实现思路
为了解决现有技术的不足，本公开提供了基于无监督学习的思想政治教育领域文...

【技术保护点】
1.基于无监督学习的思想政治教育领域文献分词方法，其特征是，包括：/n构建n-gram语言模型，利用预先构建的训练集对n-gram语言模型进行训练，生成字级n-gram语言模型；/n接收思想政治教育领域文献的待分词文本，利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果；/n基于初始分词结果，计算领域文献构词指标的词频偏差TFD；/n根据词频偏差TFD，计算排序词频偏差rTFD；/n利用计算得到的排序词频偏差rTFD，对初始分词结果中的初始分词词组的合并，实现对分词结果的优化并输出最终分词结果。/n

【技术特征摘要】
1.基于无监督学习的思想政治教育领域文献分词方法，其特征是，包括：
构建n-gram语言模型，利用预先构建的训练集对n-gram语言模型进行训练，生成字级n-gram语言模型；
接收思想政治教育领域文献的待分词文本，利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果；
基于初始分词结果，计算领域文献构词指标的词频偏差TFD；
根据词频偏差TFD，计算排序词频偏差rTFD；
利用计算得到的排序词频偏差rTFD，对初始分词结果中的初始分词词组的合并，实现对分词结果的优化并输出最终分词结果。

2.如权利要求1所述的方法，其特征是，还包括：
使用改进的基于词频统计的TF-IDF算法对最终分词结果进行关键词的提取，实现对领域文献要点进行总结。

3.如权利要求1所述的方法，其特征是，所述预先构建的训练集是通过对语料库进行预处理，得到训练集；具体步骤包括：
将所述语料库的文本根据文本中的标点符号处理为字与字之间以空格隔开、句与句之间以换行隔开的格式的纯文本，然后将所有标点符号清除，建立基于字的思想政治教育训练集。

4.如权利要求1所述的方法，其特征是，所述构建n-gram语言模型，利用预先构建的训练集对n-gram语言模型进行训练，生成字级n-gram语言模型；具体步骤包括：
在所述训练集中标注句子的开头和结尾，从所述训练集中获取单个字在训练集中出现的次数、两个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、四个相邻的字在训练集中出现的次数，将获取的次数视为原始计数，根据所述原始计数从大到小对对应的字进行排序；
基于Kneser-Ney平滑算法依次对四个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、两个相邻的字在训练集中出现的次数和单个字在训练集中出现的次数进行优化，分别得到对应的四个相邻的字在训练集中出现的次数的修正计数、三个相邻的字在训练集中出现的次数的修正计数、两个相邻的字在训练集中出现的次数的修正计数和单个字在训练集中出现的次数的修正计数；
在完成平滑算法的处理后，计算相邻字的回退权重；
基于单个字在训练集中出现的次数的修正计数、两个相邻的字在训练集中出现的次数的修正计数、三个相邻的字在训练集中出现的次数的修正计数和四个相邻的字在训练集中出现的次数的修正计数，分别计算对应的单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率；
最后，将回退权重、字与字之间的组合关系和单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率输入到n-gram语言模型中，得到建立4-gram字级语言模型。

5....

【专利技术属性】
技术研发人员：杨星海，臧文经，宋佳惠，刘子钊，张玉璘，
申请(专利权)人：青岛科技大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人