基于无监督学习的思想政治教育领域文献分词方法及系统技术方案

技术编号:23149933 阅读:36 留言:0更新日期:2020-01-18 13:47
本公开公开了基于无监督学习的思想政治教育领域文献分词方法及系统,包括:构建n‑gram语言模型,利用预先构建的训练集对n‑gram语言模型进行训练,生成字级n‑gram语言模型;接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n‑gram语言模型对输入的待分词文本进行分词并输出初始分词结果;基于初始分词结果,计算领域文献构词指标的词频偏差TFD;根据词频偏差TFD,计算排序词频偏差rTFD;利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。

Method and system of document segmentation in Ideological and political education based on unsupervised learning

【技术实现步骤摘要】
基于无监督学习的思想政治教育领域文献分词方法及系统
本公开涉及分词
,特别是涉及基于无监督学习的思想政治教育领域文献分词方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。在实现本公开的过程中,专利技术人发现现有技术中存在以下技术问题:思想政治教育作为中国精神文明建设的主要内容,也是解决社会矛盾与问题的主要途径之一,而随着思想政治教育水平的不断进步,思想政治教育文献数量逐年增加,对诸多思想政治教育文献进行更深度的分析也是思想政治教育的重中之重,而要对海量的思想政治教育文献进行分析,中文分词是进行深度分析的重要基础。但是思想政治教育领域的特殊性决定了新词诞生速度快,覆盖面广,包含了大量包括历史事件、政策要领、法律条目等领域词汇,这对中文分词带来很大阻碍。传统基于有监督学习的分词方法需要对繁多的思想政治教育领域文献进行标注,从而获得大量的人工标注数据集进行训练,但是仍然对于歧义以及未登录词处理不尽人意,毕竟人工标注无法包含全领域的所有词汇,尤其在特定领域,有监督学习的方法其实并不理想。随着信息社会的发展,信息传播速度加快,新词汇的诞生与传播普及速度也在加快,这导致未登录词的增多,也大大增加了人工训练领域先验知识的成本以及人工标注的成本,尤其对于特定领域,因为有监督学习的分词方法很难登录全领域词汇,领域内专业词汇太多,导致切分效果并不理想。
技术实现思路
为了解决现有技术的不足,本公开提供了基于无监督学习的思想政治教育领域文献分词方法及系统;解决目前中文分词方案在针对思想政治教育领域的中文文本时分词质量较差的问题。第一方面,本公开提供了基于无监督学习的思想政治教育领域文献分词方法;基于无监督学习的思想政治教育领域文献分词方法,包括:构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;基于初始分词结果,计算领域文献构词指标的词频偏差TFD(TremFrequencyDeviation,TFD);根据词频偏差TFD,计算排序词频偏差rTFD(rankedTremFrequencyDeviation,rTFD);利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。第二方面,本公开还提供了基于无监督学习的思想政治教育领域文献分词系统;基于无监督学习的思想政治教育领域文献分词系统,包括:训练模块,其被配置为:构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;初始分词模块,其被配置为:接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;分词优化模块,其被配置为:基于初始分词结果,计算领域文献构词指标的词频偏差TFD(TremFrequencyDeviation,TFD);根据词频偏差TFD,计算排序词频偏差rTFD(rankedTremFrequencyDeviation,rTFD);利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。与现有技术相比,本公开的有益效果是:1.本公开针对思想政治教育领域分词,基于无监督学习的思想免去了人工标注数据的时间成本以及对先验知识的要求,提高了针对思想政治教育领域的中文文本的分词准确性和分词效率,高效、准确提取思想政治教育领域词汇的特征信息。2.本公开基于无监督学习的思想,针对思想政治教育领域文献进行分词,能够免去人工标注所需要的先验知识的需要以及人工标注带来的标注成本。3.本公开改进了传统n-gram基于词的分词,采用字级n-gram语言模型,在保证一定精度和效率的情况下适应了无监督学习的要求。4.本公开在传统中文分词的基础上增加了针对思想政治教育领域文献分词结果的优化,借助词频偏差与排序词频偏差对文献中历史事件、法案等长词在初始分词结果的基础上进行组词,提高了对思想政治教育领域文献分词的适应性。5.本公开在分词系统中为提取分词后的文本特征,使用改进的基于词频统计的TF-IDF算法对最终分词结果进行关键词的提取,方便对领域文献进行总结,相较于传统TF-IDF算法,改进后的基于词频统计的TF-IDF算法速度更快,针对短词、介词等非重点词也有较好的过滤效果。6.借助TF-IDF算法,对分词后的文本进行关键词等信息的提取,便于用户提取研究领域的关注重点以及发展变化等重要信息。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为第一个实施例的方法流程图;图2为第一个实施例的方法流程图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一,本实施例提供了基于无监督学习的思想政治教育领域文献分词方法;如图1和图2所示,基于无监督学习的思想政治教育领域文献分词方法,包括:S1:构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;S2:接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;S3:基于初始分词结果,计算领域文献构词指标的词频偏差TFD(TremFrequencyDeviation,TFD);根据词频偏差TFD,计算排序词频偏差rTFD(rankedTremFrequencyDeviation,rTFD);利用计本文档来自技高网
...

【技术保护点】
1.基于无监督学习的思想政治教育领域文献分词方法,其特征是,包括:/n构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;/n接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;/n基于初始分词结果,计算领域文献构词指标的词频偏差TFD;/n根据词频偏差TFD,计算排序词频偏差rTFD;/n利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。/n

【技术特征摘要】
1.基于无监督学习的思想政治教育领域文献分词方法,其特征是,包括:
构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;
接收思想政治教育领域文献的待分词文本,利用维特比Viterbi算法和训练好的字级n-gram语言模型对输入的待分词文本进行分词并输出初始分词结果;
基于初始分词结果,计算领域文献构词指标的词频偏差TFD;
根据词频偏差TFD,计算排序词频偏差rTFD;
利用计算得到的排序词频偏差rTFD,对初始分词结果中的初始分词词组的合并,实现对分词结果的优化并输出最终分词结果。


2.如权利要求1所述的方法,其特征是,还包括:
使用改进的基于词频统计的TF-IDF算法对最终分词结果进行关键词的提取,实现对领域文献要点进行总结。


3.如权利要求1所述的方法,其特征是,所述预先构建的训练集是通过对语料库进行预处理,得到训练集;具体步骤包括:
将所述语料库的文本根据文本中的标点符号处理为字与字之间以空格隔开、句与句之间以换行隔开的格式的纯文本,然后将所有标点符号清除,建立基于字的思想政治教育训练集。


4.如权利要求1所述的方法,其特征是,所述构建n-gram语言模型,利用预先构建的训练集对n-gram语言模型进行训练,生成字级n-gram语言模型;具体步骤包括:
在所述训练集中标注句子的开头和结尾,从所述训练集中获取单个字在训练集中出现的次数、两个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、四个相邻的字在训练集中出现的次数,将获取的次数视为原始计数,根据所述原始计数从大到小对对应的字进行排序;
基于Kneser-Ney平滑算法依次对四个相邻的字在训练集中出现的次数、三个相邻的字在训练集中出现的次数、两个相邻的字在训练集中出现的次数和单个字在训练集中出现的次数进行优化,分别得到对应的四个相邻的字在训练集中出现的次数的修正计数、三个相邻的字在训练集中出现的次数的修正计数、两个相邻的字在训练集中出现的次数的修正计数和单个字在训练集中出现的次数的修正计数;
在完成平滑算法的处理后,计算相邻字的回退权重;
基于单个字在训练集中出现的次数的修正计数、两个相邻的字在训练集中出现的次数的修正计数、三个相邻的字在训练集中出现的次数的修正计数和四个相邻的字在训练集中出现的次数的修正计数,分别计算对应的单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率;
最后,将回退权重、字与字之间的组合关系和单个字在训练集中出现的n-gram概率、两个相邻的字在训练集中出现的n-gram概率、三个相邻的字在训练集中出现的n-gram概率、四个相邻的字在训练集中出现的n-gram概率输入到n-gram语言模型中,得到建立4-gram字级语言模型。


5....

【专利技术属性】
技术研发人员:杨星海臧文经宋佳惠刘子钊张玉璘
申请(专利权)人:青岛科技大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1