一种基于机器学习的中文阅读难度分级方法及系统技术方案

技术编号:16873772 阅读:50 留言:0更新日期:2017-12-23 11:43
本发明专利技术公开了一种基于机器学习的中文阅读难度分级方法及系统,分级方法中,训练样本可以实时更新,从而充分考虑语言随时代变化的特征,如此可以更新汉字难度分级表和词频表;引入语义、句子、篇章以及主题等其他特征,从而通过上述特征和句长、词长作为复杂度的指标,更为客观,且能够精确地反映其结构性质;通过特征集以弥补少数浅层次局部的语言特征不足,从而可以反映真实的阅读理解过程,更为精确的进行阅读难度等级分类;通过本方法使阅读难度分级技术适用于中文,符合中文的语言特点。分级系统,包括:文本获取单元、构建单元以及训练预测单元,实现了对中文文本阅读难度的分级方法相同的有益效果。

A classification method and system for Chinese reading difficulty based on machine learning

The invention discloses a method based on machine learning system and Chinese reading difficulty classification method, classification method, the training samples can be updated in real time, so as to fully consider the characteristics of language change with the times, so you can update the difficulty classification table and frequency table Chinese characters; introducing semantic, syntactic and discourse as well as the theme and other features, so the features and sentence length, word length as the complexity index, more objective, and can accurately reflect the structure properties; through the feature set to compensate for the linguistic features of a few shallow level local problems, which can reflect the real process of reading comprehension, the more accurate reading difficulty classification; by this method make reading the difficulty classification technology is suitable for Chinese, in line with the characteristics of the Chinese language. The grading system, including text acquisition unit, building unit and training prediction unit, achieves the same beneficial effect on grading difficulty of Chinese text reading.

【技术实现步骤摘要】
一种基于机器学习的中文阅读难度分级方法及系统
本专利技术涉及人工智能领域,具体涉及一种基于机器学习的中文阅读难度分级方法及系统。
技术介绍
人工智能技术是指了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能往往通过自然语言处理与机器学习等技术与语言学研究成果的结合,实现文本阅读难度分级。阅读难度分级本质上可以概括为对文本可读性的度量问题。定义上,可读性(readability)指文本易于阅读和理解的程度。通常,可读性高的文本内容符合读者的背景知识,并且会适当地复述上文内容,并提供相关知识;此外,高可读性文本行文通常使用常见词汇和结构简单的句法结构,同时避免歧义以减少读者的认知负担。当读者阅读可读性较高的文章时,会有更好的理解和学习效果,因而给读者提供合适的高可读性文本,就可能改善读者的阅读理解表现。现有技术中,阅读难度分级技术主要以美国“蓝思(Lexile)分级”和“AZ分级”为代表。这些技术的阅读难度分级构建体系通常依赖于传统可读性研究的基本假设,也即以词长(wordlength)和词频(wordfrequency)作为语义的指标,以句长作为语法的指标,而词长和句子较长的文章难度通常较高。基于这些假设,现有技术通常通过设计依赖于这些指标的可读性计算公式来实现对文本可读性的度量。现有技术的不足之处在于,没有考虑语言随时代变化的特征,进而无法更新汉字难度分级表和词频表;仅通过句长或词长作为复杂度的指标,过于直觉而不能精确地反映其结构性质;以少数浅层次局部的语言特征不足以反映真实的阅读理解过程;阅读难度分级技术仅适用于英文,而英文本身与中文在语言特点上存在着极大的不同。
技术实现思路
本专利技术的目的是提供一种基于机器学习的中文阅读难度分级方法及系统,以解决上述不足之处。为了实现上述目的,本专利技术提供如下技术方案:本专利技术提供了一种基于机器学习的中文阅读难度分级方法,包括以下步骤:获取训练文本和待检测文本;根据所述训练文本的语言层面构建衡量阅读难度层次的特征集;所述特征集中至少包括:字词、语义、句子、篇章以及主题特征;将所述特征集输入SVM模型进行训练,并通过所述训练结果对所述待检测文本进行预测,得到阅读难度等级。上述基于机器学习的中文阅读难度分级方法,训练文本的获取包括以下步骤:根据多个阅读难度层次和更新的中文文本构建语料库;从所述语料库中调取相应的文本作为所述训练文本。上述基于机器学习的中文阅读难度分级方法,字词特征的构建包括以下步骤:通过预设的中文字词难度分级表对所述训练样本进行分析,得到字词的复杂度特征;对所述训练样本进行词频统计,并通过预设的词频表对统计结果进行分析,得到字词的词频特征。上述基于机器学习的中文阅读难度分级方法,语义特征的构建包括以下步骤:对所述训练样本中的字词按照属性进行分类,得到多个类别的属性词;在同一类别中对所述属性词进行语义相同字词数目的统计,并对统计结果进行分析,得到所述语义特征。上述基于机器学习的中文阅读难度分级方法,句子特征的构建包括以下步骤:根据所述训练样本进行句子复杂度的分析,得到句子的复杂度特征;通过依存句法树对所述训练样本进行句子中词语的依存关系和语法结构的分析,得到句子的语法特征;对所述训练样本中句子的长度进行分析,得到句子的长度特征。上述基于机器学习的中文阅读难度分级方法,篇章特征的构建包括以下步骤:搜寻所述训练样本中的实义词;对所述实义词的出现频率进行统计,并根据统计结果得到篇章间的衔接特征。上述基于机器学习的中文阅读难度分级方法,主题特征的构建包括以下步骤:对训练样本中的标注样本进行挖掘得到主题模型;通过主题模型对所述训练样本的目标样本进行分类,得到主题特征。上述基于机器学习的中文阅读难度分级方法,进行训练包括以下步骤:根据所述特征集抽取所述训练文本的对应特征;根据所述标注样本中交叉标注的特征抽取所述训练文本中的对应特征;通过上述对应特征进行阅读难度等级的训练,得到所述训练结果。上述基于机器学习的中文阅读难度分级方法,进行预测包括以下步骤:通过SRM统计出所述待检测文本的小样本后,求得超平面将文本分类;根据所述文本分类结果预测得到所述阅读难度等级。上述技术方案中,本专利技术提供的一种基于机器学习的中文阅读难度分级方法,具有以下有益效果:1)训练样本可以实时更新,从而充分考虑语言随时代变化的特征,如此可以更新汉字难度分级表和词频表;2)引入语义、句子、篇章以及主题等其他特征,从而通过上述特征和句长、词长作为复杂度的指标,更为客观,且能够精确地反映其结构性质;3)通过特征集以弥补少数浅层次局部的语言特征不足,从而可以反映真实的阅读理解过程,更为精确的进行阅读难度等级分类;4)通过本方法使阅读难度分级技术适用于中文,符合中文的语言特点。本专利技术还提供了一种基于机器学习的中文阅读难度分级系统,包括:文本获取单元,获取训练文本和待检测文本;构建单元,根据所述训练文本的语言层面构建衡量阅读难度层次的特征集;所述特征集中至少包括:字词、语义、句子、篇章以及主题特征;训练预测单元,将所述特征集输入SVM模型进行训练,并通过所述训练结果对所述待检测文本进行预测,得到阅读难度等级。上述技术方案中,本专利技术提供的一种基于机器学习的中文阅读难度分级系统,具有以下有益效果:1)通过文本获取单元可以实现实时更新,从而充分考虑语言随时代变化的特征,如此可以更新汉字难度分级表和词频表;2)通过构建单元和训练预测单元的配合,引入语义、句子、篇章以及主题等其他特征,从而通过上述特征和句长、词长作为复杂度的指标,更为客观,且能够精确地反映其结构性质;3)通过构建单元和训练预测单元的配合,实现特征集以弥补少数浅层次局部的语言特征不足,从而可以反映真实的阅读理解过程,更为精确的进行阅读难度等级分类;4)通过各单元的配合,使阅读难度分级技术适用于中文,符合中文的语言特点。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的阅读难度分级方法的流程示意图;图2为本专利技术一优选实施例提供的阅读难度分级方法的流程示意图;图3为本专利技术一优选实施例提供的阅读难度分级方法的流程示意图;图4为本专利技术一优选实施例提供的阅读难度分级方法的流程示意图;图5为本专利技术一优选实施例提供的阅读难度分级方法的流程示意图;图6为本专利技术一优选实施例提供的阅读难度分级方法的流程示意图;图7为本专利技术一优选实施例提供的阅读难度分级方法的流程示意图;图8为本专利技术一优选实施例提供的阅读难度分级方法的流程示意图;图9为本专利技术一优选实施例提供的阅读难度分级方法的流程示意图;图10为本专利技术实施例提供的阅读难度分级系统的结构示意图。附图标记说明:10、文本获取单元;20、构建单元;30、训练预测单元。具体实施方式为了使本领域的技术人员更好地理解本专利技术的技术方案,下面将结合附图对本专利技术作进一步的详细介绍。如图1所示,为本专利技术实施例提供的一种基于机器学习的中文阅读难度分级方法,包括以下步骤:S101、获取训练文本和待检测文本;训练文本是本文档来自技高网
...
一种基于机器学习的中文阅读难度分级方法及系统

【技术保护点】
一种基于机器学习的中文阅读难度分级方法,其特征在于,包括以下步骤:获取训练文本和待检测文本;根据所述训练文本的语言层面构建衡量阅读难度层次的特征集;所述特征集中至少包括:字词、语义、句子、篇章以及主题特征;将所述特征集输入SVM模型进行训练,并通过所述训练结果对所述待检测文本进行预测,得到阅读难度等级。

【技术特征摘要】
1.一种基于机器学习的中文阅读难度分级方法,其特征在于,包括以下步骤:获取训练文本和待检测文本;根据所述训练文本的语言层面构建衡量阅读难度层次的特征集;所述特征集中至少包括:字词、语义、句子、篇章以及主题特征;将所述特征集输入SVM模型进行训练,并通过所述训练结果对所述待检测文本进行预测,得到阅读难度等级。2.根据权利要求1所述的基于机器学习的中文阅读难度分级方法,其特征在于,训练文本的获取包括以下步骤:根据多个阅读难度层次和更新的中文文本构建语料库;从所述语料库中调取相应的文本作为所述训练文本。3.根据权利要求1所述的基于机器学习的中文阅读难度分级方法,其特征在于,字词特征的构建包括以下步骤:通过预设的中文字词难度分级表对所述训练样本进行分析,得到字词的复杂度特征;对所述训练样本进行词频统计,并通过预设的词频表对统计结果进行分析,得到字词的词频特征。4.根据权利要求1所述的基于机器学习的中文阅读难度分级方法,其特征在于,语义特征的构建包括以下步骤:对所述训练样本中的字词按照属性进行分类,得到多个类别的属性词;在同一类别中对所述属性词进行语义相同字词数目的统计,并对统计结果进行分析,得到所述语义特征。5.根据权利要求1所述的基于机器学习的中文阅读难度分级方法,其特征在于,句子特征的构建包括以下步骤:根据所述训练样本进行句子复杂度的分析,得到句子的复杂度特征;通过依存句法树对所述训练样本进行句子中词语的依存关系和语法结构的分析,得到句子的语法...

【专利技术属性】
技术研发人员:任易赵梓淳
申请(专利权)人:北京享阅教育科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1