一种基于机器学习的中文阅读难度分级方法及系统技术方案

技术编号：16873772 阅读：51 留言：0更新日期：2017-12-23 11:43

本发明专利技术公开了一种基于机器学习的中文阅读难度分级方法及系统，分级方法中，训练样本可以实时更新，从而充分考虑语言随时代变化的特征，如此可以更新汉字难度分级表和词频表；引入语义、句子、篇章以及主题等其他特征，从而通过上述特征和句长、词长作为复杂度的指标，更为客观，且能够精确地反映其结构性质；通过特征集以弥补少数浅层次局部的语言特征不足，从而可以反映真实的阅读理解过程，更为精确的进行阅读难度等级分类；通过本方法使阅读难度分级技术适用于中文，符合中文的语言特点。分级系统，包括：文本获取单元、构建单元以及训练预测单元，实现了对中文文本阅读难度的分级方法相同的有益效果。

A classification method and system for Chinese reading difficulty based on machine learning

The invention discloses a method based on machine learning system and Chinese reading difficulty classification method, classification method, the training samples can be updated in real time, so as to fully consider the characteristics of language change with the times, so you can update the difficulty classification table and frequency table Chinese characters; introducing semantic, syntactic and discourse as well as the theme and other features, so the features and sentence length, word length as the complexity index, more objective, and can accurately reflect the structure properties; through the feature set to compensate for the linguistic features of a few shallow level local problems, which can reflect the real process of reading comprehension, the more accurate reading difficulty classification; by this method make reading the difficulty classification technology is suitable for Chinese, in line with the characteristics of the Chinese language. The grading system, including text acquisition unit, building unit and training prediction unit, achieves the same beneficial effect on grading difficulty of Chinese text reading.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的中文阅读难度分级方法及系统
本专利技术涉及人工智能领域，具体涉及一种基于机器学习的中文阅读难度分级方法及系统。
技术介绍
人工智能技术是指了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能往往通过自然语言处理与机器学习等技术与语言学研究成果的结合，实现文本阅读难度分级。阅读难度分级本质上可以概括为对文本可读性的度量问题。定义上，可读性(readability)指文本易于阅读和理解的程度。通常，可读性高的文本内容符合读者的背景知识，并且会适当地复述上文内容，并提供相关知识；此外，高可读性文本行文通常使用常见词汇和结构简单的句法结构，同时避免歧义以减少读者的认知负担。当读者阅读可读性较高的文章时，会有更好的理解和学习效果，因而给读者提供合适的高可读性文本，就可能改善读者的阅读理解表现。现有技术中，阅读难度分级技术主要以美国“蓝思(Lexile)分级”和“AZ分级”为代表。这些技术的阅读难度分级构建体系通常依赖于传统可读性研究的基本假设，也即以词长(wordlength)和词频(wordfrequency)作为语义的指标，以句长作为语法的指标，而词长和句子较长的文章难度通常较高。基于这些假设，现有技术通常通过设计依赖于这些指标的可读性计算公式来实现对文本可读性的度量。现有技术的不足之处在于，没有考虑语言随时代变化的特征，进而无法更新汉字难度分级表和词频表；仅通过句长或词长作为复杂度的指标，过于直觉而不能精确地反映其结构性质；以少数浅层次局部的语言特征不足以反映真实的阅读理解过程；阅读难度分级技术仅适用于英文，而英...
一种基于机器学习的中文阅读难度分级方法及系统

【技术保护点】
一种基于机器学习的中文阅读难度分级方法，其特征在于，包括以下步骤：获取训练文本和待检测文本；根据所述训练文本的语言层面构建衡量阅读难度层次的特征集；所述特征集中至少包括：字词、语义、句子、篇章以及主题特征；将所述特征集输入SVM模型进行训练，并通过所述训练结果对所述待检测文本进行预测，得到阅读难度等级。

【技术特征摘要】
1.一种基于机器学习的中文阅读难度分级方法，其特征在于，包括以下步骤：获取训练文本和待检测文本；根据所述训练文本的语言层面构建衡量阅读难度层次的特征集；所述特征集中至少包括：字词、语义、句子、篇章以及主题特征；将所述特征集输入SVM模型进行训练，并通过所述训练结果对所述待检测文本进行预测，得到阅读难度等级。2.根据权利要求1所述的基于机器学习的中文阅读难度分级方法，其特征在于，训练文本的获取包括以下步骤：根据多个阅读难度层次和更新的中文文本构建语料库；从所述语料库中调取相应的文本作为所述训练文本。3.根据权利要求1所述的基于机器学习的中文阅读难度分级方法，其特征在于，字词特征的构建包括以下步骤：通过预设的中文字词难度分级表对所述训练样本进行分析，得到字词的复杂度特征；对所述训练样本进行词频统计，并通过预设的词频表对统计结果进行分析，得到字词的词频特征。4.根据权利要求1所述的基于机器学习的中文阅读难度分级方法，其特征在于，语义特征的构建包括以下步骤：对所述训练样本中的字词按照属性进行分类，得到多个类别的属性词；在同一类别中对所述属性词进行语义相同字词数目的统计，并对统计结果进行分析，得到所述语义特征。5.根据权利要求1所述的基于机器学习的中文阅读难度分级方法，其特征在于，句子特征的构建包括以下步骤：根据所述训练样本进行句子复杂度的分析，得到句子的复杂度特征；通过依存句法树对所述训练样本进行句子中词语的依存关系和语法结构的分析，得到句子的语法...

【专利技术属性】
技术研发人员：任易，赵梓淳，
申请(专利权)人：北京享阅教育科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人