融合文本分布律特征的中文文本可读性评价方法及系统技术方案

技术编号：31922381 阅读：21 留言：0更新日期：2022-01-15 13:06

本发明专利技术公开了一种融合文本分布律特征的中文文本可读性评价方法及系统，所述方法包括：确定文本特征候选集，所述文本特征候选集包括：字、词、句、篇、分布律、可读性公式六类特征；计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值；基于所述文本特征候选集中的特征及计算的特征值，进行可读性公式设计或者机器学习模型训练；利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。本发明专利技术将文本分布律特征与字、词、句、篇、可读性公式特征相结合，经过特征选择后，进行可读性公式设计和机器学习模型训练，篇章文本可读性预测准确率有明显提升。预测准确率有明显提升。预测准确率有明显提升。

全部详细技术资料下载

【技术实现步骤摘要】
融合文本分布律特征的中文文本可读性评价方法及系统

[0001]本专利技术涉及中文信息处理
，特别涉及一种融合文本分布律特征的中文文本可读性评价方法及系统。

技术介绍

[0002]阅读是获取信息的重要途经，培养阅读能力是语言学习的重要方面。对于语言学习者，应进行分级阅读，即：阅读与学习者理解能力相匹配的、难度适宜的文本材料。这有利于保持阅读兴趣，在培养阅读习惯的同时，发展阅读能力。
[0003]文本可读性是一种定量评价文本材料阅读难度的方法，李绍山(易读性研究综述[J].解放军外国语学院学报，2000)认为可读性，又称易读性或易懂性，是指文本易于阅读和理解的程度或性质，是文本的重要属性。研究文本可读性评价方法，对分级阅读、教材编写等应用具有重要意义。
[0004]中文文本可读性的预测方法有基于可读性公式的预测方法、基于语言模型的预测方法、基于传统机器学习模型的预测方法和基于深度神经网络的预测方法等。其中，可读性公式方法和传统机器学习模型都需要依赖文本特征。
[0005]文本可读性公式被认为是预测文本可读性等级的一种方式，可以客观评价文本的可读性。王蕾(初中级日韩留学生文本可读性公式初探[D].北京语言大学硕士研究生学位论文，2005)认为可读性公式是将所有影响阅读难度的、可以量化的因素(特别是文本因素)综合起来，制定的一个评价文本难易程度的公式。Hiebert等(Standards,assessments,and text difficulty in A.E. Farstrup&a...

【技术保护点】

【技术特征摘要】
1.一种融合文本分布律特征的中文文本可读性评价方法，其特征在于，包括以下步骤：S1、确定文本特征候选集，所述文本特征候选集包括：字、词、句、篇、分布律、可读性公式六类特征；S2、计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值；S3、基于所述文本特征候选集中的特征及计算的特征值，进行可读性公式设计或者机器学习模型训练；S4、利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。2.根据权利要求1所述的中文文本可读性评价方法，其特征在于，步骤S2所述训练篇章文本是有多个可读性分类等级标注的文本，步骤S4所述任意篇章文本是指待依据步骤S2所述训练篇章文本可读性分类等级进行分类预测的任意篇章文本。3.根据权利要求1所述的中文文本可读性评价方法，其特征在于，所述可读性公式设计具体包括以下步骤：对所述文本特征候选集中的第一预设组的特征进行皮尔逊相关性分析，筛选出相互之间皮尔逊相关系数在预定数值α以下的特征，作为建立多元线性回归模型的特征；通过对筛选出的特征进行回归分析，得到与可读性等级拟合优度最高的回归模型。4.根据权利要求3所述的中文文本可读性评价方法，其特征在于，当α＝0.7且步骤S2所述训练篇章文本是包括多个版本的小学1
‑
6年级语文教材的六个可读性分类等级标注的篇章文本时，拟合得到的可读性公式表示为：Y＝15.739+0.025*avesen_char+0.04*difficult_char+51.588*difficult_word+6.380*Gini+0.253*strokefre+1.437*lgcharfre
‑
1.914*charwordpro
‑
1.013*TC+6.121*subs tanpro
‑
2.914*adjpro+4.38*funcpro+2.5*unlistwordpro+4.236*wordlenfre+0.688*La mbda+0.644*avelgwordfre；其中，avesen_char是平均句长，difficult_char是汉字难度，difficult_word是词汇难度，Gini是基尼系数，strokefre是频率加权的笔画数，lgcharfre是平均对数字频，charwordpro是字词比，TC是主题集中度，substanpro是实词比例，adjpro是形容词比例，funcpro是虚词比例，unlistwordpro是未登录词比例，wordlenfre是频率加权的词长，Lambda是Lambda值，avelgwordfre是平均对数词频。5.根据权利要求1所述的中文文本可读性评价方法，其特征在于，所述机器学习模型训练具体包括以下步骤：对所述文本特征候选集中的第二预设组的特征进行皮尔逊相关性分析，筛选出与分类等级关联较大，并且相互之间关联性较小的特征；将筛选出的特征作为输入特征进行机器学习模型的训练，选出最优的机器学习模型。6.一种融合文本...

【专利技术属性】
技术研发人员：赵慧周，郭雯钰，
申请(专利权)人：北京语言大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人