一种新闻阅读文本可读性评价方法及系统技术方案

技术编号：26792097 阅读：21 留言：0更新日期：2020-12-22 17:07

本发明专利技术公开了一种新闻阅读文本可读性评价方法及系统，该方法包括：对待评价的新闻阅读文本进行分句处理，形成分句列表；对分句列表中的句子进行句法分析，获取每一句子的句法结构信息；基于各句子的句法结构信息计算出每一句子的句子配数；基于各句子的句子配数，计算出待评价的新闻阅读文本的句子配数分形维数，并计算该句子配数分形维数与上述分句列表的长度的比值，得到修正句子配数分形维数；基于修正句子配数分形维数，采用融合法对待评价的新闻阅读文本的可读性进行评价。本发明专利技术利用修正句子配数分形维数和现有的可读性公式进行融合，提升了原有可读性公式的分类准确率和F1值。

全部详细技术资料下载

【技术实现步骤摘要】
一种新闻阅读文本可读性评价方法及系统
本专利技术涉及新闻阅读文本的可读性评价
，特别涉及一种新闻阅读文本可读性评价方法及系统。
技术介绍
新闻报刊阅读教学在国际中文教学中属于中、高级的教学内容，教学内容大部分来自于一些报刊原文或加以改编，张宁志(2000)指出中、高级教材语料因为原文所占比例较大会导致对教材难度的控制比较弱，而想要提高教材编写的科学性，就需要能够对教材的难度进行定量研究。对于教材难度的研究，可以看作是“易读性”研究的一种，关于影响教材难度的因素，前人也多有论述。张宁志(2000)对多种影响教材难度的因素进行了分析，认为主要包括：生词量、高频词语的比例、语法项目的数量、句式的复杂程度、句子的长度、功能项目的数量及编排顺序以及与学生实际交际的相关度、语域风格(即语言的正规度)、百科及文化背景知识的数量等。之后，张宁志(2000)再次强调对汉语教材难度进行定量分析的重要性，并且利用“平均句长”对初、中、高级教材语料难度进行了区分，加入对于“每百字非常用词”的统计，对中、高级教材进行了区分。对于教材难度的影响因素，卢伟(2005)提出汉字、词汇、语法结构、语篇等几个语言变量是影响国际中文教材语料(包括课文、语言项目释例、练习等)难易程度的主要因素。当然除了这些语料的文本特征之外，像学习者的知识背景、文化背景，语料中的专用词组等等都会产生影响，不过仅考虑文本的基本构成层面来说，这些影响因素大致可分为字、词、句、篇几大类。目前研究较为充分的是词领域，相应的等级词表为从词层面进行分级确定提供了便利，李...

【技术保护点】
1.一种新闻阅读文本可读性评价方法，其特征在于，所述方法包括：/n对待评价的新闻阅读文本进行分句处理，形成分句列表；/n对所述分句列表中的句子进行句法分析，获取每一句子的句法结构信息；/n基于所述句法结构信息计算出每一句子的句子配数；其中，所述句子配数为一个0到1之间的数，是每一个句子的句法结构的数字化表示；/n基于所述句子配数，计算出所述待评价的新闻阅读文本的句子配数分形维数，并计算所述句子配数分形维数与所述分句列表的长度的比值，得到所述待评价的新闻阅读文本的修正句子配数分形维数；其中，所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数序列的分形维数；/n基于所述修正句子配数分形维数，采用融合法对所述待评价的新闻阅读文本的可读性进行评价，得到所述待评价的新闻阅读文本的可读性评价结果。/n

【技术特征摘要】
1.一种新闻阅读文本可读性评价方法，其特征在于，所述方法包括：
对待评价的新闻阅读文本进行分句处理，形成分句列表；
对所述分句列表中的句子进行句法分析，获取每一句子的句法结构信息；
基于所述句法结构信息计算出每一句子的句子配数；其中，所述句子配数为一个0到1之间的数，是每一个句子的句法结构的数字化表示；
基于所述句子配数，计算出所述待评价的新闻阅读文本的句子配数分形维数，并计算所述句子配数分形维数与所述分句列表的长度的比值，得到所述待评价的新闻阅读文本的修正句子配数分形维数；其中，所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数序列的分形维数；
基于所述修正句子配数分形维数，采用融合法对所述待评价的新闻阅读文本的可读性进行评价，得到所述待评价的新闻阅读文本的可读性评价结果。

2.如权利要求1所述的新闻阅读文本可读性评价方法，其特征在于，对待评价的新闻阅读文本进行分句处理时，使用问号、感叹号和句号作为分隔符。

3.如权利要求1所述的新闻阅读文本可读性评价方法，其特征在于，基于所述句法结构信息计算出每一句子的句子配数，包括：
根据句子中的最后一个词的id值id_max形成一个双重列表ll，其中列表长度等于id_max；id是句子中每一个词的自然序列值；
提取出当前句子中的每一个词的id和head形成列表[id,head]，根据列表[id,head]填充列表ll，其中id对应ll中内层列表索引，id_max与当前id的差值为ll[id-1]的长度，其中ll[id-1]中除ll[id-1][head-id-1]＝1以外，其余各项均为0；其中，head是每一个词的支配词的id值；
倒序遍历列表ll的内容形成二进制数strt，将strt的每一项变为1得到strt_max，进而得到strt和strt_max的十进制表达bc和bc_max，最后求出句子配数bc_rel＝bc/bc_max。

4.如权利要求1所述的新闻阅读文本可读性评价方法，其特征在于，所述句子配数分形维数的计算使用盒子法：首先定义(0，1)之间的盒子范围收缩函数；然后利用不断收缩的盒子进行预设次数的迭代计...

【专利技术属性】
技术研发人员：赵文杰，赵慧周，
申请(专利权)人：北京语言大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人