一种用于简体中文可读性测度的线性模型方法技术

技术编号：17837678 阅读：175 留言：0更新日期：2018-05-03 19:20

本发明专利技术公开了一种用于简体中文可读性测度的线性模型方法，步骤包括：构建简体中文文本及其可读性级别语料库；对文本进行预处理，包括分词、分句、词性标注、命名实体识别、成分句法分析、依存句法分析、子句标注、笔画统计；提取并计算文本语言特征；依据语言特征和回归算法构建最佳特征组合；构建可读性测度的线性回归模型。该模型所采用的文本语言特征涵盖浅层特征、词性标注特征(亦称为语义或词法特征)、语法特征、和篇章特征等四个方面，可以自动预测简体汉语文本对于汉语母语学习者的可读性等级，填补了基于简体汉语文本的可读性预测模型的空白。该模型拟合度高，可解释性强，并且对于评测应用文本的可读性具有可扩展性和重要参考价值。

A linear model method for readability measurement of simplified Chinese characters

The present invention discloses a linear model method for the measure of simplified Chinese readability. The steps include: constructing simplified Chinese text and its readable level corpus, and preprocessing the text, including participle, clause, part of speech tagging, named entity recognition, syntactic parsing, dependency syntactic analysis, clause annotation, Stroke statistics; extract and calculate text language features; construct the best combination of features based on linguistic features and regression algorithms; and construct a linear regression model of readability measure. The text language features of the model cover four aspects, such as shallow features, word tagging features (also called semantic or lexical features), grammatical features, and text features, and can automatically predict the readability level of the simplified Chinese text for Chinese native language learners, and fill the readability prediction model based on the simplified Chinese text. The type of blank. The model is highly fitting and interpretable, and it is extensible and valuable for evaluating the readability of applied texts.

全部详细技术资料下载

【技术实现步骤摘要】
一种用于简体中文可读性测度的线性模型方法
本专利技术涉及可读性测度
，具体涉及一种用于简体中文的可读性测度的线性模型方法。
技术介绍
语言复杂性(linguisticcomplexity)是多维度跨学科的学术概念，可以从自然语言处理、二语习得、心理语言学、认知学、和对比语言学等角度研究。语言复杂性的界定可以从两个方面展开：严格意义的语言复杂性，即语言结构复杂性研究，多用于跨语言比较研究和作文自动评分；相对意义的语言复杂性研究，例如可读性、语言难度、认知成本等，多用于服务于语言学习和文本理解的应用研究。本项目研究相对意义的语言复杂性，即文本的可读性或易读性(readability)。可读性指标的研究多集中于英语(Gunning1969；Fengetal.2010)、法语(Todirascuetal.2016)、瑞典语(Pilanetal.2016)、日语(Sato2008)等语种的研究。可读性评价方法旨在发现影响文本阅读难度的语言特征，或者基于有效特征构建数学公式或者模型来表示文本的语言难度或者理解难度。与其他语种相比，对于汉语文本的可读性研究相对较少，并且以繁体汉字和文本为研究数据。汉字是汉语的书写符号系统，是一种表意文字，与拼音文字差别巨大。Yang(1970)是少数较早研究汉语可读性指标并较多被其他学者应用于特定领域的研究成果。Yang定义了7因素和3因素两种可读性指标，包含的汉语特征包括：完整句比例、基础词汇比例、平均笔画数等。Su和Samuels(2010)从汉字构成的角度(如偏旁部首、字词结构等)研究不同汉字特征对于不同阶段汉语学习者的学习...
一种用于简体中文可读性测度的线性模型方法

【技术保护点】
一种用于简体中文可读性测度的线性模型方法，其特征在于，所述的方法包括下列步骤：S1、构建简体中文文本及其可读性级别语料库；S2、对语料库文本进行预处理，包括分词、分句、词性标注、命名实体识别、成分句法分析、依存句法分析、子句标注、和/或笔画统计；S3、提取并计算文本语言特征；S4、依据语言特征和回归算法构建最佳特征组合；S5、构建可读性测度的线性回归模型。

【技术特征摘要】
1.一种用于简体中文可读性测度的线性模型方法，其特征在于，所述的方法包括下列步骤：S1、构建简体中文文本及其可读性级别语料库；S2、对语料库文本进行预处理，包括分词、分句、词性标注、命名实体识别、成分句法分析、依存句法分析、子句标注、和/或笔画统计；S3、提取并计算文本语言特征；S4、依据语言特征和回归算法构建最佳特征组合；S5、构建可读性测度的线性回归模型。2.根据权利要求1所述的一种用于简体中文可读性测度的线性模型方法，其特征在于，所述的文本语言特征的特征类别包括：浅层特征、词性标注特征、语法特征和/或篇章特征，其中，所述的浅层特征包括字的复杂度特征、词的复杂度特征、句子复杂度特征和/或文本长度特征，所述的字的复杂度特征包括：特征1.文档最常用字的占比、特征2.文档次常用字的占比、特征3.文档总常用字的占比、特征4.低笔画占比、特征5.中笔画占比、特征6.高笔画占比和/或特征7.平均笔画数；所述的词的复杂度特征包括：特征8.不去重时文档的词汇平均字数、特征9.去重时文档的词汇平均字数、特征10.文档的两字词语的个数、特征11.文档的两字词语在总词数的占比、特征12.文档的三字词语的个数、特征13.文档的三字词语在总词数的占比、特征14.文档的四字词语的个数、特征15.文档的四字词语在总词数的占比、特征16.文档的四字以上词语的个数和/或特征17.文档的四字以上词语在总词数的占比；所述的句子复杂度特征包括特征18.单句的平均多字词语的个数、特征19.单句的平均词数、特征20.仅针对汉字的单句的平均字数和/或特征21.针对所有字符的句子的平均字数；所述的文本长度特征包括特征包括：22.文档的汉字总字数和/或特征23.针对所有字符的文档的总字符数；其中，所述的词性标注特征包括形容词特征、功能词特征、动词特征、名词特征、实词特征、习语/成语特征和/或副词特征，所述的形容词特征包括特征24.文档的形容词在总词数的占比、特征25.文档的唯一的形容词在去重后总词数的占比、特征26.文档的唯一形容词个数、特征27.单句平均形容词个数和/或特征28.单句平均唯一形容词个数；所述的功能词特征包括特征29.文档的功能词在总词数的占比、特征30.文档的唯一的功能词在去重后总词数的占比、特征31.文档的唯一功能词个数、特征32.文档的单句平均功能词个数和/或特征33、单句平均唯一功能词个数；所述的动词特征包括特征34.文档的动词在总词数的占比、特征35.文档的唯一动词个数、特征36.文档的唯一动词在去重后总词数的占比、特征37.单句平均动词个数和/或特征38.单句平均唯一动词个数；所述的名词特征包括特征39.文档的普通名词占比、特征40.文档的唯一普通名词个数、特征41.文档的唯一普通名词在去重后总词数的占比、特征42.单句平均普通名词个数、特征43.单句平均唯一普通名词个数、特征44.文档的所有名词在总词数的占比、特征45.文档的唯一所有名词个数、特征46.文档的唯一所有名词在去重后总词数的占比、特征47.单句平均所有名词个数和/或特征48.单句平均唯一所有名词个数；所述的实词特征包括特征49.文档的实词在总词数的占比、特征50.文档的唯一实词个数、特征51.文档的唯一实词在去重后总词数的占比、特征52.单句平均实词个数和/或特征53.单句平均唯一实词个数；所述的习语/成语特征包括特征54.文档的习语在总词数的占比、特征55.文档的唯一习语个数、特征56.文档的唯一习语在去重后总词数的占比、特征57.单句平均习语个数和/或特征58.单句平均唯一习语个数；所述的副词特征包括特征59.文档的副词在总词数的占比、特征60.文档的唯一副词个数、特征61.文档的唯一副词在去重后总词数的占比、特征62.单句平均副词个数和/或特征63.单句平均唯一副词个数；所述的语法特征包括词组特征、子句特征和/或完整句特征，其中，所述的词组特征包括特征64.单句平均名词短语个数、特征65.单句平均动词短语个数、特征66.文档的名词短语总数、特征67.文档的动词短语总数、特征68.文档的介词短语总数、特征69.文档的名词短语的平均长度、特征70.文档的动词短语的平均长度和/或特征71.文档的介词短语的平均长度；所述的子句特征包括特征72.文档的含有子句的句子的个数、特征73.文档的不含有子句的句子占句子总数的占比和/或特征74.文档的句子的平均子句个数；所述的完整句特征包括特征75.文档完整句句子数和/或特征76.文档完整句平均句法树高度；所述的篇章特征包括实体密度特征和/或篇章连贯性特征，其中，所述的实体密度特征包括特征77.文档的实体词总数、特征78.文档的唯一实体词总数、特征79.文档的实体词在文档总词数的占比、特征80.文档的唯一实体词在文档总单词数量的占比、特征81.文档的单句平均实体词数量、特征82.文档的单句平均唯一实体词数量、特征83.文档的命名实体词在文档总词数的占比、特征84.文档的单句平均命名实体词数量、特征85.文档的命名实体词在文档总实体词的占比、特征86.文档的普通名词在总词数的占比、特征87.文档的非命名实体名词在总词数的占比、特征88.文档的单句平均普通名词数量、特征89.文档的单句非命名实体词的数量和/或特征90.文档的单句平均非实体词数量；其中，所述的篇章连贯性特征包括特征91...

【专利技术属性】
技术研发人员：丘心颖，邓可斌，
申请(专利权)人：广东外语外贸大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人