【技术实现步骤摘要】
基于混合神经网络的中文文本可读性评价方法
[0001]本专利技术涉及自然语言处理
,具体为基于混合神经网络的中文文本可读性评价方法。
技术介绍
[0002]可读性是文本沟通的基石,可读性通常用来形容某种书面语言阅读和理解的容易程度,鉴于文本可读性在满足人们的信息需求方面的重要性,以及现代信息量的爆炸式增长,文本可读性的度量需求不断增加,实现有效的文本可读性评估所带来的影响力也与日俱增,可读性研究的核心是对文本进行可读性评价,即通过对获取文本进行分析,给出该文本的难度值来表示相应文本的阅读难度水平或者用来指示给定人群对相应文本的阅读水平和理解能力。
[0003]现有的中文文本可读性评价方法,来估计文章的阅读难度等级或分数,一般基于传统特征的可读性公式法的度量指标主要依赖于两个影响可读性的因素:语义单位的熟悉程度以及语法的复杂性,现有的基于传统特征的可读性公式法计算简易,首先传统可读性公式法很少依赖于文本可读性的内在特征,难以捕捉到深度的词汇语义特征以至于其不能够丰富的表征文本来度量文本的阅读难度,导致其可用性不佳 ...
【技术保护点】
【技术特征摘要】
1.一种基于混合神经网络的中文文本可读性评价方法,其特征在于,包括以下步骤:步骤1、构建可读性词典D;步骤1.1、构建词库中每个词语的特征集,包括:字数、整体笔画数、使用词频和部件数;步骤1.2、将每个词语的特征集输入SVM模型进行训练,得到预测模型,利用所述预测模型对词库中的词语进行预测,得到所有词语的可读性得分,从而构建可读性词典D;步骤2、获取待评估的中文文本信息集并进行分词和去停用词处理,用于构建标准语料库A;步骤2.1、通过python爬取待评估的中文文本信息集,记为T={t1,t2,...,t
k
},其中,t
k
表示第k条文本信息,k为文本信息的总条数;步骤2.2、通过中文分词工具对中文文本信息集T进行分词,得到分词结果,其中,第k条文本信息t
k
的分词结果记为其中,w
n,k
表示所述第k条文本信息t
k
中第n个文本词,N
k
表示第k条文本信息t
k
的最大词汇长度;步骤2.3、对所有文本信息的分词结果进行去停用词处理后,构建标准语料库记为A;步骤2.4、将标准语料库A分为训练文本集S={s1,s2,...,s
n
}和测试文本集U={u1,u2,...,u
n
′
},其中,s
n
表示所述训练文本集S中第n个文本词,u
n
′
表示所述测试文本集U中第n
′
个文本词;n表示训练文本集S中的文本词总数,n
′
表示所述测试文本集U中的文本词总数;步骤3、训练词向量;步骤3.1、将训练文本集S输入GloVe模型中进行训练,得到各个文本词的d维词向量并组成共线矩阵P={p1,p2,...,p
n
},p
n
表示第n个文本词s
n
的d维词向量;步骤3.2、将训练文本集S通过Word2vec模型进行训练,得到各个文本词的K维词向量并组成词向量矩阵Q={q1,q2,...,q
n
},q
n
表示第n个文本词s
n
的K维词向量;步骤4、获取含有可读性信息的文本矩阵;步骤4.1、将训练文本集S中的第n个文本词s
n
对应的可读性得分c
n
与共线矩阵P中相应的d维词向量p
n<...
【专利技术属性】
技术研发人员:刘春丽,曹梦莹,
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。