System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能,具体涉及基于公有与私有特征分解的混合可读性评估方法与系统。
技术介绍
1、文本可读性(text readability)指文本对于阅读者而言易于理解的程度和性质,若阅读文本的可读性相对于读者水平不相匹配,例如太困难或不易理解,对读者的阅读效率和文本理解效果会产生负面影响,因此对于文本可读性的评估对向读者进行阅读材料的选择、推荐等方面具有重要意义。
2、早期的方法主要依赖于可读性公式,包括flesch-kincaid可读性公式、dale-chal可读性指标计算公式和smog可读性公式。这些方法通过分析文本的浅层特征,如句子长度、单词长度和词汇复杂性,以此来计算文本的可读性分数。然而,这些方法忽略了文本的语义和上下文信息,限制了可读性评估的准确性。
3、为了克服基于可读性公式的方法的局限性,基于语言特征和机器学习的方法逐渐出现。这些方法提取了文本的结构、句法和语义特征,如词频、句法树结构和情感信息,使用机器学习算法来建立可读性预测的模型。这些方法在一定程度上提高了可读性评估的有效性。然而,手工特征工程仍然是提取重要语言特征来构建可读性分类模型的关键步骤,这使得该方法耗时且劳动密集。
4、最近深度学习技术的快速发展为文本可读性评估带来了新的可能性。利用深度学习方法使文本特征和上下文见解的自动获取成为可能,从而显著提高了可读性预测的精度。学习方法包括递归神经网络(rnns)、双向长短期记忆网络(bi-lstm)和transformer模型。最初的神经方法是基于预先训练的词嵌入构
5、虽然现有的ara(automatic readability assessment,自动可读性评估)模型在一些可读性评估任务中取得了令人印象深刻的表现,但它们仍然难以对语言学特征实现有效的利用,再如何提取高质量的深度特征方面也存在缺陷,尤其是利用深度特征和语言学特征这两种特征的有效融合提高可读性评估效果方面缺乏效果较好的相关技术。
技术实现思路
1、本专利技术的目的是提供基于公有与私有特征分解的混合可读性评估方法,用于解决现有技术中无法同时有效利用深度特征和语言学特征,难以将两种特征有效融合从而达到较高的可读性评估效果的技术问题。
2、所述的基于公有与私有特征分解的混合可读性评估方法,包括下列步骤:
3、步骤一、构建ara模型;
4、步骤二、采集一定量文本作为训练集和测试集并对构建的ara模型进行训练;
5、步骤三、完成训练后利用训练好的ara模型对文本进行可读性评估,生成相应的可读性水平标签;
6、所述ara模型为cp-ara模型,所述cp-ara模型包括深度特征模块、语言特征模块、私有特征模块、公有特征模块和联合特征模块;
7、所述步骤二具体包括:
8、s1、通过深度特征模块对文本进行不同深度的深度特征提取生成相应深度特征表示,深度特征表示包括文档级表示、句子级表示和单词级表示;
9、s2、通过语言特征模块对文本进行语言特征的提取获得语言学特征表示;
10、s3、对不同深度的深度特征表示和语言学特征表示进行相应私有特征表示和这些特征的公有特征表示的学习,深度特征表示和语言学特征表示输入私有特征模块分别生成相应的私有特征表示,深度特征表示和语言学特征表示连接在一起后输入公有特征模块生成这些特征表示的公有特征表示,私有特征表示和公有特征表示均通过引入自监督学习进行训练;
11、s4、所得的各个私有特征表示和公有特征表示通过联合特征模块融合后进行可读性标签的标签预测,标签预测通过联合损失进行训练。
12、优选的,所述步骤s1中,不同深度的深度特征表示的生成方法如下:通过预训练的长序列变换器bigbird直接提取文档级信息中的深度特征从而得到文档级表示;通过长序列变换器bigbird对文本中的每个单词生成嵌入向量再将嵌入向量均输入混合池化层生成相应的单词级表示;提取句子级的深度特征时,先对文档进行句子划分,然后将划分所得的每个句子分别输入长序列变换器bigbird中提取相应的深度特征,再输入混合池化层生成相应的句子级表示。
13、优选的,所述步骤s2中,通过语言特征模块中的语言特征提取器从文本中提取多个语言特征,然后对这些语言特征进行层归一化获得归一化特征,再将归一化特征输入线性层输出与所述深度特征表示维度一致的语言学特征表示。
14、优选的,所述公有特征模块设有公有编码器 e c,所述私有特征模块设有私有编码器;所述步骤s3中,将文档级表示、句子级表示、单词级表示和语言学特征表示连接在一起,然后将由此得到的连接向量输入到公有编码器 e c中,以生成它们的公有特征表示;特征表示, i∈{ d, s, w, l},根据下标依次表示文档级表示、句子级表示、单词级表示和语言学特征表示,相应的私有编码器为 e i;训练时将特征表示输入到对应的私有编码器 e i产生对应的私有特征表示。
15、优选的,所述步骤s3中,将公有特征表示输入到公有解码器 d c中得到相应的公有重构表示,然后通过公有特征表示的重构损失用于公有特征表示的学习;针对每个私有特征表示, i∈{ d, s, w, l},均引入一个对应的监督方案,通过将私有特征表示输入到对应的私有解码器 d i中得到相应的私有重构表示,基于上述关系,通过相应的私有重构损失实现对应的私有特征表示的学习。
16、优选的,公有特征表示的重构损失的计算式如下:
17、
18、其中, d c( )表示通过公有解码器 本文档来自技高网...
【技术保护点】
1.基于公有与私有特征分解的混合可读性评估方法,包括下列步骤:
2.根据权利要求1所述的基于公有与私有特征分解的混合可读性评估方法,其特征在于:所述步骤S1中,不同深度的深度特征表示的生成方法如下:通过预训练的长序列变换器BigBird直接提取文档级信息中的深度特征从而得到文档级表示;通过长序列变换器BigBird对文本中的每个单词生成嵌入向量再将嵌入向量均输入混合池化层生成相应的单词级表示;提取句子级的深度特征时,先对文档进行句子划分,然后将划分所得的每个句子分别输入长序列变换器BigBird中提取相应的深度特征,再输入混合池化层生成相应的句子级表示。
3.根据权利要求2所述的基于公有与私有特征分解的混合可读性评估方法,其特征在于:所述步骤S2中,通过语言特征模块中的语言特征提取器从文本中提取多个语言特征,然后对这些语言特征进行层归一化获得归一化特征,再将归一化特征输入线性层输出与所述深度特征表示维度一致的语言学特征表示。
4.根据权利要求3所述的基于公有与私有特征分解的混合可读性评估方法,其特征在于:所述公有特征模块设有公有编码器EC,所述
5.根据权利要求4所述的基于公有与私有特征分解的混合可读性评估方法,其特征在于:所述步骤S3中,将公有特征表示输入到公有解码器DC中得到相应的公有重构表示,然后通过公有特征表示的重构损失用于公有特征表示的学习;针对每个私有特征表示,i∈{d,s,w,l},均引入一个对应的监督方案,通过将私有特征表示输入到对应的私有解码器Di中得到相应的私有重构表示,基于上述关系,通过相应的私有重构损失实现对应的私有特征表示的学习。
6.根据权利要求5所述的基于公有与私有特征分解的混合可读性评估方法,其特征在于:公有特征表示的重构损失的计算式如下:
7.根据权利要求6所述的基于公有与私有特征分解的混合可读性评估方法,其特征在于:所述步骤S4中,各个私有特征表示和公有特征表示进一步连接生成联合特征表示,然后由联合特征模块进行标签预测,再利用样本对应的可读性水平的标签进行训练;CP-ARA模型的联合损失LCE用于标签预测的学习。
8.根据权利要求7所述的基于公有与私有特征分解的混合可读性评估方法,其特征在于:所述CP-ARA模型的累计训练损失的表达式如下:
9.基于公有与私有特征分解的混合可读性评估系统,包括ARA模型,其特征在于:所述ARA模型为CP-ARA模型,所述CP-ARA模型包括深度特征模块、语言特征模块、私有特征模块、公有特征模块和联合特征模块;所述混合可读性评估系统能够通过如权利要求1-8中任意一项所述的混合可读性评估方法实现所述CP-ARA模型的构建和训练,并利用训练好的所述CP-ARA模型对文本进行可读性评估。
...【技术特征摘要】
1.基于公有与私有特征分解的混合可读性评估方法,包括下列步骤:
2.根据权利要求1所述的基于公有与私有特征分解的混合可读性评估方法,其特征在于:所述步骤s1中,不同深度的深度特征表示的生成方法如下:通过预训练的长序列变换器bigbird直接提取文档级信息中的深度特征从而得到文档级表示;通过长序列变换器bigbird对文本中的每个单词生成嵌入向量再将嵌入向量均输入混合池化层生成相应的单词级表示;提取句子级的深度特征时,先对文档进行句子划分,然后将划分所得的每个句子分别输入长序列变换器bigbird中提取相应的深度特征,再输入混合池化层生成相应的句子级表示。
3.根据权利要求2所述的基于公有与私有特征分解的混合可读性评估方法,其特征在于:所述步骤s2中,通过语言特征模块中的语言特征提取器从文本中提取多个语言特征,然后对这些语言特征进行层归一化获得归一化特征,再将归一化特征输入线性层输出与所述深度特征表示维度一致的语言学特征表示。
4.根据权利要求3所述的基于公有与私有特征分解的混合可读性评估方法,其特征在于:所述公有特征模块设有公有编码器ec,所述私有特征模块设有私有编码器;所述步骤s3中,将文档级表示、句子级表示、单词级表示和语言学特征表示连接在一起,然后将由此得到的连接向量输入到公有编码器ec中,以生成它们的公有特征表示;特征表示,i∈{d,s,w,l},根据下标依次表示文档级表示、句子级表示、单词级表示和语言学特征表示,相应的私有编码器为ei;训练时将特征表示输入到对应的私有编码器ei产生对应的私有特征表示。
【专利技术属性】
技术研发人员:曾锦山,余相龙,童贤超,肖文艳,
申请(专利权)人:江西师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。