基于语言特征解释器和对比学习的自动可读性评估方法技术

技术编号:39806618 阅读:10 留言:0更新日期:2023-12-22 02:40
本发明专利技术公开了基于语言特征解释器和对比学习的自动可读性评估方法,包括下列步骤:步骤一

【技术实现步骤摘要】
基于语言特征解释器和对比学习的自动可读性评估方法


[0001]本专利技术属于人工智能
,具体涉及基于语言特征解释器和对比学习的自动可读性评估方法


技术介绍

[0002]文本可读性
(Text Readability)
指文本对于阅读者而言易于理解的程度和性质,若阅读文本的可读性相对于读者水平不相匹配,例如太困难或不易理解,对读者的阅读效率和文本理解效果会产生负面影响,因此对于文本可读性的评估对向读者进行阅读材料的选择

推荐等方面具有重要意义

[0003]早期的可读性评估研究主要涉及语言学家定义各种语言特征,并通过教育和心理方法创建可读性公式,包括
Flesch
易读度公式
、Dale

Chal
可读性指标计算公式和
SMOG
可读性公式

尽管这些公式具有简单性和易于解释的优点,但它们在表示文本的结构复杂性和语义复杂性等某些复杂特征方面存在不足

这种局限性限制了这些可读性公式的性能

[0004]随着深度学习的发展,深度学习方法在可读性评估任务中表现出卓越的性能,这得益于深度神经网络强大的近似能力

尽管在文本可读性评估方面取得了令人钦佩的性能,但深度学习模型通常忽视了语言特征的作用,或没有充分探索其潜力

一些现有技术构建了一个特征之间的相关性图,将语言特征表示为节点,将它们的关系表示为边

另一些现有技术中通过整合难度知识来提取主题特征,并通过投影过滤将语言特征与深度表示融合,以锚定相关性解释

[0005]尽管上述现有技术采用结合语言特征的混合模型在
ARA

Automatic Readability Assessment
,自动阅读能力评估)方面取得了显著的进步,但语言特征的潜力尚未得到充分的探索

这是因为大多数
ARA
模型通常专注于这些语言特征的数值,而忽视了其中蕴含的宝贵结构信息

这限制了语言特征在混合模型中的贡献

例如,当将某些语言特征的值输入到模型中时,模型很难把握该数值表示的具体文本信息

在训练过程中,模型只能根据数值差异来判断特征值与文本可读性之间的关系

这种对数值的过度强调忽略了这些特征所携带的关键结构信息

因此,语言特征对混合
ARA
模型的贡献有限,有时甚至导致适得其反的结果


技术实现思路

[0006]本专利技术的目的是提供基于语言特征解释器和对比学习的自动可读性评估方法,用于解决现有技术中过度强调语言特征的数值而忽略了这些特征所携带的关键结构信息,从而导致语言特征对模型贡献有限,在表示文本的结构复杂性和语义复杂性这些复杂特征方面存在不足,可读性评估效果有限的技术问题

[0007]所述的基于语言特征解释器和对比学习的自动可读性评估方法,包括下列步骤

[0008]步骤一

建立自动可读性评估模型

[0009]步骤二

训练自动可读性评估模型

[0010]步骤三

进行可读性评估时,将相应的文本输入上述自动可读性评估模型处理后自动生成可读性级别

[0011]所述自动可读性评估模型为
InterpretARA
模型,所述
InterpretARA
模型包括语言特征模块

深度特征模块

连接层

线性层和
softmax


[0012]所述语言特征模块中从文本信息中获取语言特征并对语言特征进行处理从而生成增强语言特征表示;所述深度特征模块一方面对整个文本进行处理生成文本级别表示,另一方面先将文本分割为多个段落,再对这些段落进行处理生成段落级别表示

[0013]所述步骤二中,将作为样本的文本输入所述
InterpretARA
模型,从同一文本中提取了文本级别表示

段落级别表示和增强语言特征表示,再进一步采用正交投影滤波方案将增强语言特征表示和段落级别表示分别融合到文本级别表示,从而产生对应的第一正交投影向量和第二正交投影向量,将文本级别表示

第一正交投影向量和第二正交投影向量连接起来,再通过一个线性层和
softmax
运算进行处理,生成最终的文本可读性评估结果;训练过程中通过最小化所述
InterpretARA
模型的总训练损失优化模型,完成对
InterpretARA
模型的训练

[0014]优选的,所述
InterpretARA
模型的总训练损失包含所述
InterpretARA
模型的交叉熵损失和对比损失;对比损失被用来表示文本间相关性,对比损失最小化即同时最大化相同难度级别的文档级表示之间的相似性以及最小化不同难度级别的文档级表示之间的相似性

[0015]优选的,在所述语言特征模块中,通过语言特征解释器产生与语言特征对应的自然语言形式的解释,所述解释经过预训练的
BERT
模型一处理得到对应的处理结果,最后各个解释对应的处理结果通过语言特征模块中的混合池化层和线性层混合生成增强语言特征表示,所述语言特征模块中的
BERT
模型一均共享相同的参数

[0016]优选的,语言特征解释器产生所述解释的具体方法如下:每个语言特征有相应的特征名和对应的数值,语言特征解释器中设置有与特征名一一对应的模板,所述模板根据特征名对数值的含义进行自然语言描述,将原本的特征值变为包含自然语言描述和数值的解释

[0017]优选的,在深度特征模块中,一方面将整个文本直接输入预训练的
BERT
模型二生成文本级别表示;另一方面先对文本进行分割得到多个具有相同句子数量的段落,再将这些段落分别输入到预训练的
BERT
模型二处理得到相应的处理结果,各个段落对应的处理结果通过深度特征模块中的混合池化层和线性层混合生成段落级别表示,所述深度特征模块中的
BERT
模型二均共享相同的参数

[0018]优选的,本方法将文本级别表示
f
β
作为主向量,段落级别表示
f
γ
和增强语言特征表示
f
α
分别作为相应的辅助向量,第一正交投影向量和第二正交投影向量的相应计算公式如下,,

[0019]优选的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于语言特征解释器和对比学习的自动可读性评估方法,包括下列步骤:步骤一

建立自动可读性评估模型;步骤二

训练自动可读性评估模型;步骤三

进行可读性评估时,将相应的文本输入上述自动可读性评估模型处理后自动生成可读性级别;其特征在于:所述自动可读性评估模型为
InterpretARA
模型,所述
InterpretARA
模型包括语言特征模块

深度特征模块

连接层

线性层和
softmax
层;所述语言特征模块中从文本信息中获取语言特征并对语言特征进行处理从而生成增强语言特征表示;所述深度特征模块一方面对整个文本进行处理生成文本级别表示,另一方面先将文本分割为多个段落,再对这些段落进行处理生成段落级别表示;所述步骤二中,将作为样本的文本输入所述
InterpretARA
模型,从同一文本中提取了文本级别表示

段落级别表示和增强语言特征表示,再进一步采用正交投影滤波方案将增强语言特征表示和段落级别表示分别融合到文本级别表示,从而产生对应的第一正交投影向量和第二正交投影向量,将文本级别表示

第一正交投影向量和第二正交投影向量连接起来,再通过一个线性层和
softmax
运算进行处理,生成最终的文本可读性评估结果;训练过程中通过最小化所述
InterpretARA
模型的总训练损失优化模型,完成对
InterpretARA
模型的训练
。2.
根据权利要求1所述的基于语言特征解释器和对比学习的自动可读性评估方法,其特征在于:所述
InterpretARA
模型的总训练损失包含所述
InterpretARA
模型的交叉熵损失和对比损失;对比损失被用来表示文本间相关性,对比损失最小化即同时最大化相同难度级别的文档级表示之间的相似性以及最小化不同难度级别的文档级表示之间的相似性
。3.
根据权利要求1或2所述的基于语言特征解释器和对比学习的自动可读性评估方法,其特征在于:在所述语言特征模块中,通过语言特征解释器产生与语言特征对应的自然语言形式的解释,所述解释经过预训练的
BERT
模型一处理得到对应的处理结果,最后各个解释对应的处理结果通过语言特征模块中的混合池化层和线性层混合生成增强语言特征表示,所述语言特征模块中的
BERT
模型一均共享相同的参数
。4.
根据权利要求3所述的基于语言特征解释器和对比学习的自动可读性评估方法,其特征在于:语言特征解释器产生所述解释的具体方法如下:每个语言特征有相应的特征名和对应的数值,语言特征解释器中设置有与特征名一一对应的模板,所述模板根据特征名对数值的含义进行自然语言描述,将原本的特征值变为包含自然语言描述和数值的解释
。5.
根据权利要求1或2所述的基于语言特征解释器和对比学习的自动可读性评估方法,其特征在于:在深度特征模块中,一方面将整个文本直接输入预训练的
BERT
模型二生成文本级别表示;另一方面先对文本进行分割得到多个具有相同句子数量的段落,再将这些段落分别输入到预训练的
BERT
模型二处理得到相应的处理结果,各个段落对应的处理结果通过深度特征模块中的混合池化层和线性层混合生成段落级别表示,所述深度特征模块中的
BERT
模型二均共享相同的参数
。6.

【专利技术属性】
技术研发人员:童贤超曾锦山余相龙肖文艳
申请(专利权)人:江西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1