阅读障碍识别模型的建模方法、阅读障碍识别方法及系统技术方案

技术编号:39422291 阅读:14 留言:0更新日期:2023-11-19 16:10
本发明专利技术公开了一种阅读障碍识别模型的建模方法、阅读障碍识别方法及系统。该建模方法包括如下步骤:采集多名健康用户和阅读障碍用户的多模态数据;将多模态数据均转化为d维向量;将多模态数据的d维向量进行向量变换,以分别形成最终的表征向量;将最终的表征向量拼接后输入至输出层,以输出预测结果;建立输入与预测结果的映射关系,构建初步的阅读障碍识别模型;进行模型调参,形成最终的阅读障碍识别模型。该阅读障碍识别模型考虑了多模态特征以及多模态特征的相互融合,具有更高的识别效率和识别效果。和识别效果。和识别效果。

【技术实现步骤摘要】
阅读障碍识别模型的建模方法、阅读障碍识别方法及系统


[0001]本专利技术涉及一种阅读障碍识别模型的建模方法,同时也涉及相应的阅读障碍识别方法及系统,属于认知诊断


技术介绍

[0002]近年来,阅读障碍在儿童和青少年人群中出现越来越频繁,发病率高达5%~12%。阅读障碍严重影响了患者的学习和身心发展,因此及时高效地识别阅读障碍具有重要的意义。
[0003]由于阅读障碍的致病机理尚不明确,因此并不被认为是临床疾病,医院通常没有专门的诊疗服务。传统的阅读障碍诊断方法需要患者通过测试量表进行测试,再由专业人员根据测试结果进行评估。这类方法不仅效率低下,也具有较强的主观性。
[0004]在公开号为CN110827986A的中国专利申请中,公开了一种发展性阅读障碍筛查方法,包括如下步骤:获取目标对象执行指定阅读任务的目标语音数据以及目标语音数据对应的标签,其中,目标语音数据对应的标签为目标对象的标签,目标对象的标签包括人口统计学标签和/或低成就标签;根据目标语音数据以及目标语音数据对应的标签,确定能够表征目标对象患有发展性阅读障碍的风险等级的筛查结果。然而,该方法中仅涉及了语音和人口统计学信息,未考虑到用户阅读时的眼动信息和文本信息,以及各信息之间的信息交互,对于阅读障碍的诊断具有一定的局限性。

技术实现思路

[0005]本专利技术所要解决的首要技术问题在于提供一种阅读障碍识别模型的建模方法。
[0006]本专利技术所要解决的另一技术问题在于提供一种阅读障碍识别方法。
[0007]本专利技术所要解决的又一技术问题在于提供一种阅读障碍识别系统。
[0008]为实现上述技术目的,本专利技术采用以下的技术方案:
[0009]根据本专利技术实施例的第一方面,提供一种阅读障碍识别模型的建模方法,包括如下步骤:
[0010]基于预设的阅读文本库,采集多名健康用户和阅读障碍用户的多模态数据;其中,所述多模态数据至少包括结构化数据和参数化数据;
[0011]将所述结构化数据和所述参数化数据均转化为d维向量;
[0012]将所述结构化数据的d维向量进行MLP变换,以形成最终的结构化表征向量;并将所述参数化数据的d维向量进行特征融合和特征拼接,以形成最终的参数化表征向量;
[0013]将所述结构化表征向量与所述参数化表征向量进行拼接,并输入至最终的输出层,以输出预测结果;
[0014]建立输入与预测结果的映射关系,以构建初步的阅读障碍识别模型;
[0015]对所述初步的阅读障碍识别模型进行模型调参,以形成最终的阅读障碍识别模型;其中,d为正整数。
[0016]其中较优地,所述结构化数据至少包括:年龄、性别、地域以及受教育程度;
[0017]所述参数化数据至少包括:语音数据X
A
、眼动信息数据X
E
以及文本数据X
T

[0018]其中较优地,将所述参数化数据和结构化数据均转化为d维向量具体包括:
[0019]采用预设的语音模型将所述语音数据X
A
转化为L
A
*d
A
的矩阵,其中,L
A
表示当前音频的长度,d
A
表示每一个时间窗口内对应的向量表征的维度;
[0020]采用预设的眼动信息模型将所述眼动信息数据X
E
转化为L
E
*d
E
的矩阵,其中,L
E
表示当前信号的长度,d
E
是每一个时间窗口内眼动信号对应的向量表征的维度,d
E
与d
A
采用相同大小的时间窗口;
[0021]采用BERT训练模型将每段文本数据X
T
转化为L
T
*d
T
的矩阵,其中,L
T
表示被阅读文本的长度,d
T
表示BERT训练模型中每个词对应的向量维数;
[0022]通过一维卷积操作将不同模态的参数化数据统一转化为宽度为d的矩阵:其中,k
{A,E,T}
表示三个模态各自对应的卷积核大小;
[0023]采用BERT训练模型将所述结构化数据中的每项人口学信息分别转化为长度为d的向量。
[0024]其中较优地,所述特征融合和特征拼接过程,包括如下子步骤:
[0025]使用跨模态Transformer模型进行不同模态之间的特征融合,以使得所述语音数据X
A
、眼动信息数据X
E
以及文本数据X
T
三个模态数据均对应两个跨模态的融合特征;
[0026]将每个模态数据对应的两个跨模态融合特征进行拼接操作,以得到宽度为2d的特征表征向量Z
A
、Z
E
、Z
T

[0027]将所述特征表征向量Z
A
、Z
E
、Z
T
再分别经过Transformer转换,以形成每个模态数据最终的参数化表征向量。
[0028]其中较优地,所述模型调参过程,包括如下子步骤:
[0029]采用焦点损失(focal loss)作为初步的阅读障碍识别模型的训练目标,相应的学习目标函数如下:
[0030]Loss=

(1

p
t
)
γ
log(p
t
)
[0031]其中,γ表示一个超参,用于平衡不同类别之间的重要性;p
t
表示模型预测出的类别t的概率;
[0032]在训练过程中,通过随机梯度下降方法不断更新参数直至收敛,以得到最终的阅读障碍识别模型。
[0033]其中较优地,所述预设的眼动信息模型为基于公开的阅读眼动数据集建立的模型,用于实现用户阅读眼动预测,从而构造出带有用户阅读时眼动信号数据的多模态数据集。
[0034]根据本专利技术实施例的第二方面,提供一种阅读障碍识别方法,包括如下步骤:
[0035]获取用户输入的结构化数据,所述结构化数据至少包括:年龄、性别、地域以及受教育程度;
[0036]从预设的阅读文本库中获取阅读文本,并要求用户进行阅读;
[0037]在用户按照要求进行阅读的过程中,获取所述用户的参数化数据;
[0038]将所述结构化数据和所述参数化数据拼接后输入阅读障碍识别模型,以输出所述
用户具有阅读障碍的概率值;
[0039]判断所述概率值是否大于预设阈值,若大于,则所述用户具有阅读障碍,若不大于,则所述用户没有阅读障碍;
[0040]其中,所述阅读障碍识别模型由上述的建模方法构建而成。
[0041]其中较优地,获取所述用户的参数化数据,包括如下子步骤:
[0042]在用户按照要求进行阅本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种阅读障碍识别模型的建模方法,其特征在于包括如下步骤:基于预设的阅读文本库,采集多名健康用户和阅读障碍用户的多模态数据;其中,所述多模态数据至少包括结构化数据和参数化数据;将所述结构化数据和所述参数化数据均转化为d维向量;将所述结构化数据的d维向量进行MLP变换,以形成最终的结构化表征向量;并将所述参数化数据的d维向量进行特征融合和特征拼接,以形成最终的参数化表征向量;将所述结构化表征向量与所述参数化表征向量进行拼接,并输入至最终的输出层,以输出预测结果;建立输入与预测结果的映射关系,以构建初步的阅读障碍识别模型;对所述初步的阅读障碍识别模型进行模型调参,以形成最终的阅读障碍识别模型;其中,d为正整数。2.如权利要求1所述的建模方法,其特征在于:所述结构化数据至少包括:年龄、性别、地域以及受教育程度;所述参数化数据至少包括:语音数据X
A
、眼动信息数据X
E
以及文本数据X
T
。3.如权利要求2所述的建模方法,其特征在于将所述参数化数据和结构化数据均转化为d维向量,具体包括如下子步骤:采用预设的语音模型将所述语音数据X
A
转化为L
A
*d
A
的矩阵,其中,L
A
表示当前音频的长度,d
A
表示每一个时间窗口内对应的向量表征的维度;采用预设的眼动信息模型将所述眼动信息数据X
E
转化为L
E
*d
E
的矩阵,其中,L
E
表示当前信号的长度,d
E
是每一个时间窗口内眼动信号对应的向量表征的维度,并且d
E
与d
A
采用相同大小的时间窗口;采用BERT训练模型将每段文本数据X
T
转化为L
T
*d
T
的矩阵,其中,L
T
表示被阅读文本的长度,d
T
表示BERT训练模型中每个词对应的向量维数;通过一维卷积操作将不同模态的参数化数据统一转化为宽度为d的矩阵:其中,k
{A,E,T}
表示三个模态各自对应的卷积核大小;采用BERT训练模型将所述结构化数据中的每项人口学信息分别转化为长度为d的向量。4.如权利要求3所述的建模方法,其特征在于所述特征融合和特征拼接过程,包括如下子步骤:使用跨模态Transformer模型进行不同模态之间的特征融合,以使得所述语音数据X
A
、眼动信息数据X
E
以及文本数据X
T
三个模态数据均对应两个跨模态的融合特征;将每个模态数据对应的两个跨模态融合特征进行...

【专利技术属性】
技术研发人员:沈一马珠江刘川蔡龙军王晓怡
申请(专利权)人:浙江脑动极光医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1