当前位置: 首页 > 专利查询>中山大学专利>正文

基于神经网络和自然对话的阿尔兹海默症风险预估方法技术

技术编号:33730771 阅读:81 留言:0更新日期:2022-06-08 21:26
本发明专利技术公开一种基于神经网络和自然对话的阿尔兹海默症风险预估方法,属于人工智能识别、语言学分析领域。其包括采集测试者的有效自由表达,使用语言处理软件ELAN对语料进行转写、切分和标注;利用Token embedding将处理内容转化为数据并建立多模态语料库;利用CNN神经网络模型与LSTM神经网络模型进行文本分析,作为预估阿尔兹海默症的数据。本发明专利技术采用Token embedding方法实现语料信息的特征提取,为识别模型增加多模态的语言标志物和语言模式作为输入因素;因此具有较高的识别准确率和抗人为因素干扰的能力。本发明专利技术可减轻患者检查时的身体和心理负担,缩短检查周期,降低实验成本,有利于大规模推广。有利于大规模推广。有利于大规模推广。

【技术实现步骤摘要】
基于神经网络和自然对话的阿尔兹海默症风险预估方法


[0001]本专利技术涉及人工智能识别、语言学分析领域,更具体地,涉及一种基于神经网络和自然对话的阿尔兹海默症风险预估方法。

技术介绍

[0002]阿尔兹海默症是一种起病隐匿的进行性发展的神经系统退行性疾病。年龄每增加五岁,阿尔兹海默症的患病率约增加一倍。随着人口的老龄化,阿尔兹海默症的发病率逐年上升,严重危害老年人的身心健康和生活质量,给患者及家人造成了深重的痛苦,也给家庭和社会带来负担,成为严重的社会问题。
[0003]但与此同时,阿尔兹海默症的潜伏期极长,且病因迄今未明,目前也没有确定的技术手段可以完全治愈该疾病。因此,阿尔兹海默症的预测成了控制该疾病的关键手段。
[0004]目前,针对阿尔兹海默症的预测方法主要有神经影像学检查、相关基因的检查预测等,但这些预测方法普遍检查周期长、工程量大而且可能会对患者造成严重的生理及心理负担,在大规模应用上具有一定的难度。
[0005]为减轻患者检查的生理及心里负担,进一步考虑低侵入性的手段。中国专利“CN113951834A基于视觉Transformer算法的阿尔兹海默症分类预测方法”通过对阿尔兹海默症患者的核磁共振成像的图像样本进行AC

PC矫正等预处理,进而通过训练好的卷积神经网络模型进行分类预测,实现了对阿尔兹海默症的分类预测,但其算法存在手动提取特征带来的主观性问题。
[0006]中国专利“CN113935330A基于语音的疾病预警方法、装置、设备及存储介质”,通过对收集的目标语音数据进行切片、编码、转换,实现对语义的提取,并通过统计学方法实现对早期的阿尔兹海默症潜在患者的筛查,但通过统计学方法进行处理,需要大量的实验样本,成本较大。

技术实现思路

[0007]为解决
技术介绍
提出的问题,如针对手动提取特征可能带来的主观性问题和统计方法的高成本问题,本专利技术提出了一种基于神经网络和自然对话的阿尔兹海默症风险预估方法。
[0008]为实现上述目的,本专利技术的技术方案如下;
[0009]本专利技术基于神经网络和自然对话的阿尔兹海默症风险预估方法,包括采集阿尔兹海默症测试者的自由表达语料,使用语言处理软件ELAN对语料进行转写、切分和标注;利用目前通用的语音、图像识别文字转化系统和标记嵌入(Token embedding)将文本内容转化为数据并建立多模态语料库;利用卷积神经网络(CNN)模型与长短期记忆神经网络(LSTM)模型用于文本分析,作为预估阿尔兹海默症的数据。
[0010]上述基于神经网络和自然对话的阿尔兹海默症风险预估方法具体包括以下步骤:
[0011]S1.采集至少20名阿尔兹海默症测试者10分钟的有效自由表达语料,利用标记嵌
入(Token embedding)将文本内容转化为数据;
[0012]S2.根据S1中的数据制成数据集,进行预处理及归一化得到特征数据集,将其按照3:1随机分配成训练数据集、测试数据集;
[0013]其中特征数据集规模为E个的一维张量,E为整数,表示语义、语法、顺序、句法等语言标志物和语言模式;
[0014]S3.根据数据集规模和输出要求构建CNN神经网络模型,应用S2中的训练数据集进行训练进一步应用测试数据集对此模型进行测试检验;
[0015]S4.将S1中的数据进行随机处理,得到含有时间序列的训练样本数据集、测试样本数据集,其中,数据集规模为F个二维张量,其中F为整数,表示包含有时间序列的语义、语法、顺序、句法等语言标志物和语言模式;
[0016]S5.根据数据集规模和输出要求构建LSTM神经网络模型,应用S4中的训练样本数据集进行训练,进一步应用测试样本数据集对此模型进行测试检验;
[0017]S6.将通过步骤S3中的CNN神经网络模型处理的输出值及通过步骤S5中的LSTM神经网络模型处理的输出值并列组成矩阵,作为输入值,进行一层全连接层处理,通过两层隐藏层,输出最终结果以one

hot形式表达,作为预估阿尔兹海默症的数据,辅助医生对阿尔兹海默症的诊断。
[0018]上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S1中所述阿尔兹海默症测试者的要求是:老年和老年前期的人群,主要为60

65岁的老年群体,能够进行语言表达,身体状况基本良好,测试者男女基本比例为1:1。
[0019]另外所述采集到的有效自由表达语料,先利用目前通用的语音、图像识别文字转化系统转化得到多个包含语料信息的语言文本文档,再应用Token embedding方法将文本内容转化为数据。
[0020]所述应用Token embedding方法将文本内容转化为数据即应用Token embedding方法对语料信息进行特征提取,得到语言文本的矩阵,具体为包括:
[0021]S11.依据采集到的语料信息确定文本中的句子最大长度,对于文本中长度不同的文本句子进行长裁短补,生成词典;
[0022]S12.将词典的词做个词频排列,得到规模为n
×
1的单词组合,针对每个单词进行数值赋值,赋值保证每个单词对应不同的数字;
[0023]S13.将每个数字转化成规模为1
×
m浮点数组合,从而得到一个n
×
m形式的矩阵;将每个维度作为一个特征,其相应的强烈程度决定了小数的大小、正负;
[0024]S14.将句子的每个词对应的数字的行取出,按顺序转置为列,得到语言文本的矩阵。
[0025]上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S3中所述构建CNN神经网络模型是:针对于步骤S2得到的数据及集规模构建多个卷积层,具体参数如下:卷积核为32个随机的m
×
1矩阵,步长为1,不进行插空卷积,通过如上卷积层得到32个二维张量,通过对每个张量进行比较得到每个的全局最大值,以全局最大值为依据设计全连接层的分配权重,将卷积后得到的二维张量通过全连接层和两层隐藏层处理,得到one

hot形式的输出结果。
[0026]上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S3中所述训
练CNN神经网络模型是将步骤S2中的训练数据集放入构建好的CNN神经网络模型中进行训练,通过梯度下降法不断调整权重和偏置,使代价函数最终波动在误差允许范围内,此时即生成了适宜的CNN神经网络模型。
[0027]上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S3中所述测试是将测试数据集放入生成的CNN神经网络模型中进行检测,检验测试效果;若测试得到的误差,在训练误差周围波动,即测试效果良好;反之,则进一步调整CNN神经网络模型的结构或参数。
[0028]上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S5中构建LSTM神经网络模型:对步骤S1中数据进行归一化如下处理:
[0029][本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于神经网络和自然对话的阿尔兹海默症风险预估方法,其特征在于:采集阿尔兹海默症测试者的有效自由表达语料,使用语言处理软件ELAN对语料进行转写、切分和标注;利用目前通用的语音、图像识别文字转化系统和标记嵌入(Token embedding)将文本内容转化为数据并建立多模态语料库;利用卷积神经网络(CNN)模型与长短期记忆神经网络(LSTM)模型的复合模型进行文本分析,作为预估阿尔兹海默症的数据。2.根据权利要求1所述的方法,其特征在于:具体包括以下步骤:S1.采集至少20名阿尔兹海默症测试者10分钟的有效自由表达语料,将语料载入ELAN,进行话语转写、切分和标注,利用Token embedding将文本内容转化为数据,形成多模态语料库;S2.根据S1中的数据制成数据集,进行预处理及归一化得到特征数据集,将其按照3:1随机分配成训练数据集、测试数据集;其中特征数据集规模为E个的一维张量,E为整数,表示语言标志物和语言模式;S3.根据数据集规模和输出要求构建CNN神经网络模型,应用S2中的训练数据集进行训练进一步应用测试数据集对此模型进行测试检验;S4.将S1中的数据进行随机处理,得到含有时间序列的训练样本数据集、测试样本数据集,其中,数据集规模为F个二维张量,其中F为整数,表示包含有时间序列的语言标志物和语言模式;S5.根据数据集规模和输出要求构建LSTM神经网络模型,应用S4中的训练样本数据集进行训练,进一步应用测试样本数据集对此模型进行测试检验;S6.将通过步骤S3中的CNN神经网络模型处理的输出值及通过步骤S5中的LSTM神经网络模型处理的输出值并列组成矩阵,作为输入值,进行一层全连接层处理,通过两层隐藏层,输出最终结果以热点分布(one

hot)形式表达,作为预估阿尔兹海默症的数据,辅助医生对阿尔兹海默症的诊断。3.根据权利要求2所述的方法,其特征在于:步骤S1中所述阿尔兹海默症测试者的要求是:老年和老年前期的人群,主要为60

65岁的老年群体,能够进行语言表达,身体状况基本良好,测试者男女基本比例为1:1。4.根据权利要求2所述的方法,其特征在于:步骤S1中所述采集到的有效自由表达语料,先利用目前通用的语音、图像识别文字转化系统转化得到多个包含语料信息的语言文本文档,再应用Token embedding方法将文本内容转化为数据。5.根据权利要求4所述的方法,其特征在于:所述应用Token embedding方法将文本内容转化为数据...

【专利技术属性】
技术研发人员:王欣彭同艳黄松键王安琪陈泽森姚清河
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1