刻板特异用语检测系统、方法、计算机设备和存储介质技术方案

技术编号:20242391 阅读:23 留言:0更新日期:2019-01-29 23:21
本申请涉及一种孤独症刻板特异用语检测系统,包括:采集模块:用于对被测目标人进行录音音频采集;语音识别模块:用于识别采集的所述音频,将所述音频内容转化为文本信息;文本特征提取模块:用于对所述文本信息进行特征提取并标记;训练分类模块:用于利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;预测模块:用于根据所述训练分类模块得到的检测结果进行判断是否存在孤独症刻板特异用语行为。采用该技术方案,能够通过计算机技术分析实际被测目标人的语言行为来检测被测目标人是否存在孤独症刻板特异用语行为。

【技术实现步骤摘要】
刻板特异用语检测系统、方法、计算机设备和存储介质
本申请涉及孤独症检测
,特别是涉及一种孤独症刻板特异用语检测系统、方法、计算机设备和存储介质。
技术介绍
孤独症谱系障碍,是近年来患病率不断增高的一种神经发育性障碍。被诊断为孤独症谱系障碍的患者,一般在社交互动、语言交流方面存在一定的障碍,并且经常伴有重复刻板行为动作。据医学研究显示,患有该疾病的婴幼儿往往在一岁半到两岁时就表现出一些明显的行为外表型特征。并且在国内外医学研究中,早期、及时的语言和行为层面的干预治疗也被证明可以改善和提高孤独症患者在认知和语言表达的能力。正因如此,早期及时的发现孤独症患者就变得尤为重要。但目前国内的大多数孤独症谱系障碍评估方法,都需要依靠专业的医师来进行长时间的观察。因此,我们目前需要设计出一套能够迅速、准确地进行孤独症异常语言用语检测的系统,来为婴幼儿提供帮助。刻板特异用语指标,被广泛用于孤独症诊断观察表ADOS单元三及其他不同量表中,作为一个重要的评分项。该评分项目主要关注的是被测目标人是否存在特定的语言缺陷,重在评估被测目标人在交互沟通中的语言内容,总体来说,该评分项主要是考察被测目标人是否过度地使用怪异和刻板的单字或短语。刻板特异用语这一评分项,主要是基于对话任务进行评分。在对话任务中,诊断医师根据要求,对被测目标人提出多个问题。在被测目标人对某个问题做出回答后,诊断医生会简单地展开回答内容继续询问。直到询问完所有表中规定问题,任务结束。如何利用现有的语音识别技术以及自然语言处理技术,来开展针对刻板特异用语的检测分类,对于研制计算机智能检测孤独症装置具有显著意义
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够检测被测目标人在自然交互和沟通中是否存在孤独症刻板特异用语行为的系统、方法、计算机设备和存储介质。一种孤独症刻板特异用语检测系统,包括:采集模块:用于对被测目标人进行录音音频采集;语音识别模块:用于识别采集的所述音频,将所述音频内容转化为文本信息;文本特征提取模块:用于对所述文本信息进行特征提取并标记;训练分类模块:用于利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;预测模块:用于根据所述训练分类模块得到的检测结果进行判断是否存在孤独症刻板特异用语行为。可选地,所述支持向量机模型用于对已标记的所述文本特征集进行分类器训练;所述最大熵模型是通过一系列特征函数fi(w,c)来计算标记结果c与文本中包含的所有词w后验概率P(c|w)的分类方法,计算式方式:其中λ和Z(w)分别代表权重和配分函数,将被测目标人的说话文本作为模型输入,以最大化后验概率P(c|w)为目标训练最大熵模型。可选地,选取二元文法为所述最大熵模型的特征函数,公式如下:函数gi用来描述二元文法(wj,wj+1)和预测结果c之间的联系,通过统计被测目标人文本中所有的二元文法来统计计算gi的值。可选地,所述预测模块用于分别在所述支持向量机模型得到的分数和最大熵模型得到分数结合权值参数α得到最后的模型检测分数:设定门限值,当检测分数大于所述门限值时,则判断为存在孤独症刻板特异用语行为。可选地,所述文本特征提取模块提取文本特征集包括语言模型特征、余弦相似性特征、依存关系特征中任一种或任几种组合。可选地,所述语言模型特征使用二阶马尔科夫链对语言模型进行化简,即将困惑度P(w1,w2,…,wm)改写为:其中,含有m个词组成的句子,语言模型描述词序列w1,w2,…,wm为按序联合的概率。可选地,所述余弦相似性特征用于提取鉴别所述文本信息中是否存在延迟性仿说现象的特征,包括:将文本转化成句向量,对于每一个句向量,计算其与文本中其他句向量的相似性,来判断是否存在延迟性仿说现象,利用句向量间的余弦距离来定义其相似性。可选地,所述依存关系特征用于比对文本中的依存关系与依存关系数据库中存在的所有依存关系,将所述依存关系数据库与文本中依存关系相同的依存关系统计值作为依存关系特征。另外,本专利技术还提供了一种孤独症刻板特异用语检测方法,包括:对被测目标人进行录音音频采集;识别采集的所述音频,将所述音频内容转化为文本信息;对所述文本信息进行特征提取并标记;利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为。可选地,所述支持向量机模型对已标记的所述文本特征集进行分类器训练;所述最大熵模型是通过一系列特征函数fi(w,c)来计算标记结果c与文本中包含的所有词w后验概率P(c|w)的分类方法,计算式方式:其中λ和Z(w)分别代表权重和配分函数,将被测目标人的说话文本作为模型输入,以最大化后验概率P(c|w)为目标训练最大熵模型。可选地,选取二元文法为所述最大熵模型的特征函数,公式如下:函数gi用来描述二元文法(wj,wj+1)和预测结果c之间的联系,通过统计被测目标人文本中所有的二元文法来统计计算gi的值。可选地,根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为,包括:分别在所述支持向量机模型得到的分数和最大熵模型得到分数结合权值参数α得到最后的模型检测分数:设定门限值,当检测分数大于所述门限值时,则判断为存在孤独症刻板特异用语行为。可选地,提取文本特征集包括语言模型特征、余弦相似性特征、依存关系特征中任一种或任几种组合。可选地,所述语言模型特征使用二阶马尔科夫链对语言模型进行化简,即将困惑度P(w1,w2,…,wm)改写为:其中,含有m个词组成的句子,语言模型描述词序列w1,w2,…,wm为按序联合的概率。可选地,所述余弦相似性特征:提取鉴别所述文本信息中是否存在延迟性仿说现象的特征,包括:将文本转化成句向量,对于每一个句向量,计算其与文本中其他句向量的相似性,来判断是否存在延迟性仿说现象,利用句向量间的余弦距离来定义其相似性。可选地,所述依存关系特征为比对文本中的依存关系与依存关系数据库中存在的所有依存关系,将所述依存关系数据库与文本中依存关系相同的依存关系统计值作为依存关系特征。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下所述方法的步骤:对被测目标人进行录音音频采集;识别采集的所述音频,将所述音频内容转化为文本信息;对所述文本信息进行特征提取并标记;利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下所述的方法的步骤:对被测目标人进行录音音频采集;识别采集的所述音频,将所述音频内容转化为文本信息;对所述文本信息进行特征提取并标记;利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为。上述孤独症刻板特异用语检测系统、方法、计算机设备和存储介质,通过基于语音识别本文档来自技高网
...

【技术保护点】
1.一种孤独症刻板特异用语检测系统,其特征在于,包括:采集模块:用于对被测目标人进行录音音频采集;语音识别模块:用于识别采集的所述音频,将所述音频内容转化为文本信息;文本特征提取模块:用于对所述文本信息进行特征提取并标记;训练分类模块:用于利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;预测模块:用于根据所述训练分类模块得到的检测结果进行判断是否存在孤独症刻板特异用语行为。

【技术特征摘要】
1.一种孤独症刻板特异用语检测系统,其特征在于,包括:采集模块:用于对被测目标人进行录音音频采集;语音识别模块:用于识别采集的所述音频,将所述音频内容转化为文本信息;文本特征提取模块:用于对所述文本信息进行特征提取并标记;训练分类模块:用于利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;预测模块:用于根据所述训练分类模块得到的检测结果进行判断是否存在孤独症刻板特异用语行为。2.如权利要求1所述的一种孤独症刻板特异用语检测系统,其特征在于,所述支持向量机模型用于对已标记的所述文本特征集进行分类器训练;所述最大熵模型是通过一系列特征函数fi(w,c)来计算标记结果c与文本中包含的所有词w后验概率P(c|w)的分类方法,计算式方式:其中λ和Z(w)分别代表权重和配分函数,将被测目标人的说话文本作为模型输入,以最大化后验概率P(c|w)为目标训练最大熵模型。3.如权利要求2所述的一种孤独症刻板特异用语检测系统,其特征在于,选取二元文法为所述最大熵模型的特征函数,公式如下:函数gi用来描述二元文法(wj,wj+1)和预测结果c之间的联系,通过统计被测目标人文本中所有的二元文法来统计计算gi的值。4.如权利要求3所述的一种孤独症刻板特异用语检测系统,其特征在于,所述预测模块用于分别在所述支持向量机模型得到的分数和最大熵模型得到分数结合权值参数α得到最后的模型检测分数:设定门限值,当检测分数大于所述门限值时,则判断为存在孤独症刻板特异用语行为。5.如权利要求1或2所述的一种孤独症刻板特异用语检测系统,其特征在于,所述文本特征提取模块提取文本特征集包括语言模型特征、余弦相似性特征、依存关系特征中任一种或任几种组合。6.如权利要求5所述的一种孤独症刻板特异用语检测系统,其特征在于,所述语言模型特征使用二阶马尔科夫链对语言模型进行化简,即将困惑度P(w1,w2,…,wm)改写为:其中,含有m个词组成的句子,语言模型描述词序列w1,w2,…,wm为按序联合的概率。7.如权利要求5所述的一种孤独症刻板特异用语检测系统,其特征在于,所述余弦相似性特征用于提取鉴别所述文本信息中是否存在延迟性仿说现象的特征,包括:将文本转化成句向量,对于每一个句向量,计算其与文本中其他句向量的相似性,来判断是否存在延迟性仿说现象,利用句向量间的余弦距离来定义其相似性。8.如权利要求5所述的一种孤独症刻板特异用语检测系统,其特征在于,所述依存关系特征用于比对文本中的依存关系与依存关系数据库中存在的所有依存关系,将所述依存关系数据库与文本中依存关系相同的依存关系统计值作为依存关系特征。9.一种孤独症刻板特异用语检测方法,其特征在于,包括:对被测目标人进行录音音频采集;识别采集的所述音频,将所述音频内容转化为文本...

【专利技术属性】
技术研发人员:李明邹小兵
申请(专利权)人:昆山杜克大学中山大学附属第三医院中山大学肝脏病医院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1