一种面向AD量表书写能力检测的文本语义分析自动评价系统技术方案

技术编号：25599869 阅读：58 留言：0更新日期：2020-09-11 23:57

本发明专利技术公开一种面向AD量表书写能力检测的文本语义分析自动评价系统，主要包括待评估语料输入模块、训练语料获取模块、语料预处理模块、语法完整性判断模块、语义通顺度分析模块和数据库；本发明专利技术结合受试者所写中文语句的语法成分完整性和语义通顺度，判断语句是否可理解，进而判断受试者是否具有基本的书写能力，有效提高了中文语句可理解度的判断效率和准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向AD量表书写能力检测的文本语义分析自动评价系统
本专利技术涉及认知障碍人群基本书写能力评价，具体是一种面向AD量表书写能力检测的文本语义分析自动评价系统。
技术介绍
基本书写能力评价是简易智力状态检查量表(MMSE)的一项重要内容，通过让疑似患有认知障碍疾病的受试者手写一句话并判断这句话的可理解度，衡量受试者的书写能力与认知水平，对受试者病情诊断具有重要参考意义。基本书写能力评价的测试内容为：请受试者写出一句：(1)有主语；(2)有动词；(3)语义通顺的中文语句。标准(1)、(2)即要求语句的语法完整，标准(3)即要求语句的语义通顺。若受试者能够按以上三条要求写出语句，则判断其具有基本书写能力，在MMSE中该项计1分，否则计0分。现有的评价方法包括人工评价和使用语言模型计算困惑度。进行人工评价时，虽然MMSE量表已有关于中文语句可理解度评价的相应标准，但实际诊断中医生在短时间内对大量被测语句给出的评分仍带有一定的主观性，使量表诊断的可信度受到影响。使用语言模型时，计算困惑度的准确率在60％～70％左右，准确率较低的原因有两点，首先是语言模型的局限性。语言模型中，表征句子是否可理解的“困惑度”指标仅能反应句子的语义通顺度，而在汉语表达中，部分语义清晰的句子并无主语、动词(如祈使句)。诊断中，部分受试者已丧失区分中文语句的语法要素的能力，写出诸如“把灯打开。”、“你好。”等语句，此类语句虽不符合“含主语、动词的要求”，但因语义通顺而被语言模型判断得分。在这种情况下，语言模型无法准确评估受试者的基本...

【技术保护点】
1.一种面向AD量表书写能力检测的文本语义分析自动评价系统，其特征在于：主要包括所述待评估语料输入模块、训练语料获取模块、测试语料获取模块、语料预处理模块、语法完整性判断模块、语义通顺度分析模块、评估结果输出模块和数据库。/n所述待评估语料输入模块获取受试者待评估的书写语料，并输入至语料预处理模块；/n所述训练语料获取模块具有训练语料库；所述训练语料获取模块获取若干训练语料，分别建立基础语料集B和日常对话语料集D＝[D1，D2，…，Dw]，并存储在训练语料库中；Dr为第r个日常对话语料子集；r＝1，2，…，w；/n所述测试语料获取模块获取所述受试者已评估的书写语料，并作为测试样本输入至语义通顺度分析模块；/n所述语料预处理模块调取训练语料库的语料，并进行预处理，得到预处理后的基础语料集B'和日常对话语料集D'，并发送至语义通顺度分析模块；/n所述语法完整性判断模块判断受试者待评估书写语料的语法是否完整，并发送至评估结果输出模块；/n所述语义通顺度分析模块根据预处理后的基础语料集B'、日常对话语料集D'和测试样本建立N-gram模型；/n所述语义通顺度分析模块利用N-gram模型判断受试...

【技术特征摘要】
1.一种面向AD量表书写能力检测的文本语义分析自动评价系统，其特征在于：主要包括所述待评估语料输入模块、训练语料获取模块、测试语料获取模块、语料预处理模块、语法完整性判断模块、语义通顺度分析模块、评估结果输出模块和数据库。
所述待评估语料输入模块获取受试者待评估的书写语料，并输入至语料预处理模块；
所述训练语料获取模块具有训练语料库；所述训练语料获取模块获取若干训练语料，分别建立基础语料集B和日常对话语料集D＝[D1，D2，…，Dw]，并存储在训练语料库中；Dr为第r个日常对话语料子集；r＝1，2，…，w；
所述测试语料获取模块获取所述受试者已评估的书写语料，并作为测试样本输入至语义通顺度分析模块；
所述语料预处理模块调取训练语料库的语料，并进行预处理，得到预处理后的基础语料集B'和日常对话语料集D'，并发送至语义通顺度分析模块；
所述语法完整性判断模块判断受试者待评估书写语料的语法是否完整，并发送至评估结果输出模块；
所述语义通顺度分析模块根据预处理后的基础语料集B'、日常对话语料集D'和测试样本建立N-gram模型；
所述语义通顺度分析模块利用N-gram模型判断受试者待评估书写语料的语义是否通顺，并发送至评估结果输出模块；
所述评估结果输出模块接收语法完整性判断模块、语义通顺度分析模块的评估结果，当受试者待评估书写语料语法完整且语义通顺时，判断待评估书写语料可理解，输出受试者具有基本的书写能力的评估结果，反之，判断待评估书写语料不可理解，输出受试者不具有基本的书写能力的评估结果；
所述数据库存储待评估语料输入模块、训练语料获取模块、语料预处理模块、语法完整性判断模块、语义通顺度分析模块的数据。

2.根据权利要求1或2所述的一种面向AD量表书写能力检测的文本语义分析自动评价系统，其特征在于，获取若干训练语料的主要步骤如下：
1)利用网络爬虫在网络中获取若干基础语料，并写入基础语料集B中；所述基础语料覆盖所有类型语法且表达正确；所述基础语料集B存储在训练语料库中；
2)获取若干日常对话语料，主要步骤为：
2.1)获取所述受试者在过去t时间内书写的语料样本；
2.2)对所述语料样本进行分词，得到若干分词样本；
2.3)对所有分词进行词频统计，并按词频降序写入分词集W中；
2.4)提取分词集W中前w个分词，获取所述w个分词的近义词，并写入关键词集J＝{j1，j2，…，jw}中；其中关键词子集jr内存储第r个分词和第r个分词的近义词；r＝1，2，…，w；
2.5)以关键词子集jr内所有元素为搜索关键词，利用网络爬虫在日常对话语料库中获取与关键词子集jr中任意元素相关联语料，并写入第r个日常对话语料子集Dr中；所述日常对话语料子集Dr存储在训练语料库中；r初始值为1；相关联的判断标准为语句中存在关键词子集jr中任意元素；
2.6)令r＝r+1，并返回步骤2.5)，直至建立日常对话语料集D＝[D1，D2，…，Dw]。

3.根据权利要求2所述的一种面向AD量表书写能力检测的文本语义分析自动评价系统，其特征在于，所述日常对话语料库包括TheNUSSMSCorpus、ChatterBot、DatasetsforNaturalLanguageProcessing、华为诺亚实验室中文对话语料库、现代汉语语料库；其中，现代汉语语料库来源于语料库在线网站。

4.根据权利要求1所述...

【专利技术属性】
技术研发人员：杨知方，吕洋，黄子蒙，李嘉琪，房欣欣，张秉宸，陈晨曦，李文沅，余娟，
申请(专利权)人：重庆大学，重庆医科大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人