System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术融合了医学、信息科学以及计算机应用等领域的知识,专利技术了一种基于多源异构数据融合的类风湿性性关节炎辅助分类模型训练方法及分类方法。
技术介绍
1、类风湿关节炎(rheumatoid arthritis,ra)是一种以手、足小关节的多关节、对称性、侵蚀性关节炎症为主要表现的全身性免疫风湿疾病.ra发病率高达0.3%~1%,是一种难治性疾病,病程反复、缠绵不愈、致残率高,可累及全身多个系统,严重危害人类健康。随着信息技术的进步,利用数据科学来加强医疗保健和疾病管理的需求正在迅速增加。在风湿免疫疾病的诊断中,计算机辅助诊断也面临很多问题,如:类风湿性关节炎疾病的数据通常包含不同来源不同结构的数据,这使得数据分析和模型构建变得复杂。
技术实现思路
1、本专利技术提出一种类风湿性关节炎辅助分类模型训练方法及分类方法,将类风湿性关节炎数据分为结构化数据与非结构化数据,分别对两部分数据进行处理,并进行特征级的融合,基于融合特征进行分类与诊断,辅助医生识别,提高准确率。
2、为了实现上述目的,本专利技术所采用的技术方案为:一种基于多源异构数据融合的类风湿性关节炎辅助分类模型训练方法,包括以下步骤:
3、对类风湿性关节炎疾病的多源异构数据中的结构化数据特征工程,对结构化数据进行数据清洗、特征编码,提取结构化数据的数据类别和特征属性,得到结构化数据的特征矩阵;
4、提取类风湿性关节炎疾病的多源异构数据中非结构化数据,对命名实体进行标注,采用bilstm+
5、基于所得命名实体短语,对文本数据进行分词,生成类风湿性关节炎的领域词表;使用类风湿性关节炎的领域词表对原始文本数据进行分词与编码,构建文本数据的编码表示;
6、将文本数据的编码表示作为输入,使用bert模型+标签嵌入的方法进行编码与分类,得到非结构化数据部分的分类结果及其置信度;
7、将非结构化数据的分类结果与结构化数据的特征矩阵合并得到新的融合特征矩阵,新的融合特征矩阵作为输入使用支持向量机进行最终分类;
8、对新增数据中非结构化数据分类部分进行命名实体识别,更新类风湿性关节炎领域词表;对多源异构数据特征级融合后的数据样本计算边际损失,当损失大于给定的阈值τ,则将所述数据样本纳入支持向量集合,并更新支持向量集合和对应的标签;训练并更新支持向量机。
9、进一步的,类风湿性关节炎疾病的多源异构数据包括电子病历、实验室值、医学测试结果。
10、进一步的,提取类风湿性关节炎疾病的多源异构数据中非结构化数据,对命名实体进行标注,采用用bilstm+crf进行命名实体识别,并拼接得到与类风湿性关节炎症状匹配的命名实体短语包括:
11、对提取的类风湿关节炎症状数据中每个实体进行标注,使用bio标注法对实体开始的位置、内部位置以及非实体位置进行标注;
12、将文本数据与相应的标注数据集作为输入,使用bilstm+crf模型进行命名实体识别任务;
13、根据识别的命名实体进行重新拼接,得到实体短语。
14、进一步的,基于所得命名实体短语,对文本数据进行分词,生成类风湿性关节炎的领域词表;使用类风湿性关节炎的领域词表对原始文本数据进行分词与编码,构建文本数据的编码表示包括:
15、根据命名实体再拼接后的实体短语生成类风湿性关节炎领域词汇表,每个词汇短语在类风湿性关节炎领域词汇表中有唯一的位置;
16、对非结构化文本原始数据进行命名实体识别,命名实体识别得到的实体内容重新拼接成实体短语;
17、将所得实体短语作为输入,使用类风湿性关节炎领域词汇表进行编码,将每个词映射为对应的向量表示,构建文本数据的编码表示。
18、进一步的,对非结构化文本原始数据进行命名实体识别,命名实体识别得到的实体内容重新拼接成实体短语时,按设定规则entity=(b+i)or n,n={1,2,3,4,5}拼接,具体地,对应生成词表时规则,拼接时数字位置信息按规则单独进行处理;生成词表时规则为:
19、entity=b+i
20、其中b、i分别表示实体标注中别标注为b和i的部分。
21、进一步的,将文本数据的编码表示作为输入,使用bert模型+标签嵌入的方法进行编码与分类,得到非结构化数据部分的分类结果及其置信度包括:
22、文本数据的编码表示作为输入,使用预训练的bert模型对所述输入进行编码,经过bert模型的多层transformer编码,获取文本的语义表示,bert模型用于捕获文本中的丰富信息,如上下文信息,并将文本转换为高维向量表示;
23、对每个类别的标签进行嵌入编码,得到标签的嵌入向量;
24、将bert模型提取的文本高维向量表示与标签的嵌入向量进行结合,通过对两个向量进行逐元素乘积,结合后的向量将同时包含文本特征和标签信息;
25、将结合后的向量输入到全连接层进行非结构化数据基于置信度的分类,得到分类结果及其置信度。
26、进一步的,将增量学习引入多源异构数据融合与分类,采用增量式支持向量机分类,增量式支持向量机的具体步骤如下:
27、获取新数据并根据数据结构分为结构化数据与非结构化数据;
28、对非结构化数据进行命名实体识别,并根据识别结果将新出现的实体短语加入类风湿性关节炎的领域词表,更新类风湿性关节炎的领域词表;
29、将非结构化数据基于置信度的分类结果与结构化数据的特征矩阵合并得到新的特征矩阵,并计算特征矩阵的边际损失,如果所述边际损失大于设定的阈值τ,则将所述数据样本纳入支持向量集合,更新支持向量集合和对应的标签;
30、根据新的支持向量集合和对应的标签,使用随机梯度下降法更新支持向量机模型及其参数。
31、本专利技术同时提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现本专利技术所述类风湿性关节炎辅助分类模型训练方法。
32、同时提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本专利技术所述的类风湿性关节炎辅助分类模型训练方法。
33、本专利技术还提供一种类风湿关节炎辅助分类方法,获取待分类的类风湿性关节炎疾病的多源异构数据,将待分类的类风湿性关节炎疾病的多源异构数据分为非结构化数据和结构化数据,将所述非结构化数据和结构化数据作为本专利技术所述类风湿性关节炎辅助分类模型的输入,得到分类结果及其置信度。
34、与现有技术相比,本专利技术至少具有以下有益效果:
35、本专利技术对类风湿性关节炎数据进行多源异构数据特征级融合,解决数据之间的异构性问题,实现更好的集成效果;非结构化文本数据通过bilst本文档来自技高网...
【技术保护点】
1.一种类风湿性关节炎辅助分类模型训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的类风湿关节炎辅助分类模型训练方法,其特征在于,类风湿性关节炎疾病的多源异构数据包括电子病历、实验室值、医学测试结果。
3.根据权利要求1所述的类风湿关节炎辅助分类模型训练方法,其特征在于,提取类风湿性关节炎疾病的多源异构数据中非结构化数据,对命名实体进行标注,采用用BiLSTM+CRF进行命名实体识别,并拼接得到与类风湿性关节炎症状匹配的命名实体短语包括:
4.根据权利要求1所述的类风湿关节炎辅助分类模型训练方法,其特征在于,基于所得命名实体短语,对文本数据进行分词,生成类风湿性关节炎的领域词表;使用类风湿性关节炎的领域词表对原始文本数据进行分词与编码,构建文本数据的编码表示包括:
5.根据权利要求4所述的类风湿关节炎辅助分类模型训练方法,其特征在于,对非结构化文本原始数据进行命名实体识别,命名实体识别得到的实体内容重新拼接成实体短语时,按设定规则Entity=(B+I)or N,N={1,2,3,4,5}拼接,具体地,对应生成词表时规则
6.根据权利要求1所述的类风湿关节炎辅助分类模型训练方法,其特征在于,将文本数据的编码表示作为输入,使用BERT模型+标签嵌入的方法进行编码与分类,得到非结构化数据部分的分类结果及其置信度包括:
7.根据权利要求1所述的类风湿关节炎辅助分类模型训练方法,其特征在于,将增量学习引入多源异构数据融合与分类,采用增量式支持向量机分类,增量式支持向量机的具体步骤如下:
8.一种计算机设备,其特征在于,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现权利要求1-7任一项所述中类风湿性关节炎辅助分类模型训练方法。
9.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现如权利要求1-7任一项所述类风湿性关节炎辅助分类模型训练方法。
10.一种类风湿关节炎辅助分类方法,其特征在于,获取待分类的类风湿性关节炎疾病的多源异构数据,将待分类的类风湿性关节炎疾病的多源异构数据分为非结构化数据和结构化数据,将所述非结构化数据和结构化数据作为如权利要求1-7任一项所得类风湿性关节炎辅助分类模型的输入,得到分类结果及其置信度。
...【技术特征摘要】
1.一种类风湿性关节炎辅助分类模型训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的类风湿关节炎辅助分类模型训练方法,其特征在于,类风湿性关节炎疾病的多源异构数据包括电子病历、实验室值、医学测试结果。
3.根据权利要求1所述的类风湿关节炎辅助分类模型训练方法,其特征在于,提取类风湿性关节炎疾病的多源异构数据中非结构化数据,对命名实体进行标注,采用用bilstm+crf进行命名实体识别,并拼接得到与类风湿性关节炎症状匹配的命名实体短语包括:
4.根据权利要求1所述的类风湿关节炎辅助分类模型训练方法,其特征在于,基于所得命名实体短语,对文本数据进行分词,生成类风湿性关节炎的领域词表;使用类风湿性关节炎的领域词表对原始文本数据进行分词与编码,构建文本数据的编码表示包括:
5.根据权利要求4所述的类风湿关节炎辅助分类模型训练方法,其特征在于,对非结构化文本原始数据进行命名实体识别,命名实体识别得到的实体内容重新拼接成实体短语时,按设定规则entity=(b+i)or n,n={1,2,3,4,5}拼接,具体地,对应生成词表时规则,拼接时数字位置信息按规则单独进行处理;生成词表时规则为:
6.根据权利要求1所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。