System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及基于语义识别的疾病风险预测,具体而言,涉及一种基于自然语言处理的疾病风险预测方法及系统。
技术介绍
1、在疾病风险预测领域,日常问诊数据作为重要的健康信息来源,能够反映出病患的症状、行为习惯及身体状况。
2、通过日常的问诊数据判断病患的疾病发展情况是重要环节,也为医疗人员增加了很多工作负担。现有技术开始逐渐引入语义识别进行辅助处理,减小医护工作者的工作量并提升销量。然而,由于病患主观表达的局限性,日常问诊数据中常存在描述不准确甚至前后矛盾等问题。例如,病患可能在不同语句中分别表示“没有发烧”和“体温有点高”,这种矛盾表达容易导致疾病风险预测模型产生误判。现有疾病风险预测方法大多直接将病患的问诊数据输入到模型中分析,未充分考虑矛盾信息的识别与可信度评估,可能会引入噪声数据,降低疾病预测的准确率。
3、因此,需要对基于语义识别的疾病风险进行优化,实现在疾病风险预测中对矛盾语句进行有效识别与处理,提升疾病风险预测的可靠性。
技术实现思路
1、本专利技术的目的在于提供一种基于自然语言处理的疾病风险预测方法及系统,其可以实现在疾病风险预测中对矛盾语句进行有效识别与处理。
2、本专利技术通过以下技术方案实现:
3、一种基于自然语言处理的疾病风险预测方法,包括以下步骤:
4、获取病患的日常问诊数据;
5、将日常问诊数据中病患的每句语句分别转换为的语句向量,将语句的每个词分别转换为的词向量;
6、通过
7、获取病患的病历数据,基于病历数据为矛盾语句的语句向量嵌入可信度,每组相互矛盾语句的两个语句的可信度之和为1,为不存在矛盾的语句向量嵌入可信度且可信度为1;
8、将嵌入可信度的矛盾语句放回日常问诊数据得到可信度标注数据,通过第二语义模型基于日常问诊数据进行疾病风险预测。
9、优选地,所述日常问诊数据通过周期性对病患进行问诊,并记载病患的自述病症。
10、优选地,所述通过第一语义模型进行矛盾语句识别的方法为:
11、通过输入层输入所述语句向量和词向量;
12、通过特征提取层获取第i个语句的语句向量和第j个语句的语句向量的相似度,以及基于词向量组获取第i个语句和第j个语句的矛盾词个数,,n为语句向量总数;
13、通过输出层输出第i个语句和第j个语句的互相矛盾概率,互相矛盾概率超出预设概率阈值则判断矛盾,将第i个语句和第j个语句作为相互矛盾语句进行提取。
14、优选地,获取第i个语句的语句向量和第j个语句的语句向量的相似度的方法为获取余弦相似度:
15、;
16、其中,t表示求向量的转置,代表求模。
17、优选地,基于词向量组获取第i个语句和第j个语句的矛盾词个数的方法为:
18、获取第i个语句的第p个词向量和第j个语句的的第p个词向量的余弦相似度:
19、;
20、;
21、其中,p为第i个语句的词向量总数,q为第j个语句的词向量总数;
22、设置词相似度阈值,获取所有余弦相似度中数值小于词相似度阈值的个数r,第i个语句和第j个语句的矛盾词个数为r。
23、优选地,所述输出层输出第i个语句和第j个语句的互相矛盾概率的方法为:
24、;
25、;
26、其中,为第i个语句和第j个语句的互相矛盾概率,e为自然常数,f为中间参数,为训练系数,为训练偏置。
27、优选地,所述基于病历数据为矛盾语句的语句向量嵌入可信度的方法为:
28、基于疾病数据库,根据所述病历数据获取患者所患疾病的所有症状;
29、将所述症状分别转换为1*n的症状语句向量;
30、获取相互矛盾语句的语句向量和;
31、分别获取语句向量和所有症状语句向量的余弦相似度:
32、;
33、;
34、其中,为语句向量和第个症状语句向量的余弦相似度,t表示求向量的转置,代表求模,l为症状语句向量的总数;
35、获取语句向量和所有症状语句向量的余弦相似度中的最大值;
36、分别获取语句向量和所有症状语句向量的余弦相似度:
37、;
38、;
39、其中,为语句向量和第个症状语句向量的余弦相似度;
40、获取语句向量和所有症状语句向量的余弦相似度中的最大值;
41、分别获取语句向量和的可信度:
42、;
43、;
44、其中,和分别为语句向量和的可信度,e为自然常数。
45、优选地,所述通过第二语义模型基于日常问诊数据进行疾病风险预测的方法为:
46、通过输入层输入可信度标注数据;
47、通过特征提取层构建特征矩阵:
48、;
49、;
50、;
51、其中,代表病患描述第种症状的语句的特征向量,,h为病患的疾病对应的问询症状总数,为病患描述第种症状的第u种语句的语句向量,为病患描述第种症状的第u种语句的语句向量的权重,v为病患描述第种症状的总语句数,和分别为病患描述第种症状的第u’种和第u种语句向量的可信度;
52、通过多层感知器mlp提取深层信息:
53、;
54、通过输出层的激活函数输出疾病有恶化风险的概率,并设置恶化概率阈值,输出的疾病有恶化风险的概率大于恶化概率阈值的时候发出预警。
55、优选地,所述通过输出层的激活函数输出疾病有恶化风险的概率的方法为:
56、;
57、其中,为疾病有恶化风险的概率,和分别为训练权重和偏置,e为自然常数,为多层感知器mlp提取的深层信息。
58、本专利技术还提供一种基于自然语言处理的疾病风险预测系统,应用于上述的一种基于自然语言处理的疾病风险预测方法,包括:
59、问诊数据获取模块,用于获取病患的日常问诊数据;
60、向量转换模块,将日常问诊数据中病患的每句语句分别转换为的语句向量,将语句的每个词分别转换为的词向量;
61、矛盾识别模块,通过第一语义模型进行矛盾语句识别,提取出矛盾语句对,每对矛盾语句对包括两句相互矛盾语句;
62、可信度获取模块,获取病患的病历数据,基于病历数据为矛盾语句的语句向量嵌入可信度,每组相互矛盾语句的两个语句的可信度之和为1,为不存在矛盾的语句向量嵌入可信度且可信度为1;
63、风险预测模块,将嵌入可信度的矛盾语句放回日常问诊数据得到可信度标注数据,通过第二语义模型基于日常问诊数据进行疾病风险预测。
64、本专利技术的技术方案至少具有如下优点和有益效果:
6本文档来自技高网...
【技术保护点】
1.一种基于自然语言处理的疾病风险预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,所述日常问诊数据通过周期性对病患进行问诊,并记载病患的自述病症。
3.根据权利要求1所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,所述通过第一语义模型进行矛盾语句识别的方法为:
4.根据权利要求3所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,获取第i个语句的语句向量和第j个语句的语句向量的相似度的方法为获取余弦相似度:
5.根据权利要求4所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,基于词向量组获取第i个语句和第j个语句的矛盾词个数的方法为:
6.根据权利要求5所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,所述输出层输出第i个语句和第j个语句的互相矛盾概率的方法为:
7.根据权利要求1所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,所述基于病历数据为矛盾语句的语句向量嵌入可信度的方法为:
8.根
9.根据权利要求8所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,所述通过输出层的激活函数输出疾病有恶化风险的概率的方法为:
10.一种基于自然语言处理的疾病风险预测系统,应用于权利要求1-9任意一项所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,包括:
...【技术特征摘要】
1.一种基于自然语言处理的疾病风险预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,所述日常问诊数据通过周期性对病患进行问诊,并记载病患的自述病症。
3.根据权利要求1所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,所述通过第一语义模型进行矛盾语句识别的方法为:
4.根据权利要求3所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,获取第i个语句的语句向量和第j个语句的语句向量的相似度的方法为获取余弦相似度:
5.根据权利要求4所述的一种基于自然语言处理的疾病风险预测方法,其特征在于,基于词向量组获取第i个语句和第j个语句的矛盾词个数的方法为:
6.根据权利要求5所述...
【专利技术属性】
技术研发人员:叶娟,罗彬,
申请(专利权)人:四川互慧软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。