一种病例文本的结构化方法及系统技术方案

技术编号：40483803 阅读：4 留言：0更新日期：2024-02-26 19:17

本发明专利技术公开一种病例文本的结构化方法及系统，该方法包括：获取输入文本，通过词嵌入方法，将所述输入文本中每个词映射为向量表示，并生成输入文本序列；构建LSTM模型，通过训练数据训练LSTM模型的参数，将所述输入文本序列输入到LSTM模型，并生成多个时间步的隐藏状态；构建注意力机制模型Attention，并根据多个时间步的所述隐藏状态，生成每个所述隐藏状态的注意力得分，并通过归一化指数函数，计算每个所述隐藏状态的注意力权重，根据所述注意力权重计算加权后的隐藏状态序列；构建随机场模型CRF，并根据所述加权后的隐藏状态序列，计算标签序列的条件概率分布。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于病例文本的结构化，更具体地，涉及一种病例文本的结构化方法及系统。

技术介绍

1、病案资料是医务人员在医疗活动过程中形成的文字材料、图表、图像、影像等资料的总和。病历资料作为医疗活动的重要的取证材料起着其它资料无法替代的作用，其完整性也极为关键。一份完整的病案资料包括:病案首页、入院记录/住院志、病程记录、手术记录(包括麻醉记录、手术报告、手术后病程记录)、出院记录/出院小结、特殊病情治疗记录单、会诊记录、病理检查报告单、化验单/检验报告)体温单、医学影像检查报告单、医嘱单、体温单、护理记录单、知情同意书等。病案资料分类复杂，对于排序要求严格，其产生涉及临床医生、护士、医技科室、手术室、麻醉室、相关会诊科室等，因此完整性很难保证，通过人工整理归档，很容易出现缺项漏项情况。

2、因此亟需一种能够将病例文本结构化的技术方案。

技术实现思路

1、为解决以上技术问题，本专利技术提出一种病例文本的结构化方法，包括：

2、获取输入文本，通过词嵌入方法，将所述输入文本中每个词映射为向量表示，并生成输入文本序列；

3、设置文本结构化模型，通过带标签的训练数据集训练所述文本结构化模型，将所述输入文本序列输入到所述文本结构化模型，并进行前向传播，生成与所述输入文本序列相对应标签序列的条件概率分布，通过所述条件概率分布，完成文本的结构化；其中，所述文本结构化模型包括：

4、构建lstm模型，通过训练数据训练lstm模型的参数，将所述输入文本序列

5、构建注意力机制模型attention，并根据多个时间步的所述隐藏状态，生成每个所述隐藏状态的注意力得分，并通过归一化指数函数，计算每个所述隐藏状态的注意力权重，根据所述注意力权重计算加权后的隐藏状态序列；

6、构建随机场模型crf，并根据所述加权后的隐藏状态序列，计算标签序列的条件概率分布。

7、进一步的，所述文本结构化模型为：

8、p(y||t)＝crf(attention(lstm(t,θ),w),a)

9、其中，p(y|t)为给定输入文本序列t时，标签序列y的条件概率，y为标签序列，t为输入文本序列，θ为长短时记忆神经网络模型的参数，w为注意力机制模型的参数，attention为注意力机制模型，lstm为长短时记忆神经网络模型，crf为条件随机场模型，a为转移矩阵。

10、进一步的，长短时记忆神经网络模型lstm的步骤为：

11、t＝[t1，t2，…，tn]

12、h＝[h1，h2,…,hn]

13、hi＝lstm(ti，hi-1；θ)

14、其中，ti为第i个输入文本，hi为第i个时间步的隐藏状态，hi-1为第i-1个时间步的隐藏状态，n为数量，h为隐藏状态序列。

15、进一步的，注意力机制模型attention的步骤为：

16、c＝[c1,c2,…,cn]

17、ei＝attention(hi，h；w)

18、αi＝softmax(ei)

19、ci＝∑(αi*hi)

20、其中，ci为第i个加权后的隐藏状态，αi为第i个注意力权重，ei第i个注意力得分，softmax为归一化指数函数，c为加权后的隐藏状态序列。

21、进一步的，条件随机场模型crf的步骤为：将加权后的隐藏状态序列c输入到条件随机场模型crf，

22、输入：c＝[c1，c2，…，cn]

23、输出：y＝[y1，y2，…，yn]

24、通过定义转移矩阵a来建模标签之间的转移概率，yn为第n个标签的条件概率，并根据维特比算法计算标签序列y的条件概率分布。

25、本专利技术还包括一种病例文本的结构化系统，包括：

26、获取文本序列模块，用于获取输入文本，通过词嵌入方法，将所述输入文本中每个词映射为向量表示，并生成输入文本序列；

27、设置模型模块，用于设置文本结构化模型，通过带标签的训练数据集训练所述文本结构化模型，将所述输入文本序列输入到所述文本结构化模型，并进行前向传播，生成与所述输入文本序列相对应标签序列的条件概率分布，通过所述条件概率分布，完成文本的结构化；其中，所述文本结构化模型包括：

28、构建lstm模型，通过训练数据训练lstm模型的参数，将所述输入文本序列输入到lstm模型，并生成多个时间步的隐藏状态；

29、构建注意力机制模型attention，并根据多个时间步的所述隐藏状态，生成每个所述隐藏状态的注意力得分，并通过归一化指数函数，计算每个所述隐藏状态的注意力权重，根据所述注意力权重计算加权后的隐藏状态序列；

30、构建随机场模型crf，并根据所述加权后的隐藏状态序列，计算标签序列的条件概率分布。

31、进一步的，所述文本结构化模型为：

32、p(y|t)＝crf(attention(lstm(t,θ),w),a)

33、其中，p(y|t)为给定输入文本序列t时，标签序列y的条件概率，y为标签序列，t为输入文本序列，θ为长短时记忆神经网络模型的参数，w为注意力机制模型的参数，attention为注意力机制模型，lstm为长短时记忆神经网络模型，crf为条件随机场模型，a为转移矩阵。

34、进一步的，长短时记忆神经网络模型lstm的步骤为：

35、t＝[t1，t2，…,tn]

36、h＝[h1，h2，…,hn]

37、hi＝lstm(ti，hi-1；θ)

38、其中，ti为第i个输入文本，hi为第i个时间步的隐藏状态，hi-1为第i-1个时间步的隐藏状态，n为数量，h为隐藏状态序列。

39、进一步的，注意力机制模型attention的步骤为：

40、c＝[c1,c2，…,cn]

41、ei＝attention(hi，h；w)

42、αi＝softmax(ei)

43、ci＝∑(αi*hi)

44、其中，ci为第i个加权后的隐藏状态，αi为第i个注意力权重，ei第i个注意力得分，softmax为归一化指数函数，c为加权后的隐藏状态序列。

45、进一步的，条件随机场模型crf的步骤为：将加权后的隐藏状态序列c输入到条件随机场模型crf，

46、输入：c＝[c1，c2，…，cn]

47、输出：y＝[y1，y2，…，yn]

48、通过定义转移矩阵a来建模标签之间的转移概率，yn为第n个标签的条件概率，并根据维特比算法计算标签序列y的条件概率分布。

49、总体而言，通过本专利技术所构思的以上技术方案与现有技术相比，具有以下有益效果：

50、本专利技术通过获取输入文本，通过词嵌入方本文档来自技高网...

【技术保护点】

1.一种病例文本的结构化方法，其特征在于，包括：

2.如权利要求1所述的一种病例文本的结构化方法，其特征在于，所述文本结构化模型为：

3.如权利要求2所述的一种病例文本的结构化方法，其特征在于，长短时记忆神经网络模型LSTM的步骤为：

4.如权利要求3所述的一种病例文本的结构化方法，其特征在于，注意力机制模型Attention的步骤为：

5.如权利要求4所述的一种病例文本的结构化方法，其特征在于，条件随机场模型CRF的步骤为：将加权后的隐藏状态序列C输入到条件随机场模型CRF，

6.一种病例文本的结构化系统，其特征在于，包括：

7.如权利要求6所述的一种病例文本的结构化系统，其特征在于，所述文本结构化模型为：

8.如权利要求7所述的一种病例文本的结构化系统，其特征在于，长短时记忆神经网络模型LSTM的步骤为：

9.如权利要求8所述的一种病例文本的结构化系统，其特征在于，注意力机制模型Attention的步骤为：

10.如权利要求9所述的一种病例文本的结构化系统，其特征在于，

...

【技术特征摘要】

1.一种病例文本的结构化方法，其特征在于，包括：

2.如权利要求1所述的一种病例文本的结构化方法，其特征在于，所述文本结构化模型为：

3.如权利要求2所述的一种病例文本的结构化方法，其特征在于，长短时记忆神经网络模型lstm的步骤为：

4.如权利要求3所述的一种病例文本的结构化方法，其特征在于，注意力机制模型attention的步骤为：

5.如权利要求4所述的一种病例文本的结构化方法，其特征在于，条件随机场模型crf的步骤为：将加权后的隐藏状态序列c输入到条件随机场模型crf，

...

【专利技术属性】
技术研发人员：彭城，任妮丽，纪德胜，黄颖，陈先祥，刘莹，
申请(专利权)人：武汉市肺科医院武汉市结核病防治所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人