一种临床病历文本识别方法、系统、可读存储介质及设备技术方案

技术编号：41206814 阅读：3 留言：0更新日期：2024-05-07 22:33

本发明专利技术提出一种临床病历文本识别方法、系统、可读存储介质及设备，涉及医疗领域，该方法包括获取临床病历文本，将所述临床病历文本输入至预训练的转换模型中，以得到对应的标识序号；将所述标识序号整合为对应的标识序号集合，将所述标识序号集合输入至预训练的转化模型得到特征向量；将所述特征向量输入判别模型中，并获取实体词对应的输出特征，以得出对应的实体词的词性、关系以及修饰属性；基于所识别的实体词，以其为起点，根据预设方向寻找首个与所识别实体词相似词性的另一实体词，并建立无向关系，以形成无向图关系结构，并根据预设优先级原则，通过所述无向图关系结构以得出识别出的实体词词组集合以对所述临床病历文本进行识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及医疗领域，具体涉及一种临床病历文本识别方法、系统、可读存储介质及设备。

技术介绍

1、在医生写的临床病历文本中含有患者病情、诊断、治疗方式的数据，词汇与词汇之间伴随着大量的修饰关系。信息化系统对病历文本的使用时，除了对文本中识别出的实体词进行判别外，实体词之间的修饰与被修饰关系也是很重要的。

2、目前，由于临床病历文中蕴含的信息较为复杂，包含了复杂的事实关系，故在识别文本时，较为困难。目前采用文本实体识别和关系抽取两种手段结合来对病历文本进行识别，实体识别成熟的技术是使用文本预训练模型(例如bert)加上rnn及其变种(例如bi-lstm)来完成的，预训练模型处理输入，用bio做为输出格式；关系抽取通常用三元组(主-谓-宾)作为标注并输出目标，使用seq2seq等模型判断每个实体词两两之间的关系。先通过在预训练模型中识别出文本，将识别出的文本在seq2seq等模型中判断出实体词之间的关系。

3、然而，三元组关系的抽取较为复杂，其计算数量较为庞大，耗费时间和所需的运行内存空间也要求较高。

技术实现思路

1、基于此，本专利技术的目的是提出一种临床病历文本识别方法、系统、可读存储介质及设备，以解决目前三元组关系的抽取较为复杂，其计算数量较为庞大，耗费时间和所需的运行内存空间也要求较高的问题。

2、根据本专利技术提出的一种临床病历文本识别方法，所述方法包括：

3、获取临床病历文本，将所述临床病历文本输入至预训练的转换模型中，以得到对应的标识序号；

4、将所述标识序号整合为对应的标识序号集合，将所述标识序号集合输入至预训练的转化模型得到特征向量；

5、将所述特征向量输入判别模型中，并获取实体词对应的输出特征，以得出对应的实体词的词性、关系以及修饰属性；

6、基于所识别的实体词，以其为起点，根据预设方向寻找首个与所识别实体词相似词性的另一实体词，并建立无向关系，以形成无向关系图，并根据预设优先级原则聚合形成词组字树，所述优先级原则中，无向关系图中任一节点所能连通的节点中，将词性聚合优先级最高的词作为树根节点，任一连通的子图中，词性聚合优先级最高节点有多个，则将每个最高优先级的节点拆分成若干子树的树根节点，将子图中的其他节点分别复制到每个树根节点下，任一子树确定好树根节点后，与树根节点有直接或间接关系的节点，从上至下以广度优先原则进行关联，任一节点在与其直接连通的节点中，将优先级最高且大于自身优先级的节点作为父节点，通过所述词组字树，以父节点为起点，根据连通关系得出实体词词组集合以对所述临床病历文本进行识别。

7、综上，根据上述的临床病历文本识别方法，将临床病历文本输入预训练模型，并通过其中的分词器将病历文本中的实体词拆分成符合预训练模型的识别要求的的标识集合，并转化为标识序号集合，同时使用预训练模型对标识序号集合进行训练，以得到标识对应实体词的特征向量。将特征向量输入识别模型中，并获取若干实体词对应的输出特征，得出对应的实体词的词性、关系以及修饰属性。基于所识别的实体词，以其为起点，根据预设方向寻找首个与所识别实体词相似词性的另一实体词，并建立无向关系，以形成无向图关系结构，由于三元关系的抽取较为复杂，计算数量较为庞大，耗费时间和所需的运行内存空间也要求较高，而计算词与前后文词性的关系所需要计算的关系数量远远低于传统的三元关系的抽取，极大减少了模型训练、运行时的计算量和需要的内存空间。最后基于无向图关系结构，为方便识别后的数据后期使用，按照使用习惯制定词性的聚合优先级，将语义形成的图状关系转化为独立的词语组合，以得出识别出的实体词词组集合。

8、进一步的，所述获取临床病历文本，将所述临床病历文本输入至预训练的转换模型中，以得到对应的标识序号的步骤，具体包括：

9、在每一句子的开头和结尾分别添加第一识别标识和第二识别标识，根据所述转换模型的标识字表，以识别所述临床病历文本中文字的对应标识，对于无法识别的文字以特殊标识替代，通过分词器将若干对应标识拆分成标识序号。

10、进一步的，所述将所述标识序号整合为对应的标识序号集合，将所述标识序号集合输入至预训练的转化模型得到特征向量的步骤，具体包括：

11、将每一句子中的实体词对应的标识序号进行整合，以得到标识序号集合；

12、对所述标识序号集合进行训练，判断对应实体词是否为有效词，并确定特征向量的有效对应位数值；

13、若当前实体词为有效词，判断当前标识是否为实体词的起始词，并确定起始对应位数值；同时判断当前标识所对应的实体词中的对应词性的概率，并确定对应词性数值和非对应词性数值；

14、基于所述当前标识，以其为起点，分别从所述当前标识的前文和后文分别寻找与所述当前标识对应实体词相关联的词性，并分别确定第一相关位数值和第二相关位数值；

15、确定所述当前标识对应实体词的被修饰关系，并确定修饰位数值；

16、基于所述有效对应位数值、所述对应词性数值和所述非对应词性数值、所述第一相关位数值和所述第二相关位数值、以及所述修饰位数值，得到所述当前标识的对应输出的特征向量。

17、进一步的，所述特征向量的输出过程中，损失函数计算公式为：

18、

19、其中，其中、、、分别代表分词权重、词性权重、关系权重、修饰权重，y为训练样本中标注后产生的特征向量，为模型预测的特征向量，n为词性的种类，k为文本中特殊修饰种类的数量，i为特征向量的数值。

20、进一步的，所述将所述特征向量输入判别模型中，并获取实体词对应的输出特征，以得出对应的实体词的词性、关系以及修饰属性的步骤，具体包括：

21、对所述特征向量的第一数位区间的标识，bio标记通过三个标记中概率最大的，以判断所述标记的标识属于无用词、起始词、中间词的任意一种；

22、对所述特征向量的第二数位区间的标识，词性概率通过求最大概率的词性，以判断其所属词性；

23、对所述特征向量的第三数位区间的标识，基于前文关系部分，逐一对任一词性有关性和无关性进行对比，若有关性大于无关性，则将该词性加入至该词的前文有关词性集合；

24、对所述特征向量的第四数位区间的标识，基于后文关系部分，逐一对任一词性有关性和无关性进行对比，若有关性大于无关性，则将该词性加入至该词的后文有关词性集合；

25、对所述特征向量的第五数位区间的标识，对任一修饰类型的有关性和无关性进行对比，若有关性大于无关性，则标记标识对应实体词包含被该类型修饰。

26、进一步的，所述判别模型的损失函数如下：

27、

28、其中，y为训练样本中标注后产生的特征向量，为模型预测的特征向量，t为当前句子所含字数，t为当前句子中的字的序号。

29、本专利技术还提出一种临床病历文本识别系统，所述系统包括：

30、转换模块，用于获取临床病历文本，将本文档来自技高网...

【技术保护点】

1.一种临床病历文本识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的临床病历文本识别方法，其特征在于，所述获取临床病历文本，将所述临床病历文本输入至预训练的转换模型中，以得到对应的标识序号的步骤，具体包括：

3.根据权利要求1所述的临床病历文本识别方法，其特征在于，所述将所述标识序号整合为对应的标识序号集合，将所述标识序号集合输入至预训练的转化模型得到特征向量的步骤，具体包括：

4.根据权利要求3所述的临床病历文本识别方法，其特征在于，所述特征向量的输出过程中，损失函数计算公式为：

5.根据权利要求1所述的临床病历文本识别方法，其特征在于，所述将所述特征向量输入判别模型中，并获取实体词对应的输出特征，以得出对应的实体词的词性、关系以及修饰属性的步骤，具体包括：

6.根据权利要求5所述的临床病历文本识别方法，其特征在于，所述判别模型的损失函数如下：

7.一种临床病历文本识别系统，其特征在于，所述系统包括：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行

9.一种临床病历文本识别设备，其特征在于，所述设备包括存储器和处理器，其中：

...

【技术特征摘要】

1.一种临床病历文本识别方法，其特征在于，所述方法包括：

4.根据权利要求3所述的临床病历文本识别方法，其特征在于，所述特征向量的输出过程中，损失函数计算公式为：

5.根据权利要求1所...

【专利技术属性】
技术研发人员：王希光，黄永生，陆凯，丁川，叶凯，樊海东，鲁冰青，
申请(专利权)人：江西曼荼罗软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人