医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置制造方法及图纸

技术编号：30135940 阅读：18 留言：0更新日期：2021-09-23 14:45

本发明专利技术公开了医疗文本中抽取疾病、化验指标实体的方法及系统及装置，并且抽取出其实体间的关系，涉及到了信息抽取相关领域。包括三大部分，第一由读取子系统组成，主要包含的是系统读取的模块。第二由计算子系统所组成，主要通过分解句子成分，抓住四大实体成分化验指标、异常值、关系词、疾病名称，首先利用其中三种初始词表来学习新的关键词，然后在大规模医疗文本中利用更新过后的实体词集合循环迭代触发相应的疾病名称、化验指标实体。第三由输出子系统组成，包含的有存储单元和输出单元两部分，存储为相关医疗实体词，输出为相关实体间的关系展示。本发明专利技术以公开的医疗文本为起点，最终实现了在医疗文本中相关实体要素的抽取。取。取。

全部详细技术资料下载

【技术实现步骤摘要】
医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置

[0001]本专利技术涉及自然语言处理信息抽取的
，具体涉及一种在医疗文本中抽取疾病及其对应的化验指标实体的方法及系统及装置。

技术介绍

[0002]近年来，随着信息化社会的快速发展，网络中的医疗信息迅速增长，如何处理这些医疗信息就变得十分有意义，而其中的疾病、化验指标、和异常值之间的关系是进行疾病诊断的主要方面，疾病和化验指标及异常值的识别是构建医疗知识图谱重要的一环，以现在的人力和物力处理这些信息还非常有限，此时就需要专业人士来利用相关的技术进行处理就变得有非常大的研究意义和价值。而本专利技术主要分析医疗文本中的语义元素和句式结构，然后构建上述的初始实体词表，通过其中三种初始词表学习剩余的一种语义元素，通过更新过后的词汇，再次循环迭代，这样能够使我们提取的疾病、化验指标更准确。
[0003]自然语言处理作为计算机领域的一个重要研究方向，已广泛应用于各个领域，而且文本挖掘系统已经得到了实现，比如已经公布的CN111755091就涉及到了医疗信息的抽取。在之前已有的专利技术中主要提取的特征有症状、诱因、放化疗方案、疗效评价等，通过触发疾病信息抽取特征，最后通过无监督聚类实现文本聚类，并且是以时间节点进行切分，句子的完整语义没有考虑进去，输入文本仅仅包括了医院数据库中的病史记录，数据来源范围较小。而本专利技术充分考虑到了语义元素，考虑到了句式的因素。
[0004]在医疗领域的知识提取中面临着很多困难，主要有以下几个方面。
[00...

【技术保护点】

【技术特征摘要】
1.一种在医疗文本中抽取疾病及其对应的化验指标实体词的方法，其特征在于，所述方法包括：步骤1：系统将已由人工总结而成的化验指标、化验指标异常值、疾病、疾病与化验指标异常值之间的关系词等四种语义元素的词汇初值存储在外设中；步骤2：系统将已由人工总结而成的疾病与化验指标异常值对应关系描述句式存储在外设中；步骤 3：系统将已获取到的包含疾病与其异常化验指标关系的原始句子存储在外设中；步骤 4：系统循环地从外设中读取一种句式到内存中；(1) 系统循环地选择该句式中的n
‑
1个元素作为输入去匹配该句式；(2) 系统将该n
‑
1个语义元素对应的词表中的词汇循环地读取，并到步骤3的句子中匹配，如果匹配上，到步骤5学习该句式中属于剩余的1个语义元素集合中的词汇；(3) 将学习到的词汇由人工鉴别正误；(4) 将鉴别为正确的词汇存放到步骤1所述的语义元素集合中；(5) 系统选择该句式中另外的n
‑
1个元素作为输入去匹配该句式，但要包括刚刚学习并更新完的语义元素，返回步骤2；步骤 5：系统待调用的由其他n
‑
1个语义元素学习剩下的1个元素的算法：(1) 如果待学习的元素处于句式的中间，即句式中其他两个元素的中间，则将两个元素中间的3个字提取，作为候选结果，供人工判别正误...

【专利技术属性】
技术研发人员：冯洪海，魏亚举，侯瑞辉，
申请(专利权)人：河南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人