当前位置: 首页 > 专利查询>河南大学专利>正文

医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置制造方法及图纸

技术编号:30135940 阅读:18 留言:0更新日期:2021-09-23 14:45
本发明专利技术公开了医疗文本中抽取疾病、化验指标实体的方法及系统及装置,并且抽取出其实体间的关系,涉及到了信息抽取相关领域。包括三大部分,第一由读取子系统组成,主要包含的是系统读取的模块。第二由计算子系统所组成,主要通过分解句子成分,抓住四大实体成分化验指标、异常值、关系词、疾病名称,首先利用其中三种初始词表来学习新的关键词,然后在大规模医疗文本中利用更新过后的实体词集合循环迭代触发相应的疾病名称、化验指标实体。第三由输出子系统组成,包含的有存储单元和输出单元两部分,存储为相关医疗实体词,输出为相关实体间的关系展示。本发明专利技术以公开的医疗文本为起点,最终实现了在医疗文本中相关实体要素的抽取。取。取。

【技术实现步骤摘要】
医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置


[0001]本专利技术涉及自然语言处理信息抽取的
,具体涉及一种在医疗文本中抽取疾病及其对应的化验指标实体的方法及系统及装置。

技术介绍

[0002]近年来,随着信息化社会的快速发展,网络中的医疗信息迅速增长,如何处理这些医疗信息就变得十分有意义,而其中的疾病、化验指标、和异常值之间的关系是进行疾病诊断的主要方面,疾病和化验指标及异常值的识别是构建医疗知识图谱重要的一环,以现在的人力和物力处理这些信息还非常有限,此时就需要专业人士来利用相关的技术进行处理就变得有非常大的研究意义和价值。而本专利技术主要分析医疗文本中的语义元素和句式结构,然后构建上述的初始实体词表,通过其中三种初始词表学习剩余的一种语义元素,通过更新过后的词汇,再次循环迭代,这样能够使我们提取的疾病、化验指标更准确。
[0003]自然语言处理作为计算机领域的一个重要研究方向,已广泛应用于各个领域,而且文本挖掘系统已经得到了实现,比如已经公布的CN111755091就涉及到了医疗信息的抽取。在之前已有的专利技术中主要提取的特征有症状、诱因、放化疗方案、疗效评价等,通过触发疾病信息抽取特征,最后通过无监督聚类实现文本聚类,并且是以时间节点进行切分,句子的完整语义没有考虑进去,输入文本仅仅包括了医院数据库中的病史记录,数据来源范围较小。而本专利技术充分考虑到了语义元素,考虑到了句式的因素。
[0004]在医疗领域的知识提取中面临着很多困难,主要有以下几个方面。
[0005]有丰富的实体类别,如几万种疾病,几千种化验指标,几十种异常值,其组合关系达千万种。
[0006]同一种词汇在不同语境中代表不同的含义。
[0007]有丰富的文本结构,如列表,句子,表格等。
[0008]各种各样的化验检验的方法、部位。

技术实现思路

[0009]本专利技术的目的在于提供一种在医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置,来建立疾病—化验指标—异常值之间的联系。本专利技术目的为以医疗文本为原始语料,最终实现在医疗文本中提取疾病、化验指标、异常值及对应的关系。
[0010]为实现上述目的,本专利技术提供一种在医疗文本中抽取疾病及其对应的化验指标实体词的方法,所述方法主要包括。
[0011]步骤1:系统将已由人工总结而成的化验指标、化验指标异常值、疾病、疾病与化验指标异常值之间的关系词等四种语义元素的词汇初值存储在外设中。
[0012]步骤2:系统将已由人工总结而成的疾病与化验指标异常对应关系描述句式存储在外设中。
[0013]步骤3:系统将已获取到的包含疾病与其异常化验指标关系的原始句子存储在外设中。
[0014]步骤4:系统循环地从外设中读取一种句式到内存中,然后循环地选择该句式中的n

1个元素作为输入去匹配该句式,系统将该n

1个语义元素对应的词表中的词汇循环地读取,并到步骤3的句子中匹配,如果匹配上,到步骤7学习该句式中属于剩余的1个语义元素集合中的词汇。
[0015]步骤5:将学习到的词汇由人工鉴别正误,鉴别为正确的词汇存放到步骤1所述的语义元素集合中。
[0016]步骤6:系统选择该句式中另外的n

1个元素作为输入去匹配该句式,但要包括刚刚学习并更新完的语义元素,返回步骤2。
[0017]步骤7:系统待调用的由其他n

1个语义元素学习剩下的1个元素的算法:(1)如果待学习的元素处于句式的中间,即句式中其他两个元素的中间,则将两个元素中间的3个字提取,作为候选结果,供人工判别正误;(2)如果待学习的的元素处于句式的结尾,则将其之前一个元素与标点中间的3个字提取,作为候选结果,供人工判别正误;(3)如果待学习的的元素处于句式的开头,则将其之前的标点与其之后一个元素中间的3个字提取,作为候选结果,供人工判别正误。
[0018]步骤8:建立化验指标、化验指标异常值、疾病、疾病与化验指标异常值之间的关系词四种语义元素的医疗知识图谱。
[0019]优选的,对输入的医疗文本是一些专业教材、专业医疗网站、医疗大典、电子病例、医疗科研期刊中的论文等各类非结构化医疗文本。
[0020]优选的,首先对这些原始文本是利用了正则表达式处理的,后续利用了停用词等数据清洗技术,得到较为纯净的医疗文本后,对一份医疗文本中的一个逗号为一个识别范围,保证了提取过程中的精确度。
[0021]优选的,本专利技术对每一次学习到新词汇都要进行了除杂、验证的操作,以此来保证下一轮迭代的正确性。
[0022]优选的,本专利技术主要利用循环迭代的思想,用其中的三个元素学习另外一个元素,然后用更新过后的语义元素再次学习另外一个语义元素。
[0023]与方法对应,本专利技术还提供了一种在医疗文本中抽取疾病及其对应的化验指标实体词的系统,所述系统包括。
[0024]存储初值单元,存储疾病词的初值集合、化验指标词的初值集合、化验指标异常值的初值集合、疾病与化验指标异常之间的关系词的初值集合;句式集合;原始语料(句子)的集合。
[0025]输入单元,读取存储单元中内容。
[0026]信息匹配单元:句式中n

1个元素到原始语料(句子)中匹配。
[0027]信息抽取单元:句式中剩余1个元素被抽取。
[0028]存储单元,用于结果的结构化存储,将提取出来的化验指标、异常值、关系词、疾病按照知识图谱关系存储在该单元中。
[0029]本专利技术实施方式提供一种医疗文本中抽取疾病及其对应的化验指标实体词的抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处
理器执行所述程序时实现一种在医疗文本中抽取疾病及其对应的化验指标实体词系统。
[0030]本专利技术实施方式提供一种计算机可读存储介质,所述计算机可存储有计算机程序,该程序被处理器执行时实现一种在医疗文本中抽取疾病及其对应的化验指标实体词系统。
[0031]本专利技术与现有技术相比,具有以下优点和有益效果。
[0032]本专利技术实现一种在医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统,通过大量阅读文献以及在专业医疗网站中不同表达方式得到的四种实体词相关句式结构。通过在一句话中分割出来的逗号为分隔符,很大程度上保证了提取过程中的精度,然后通过算法学习到疾病、化验指标异常值。
附图说明
[0033]图1为本专利技术的系统框图。
[0034]图2为本专利技术的流程示意图图3为本专利技术的抽取装置示意图。
具体实施方式
[0035]为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面将结合附图和具体实施方式对本专利技术作进一步的说明 。
[0036]本专利技术提供了一种在医疗文本中抽取疾病及其对应的化验指标实体词的方法,该方法主要包括:通过阅读相关医疗文本总结出四种实体间不同的句本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在医疗文本中抽取疾病及其对应的化验指标实体词的方法,其特征在于,所述方法包括:步骤1:系统将已由人工总结而成的化验指标、化验指标异常值、疾病、疾病与化验指标异常值之间的关系词等四种语义元素的词汇初值存储在外设中;步骤2:系统将已由人工总结而成的疾病与化验指标异常值对应关系描述句式存储在外设中;步骤 3:系统将已获取到的包含疾病与其异常化验指标关系的原始句子存储在外设中;步骤 4:系统循环地从外设中读取一种句式到内存中;(1) 系统循环地选择该句式中的n

1个元素作为输入去匹配该句式;(2) 系统将该n

1个语义元素对应的词表中的词汇循环地读取,并到步骤3的句子中匹配,如果匹配上,到步骤5学习该句式中属于剩余的1个语义元素集合中的词汇;(3) 将学习到的词汇由人工鉴别正误;(4) 将鉴别为正确的词汇存放到步骤1所述的语义元素集合中;(5) 系统选择该句式中另外的n

1个元素作为输入去匹配该句式,但要包括刚刚学习并更新完的语义元素,返回步骤2;步骤 5:系统待调用的由其他n

1个语义元素学习剩下的1个元素的算法:(1) 如果待学习的元素处于句式的中间,即句式中其他两个元素的中间,则将两个元素中间的3个字提取,作为候选结果,供人工判别正误...

【专利技术属性】
技术研发人员:冯洪海魏亚举侯瑞辉
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1