当前位置: 首页 > 专利查询>河南大学专利>正文

一种在医疗文本中基于词汇构词法获取时间复合词的方法及系统及装置制造方法及图纸

技术编号:30768981 阅读:25 留言:0更新日期:2021-11-10 12:34
本发明专利技术公开了一种在医疗文本中提取时间复合词的方法及装置及系统,具体涉及自然语言处理信息抽取技术领域。本发明专利技术包括读取模块、计算模块、展示模块。读取模块主要指系统读取医疗文本。计算模块包含时间复合词提取单元、时间复合词更新单元、新时间复合词结构提取单元。时间复合词的提取主要根据构词法“数词+时间词+时间搭配词”,需人工总结部分时间复合词结构。步骤如下:a.读取医疗文本;b.通过时间复合词结构提取时间复合词;c.通过时间复合词获取时间复合词结构。如果结果较已有的实体在数量上有增加,则继续迭代,否则结束。展示模块包括:存储单元、输出单元。本发明专利技术以医疗文本为起点,最终实现医疗文本中时间复合词的准确抽取。取。取。

【技术实现步骤摘要】
一种在医疗文本中基于词汇构词法获取时间复合词的方法及系统及装置


[0001]本专利技术涉及自然语言处理信息抽取的
,具体涉及一种在医疗文本中提取时间复合词的方法及装置及系统。

技术介绍

[0002]近些年来,互联网上积累了大量的医疗文本。医疗文本主要包括专业教材、专业医疗网站、医疗大典、电子病例、医疗科研期刊中的论文。这些医疗文本中包含了丰富的医疗数据,其中主要包括疾病的发病时间、治疗时间、病因、症状、治疗、诊断等信息。但是这些海量的数据大多以半结构化或非结构化的形式存在,目前自然语言处理或信息抽取技术对于在非结构化文本中提取完整、准确的信息不太成熟。已有公司或产品尚不能将疾病时间复合词提取到准确水平。本专利技术主要分析医疗文本中常用时间复合词结构,将时间复合词结构数学化,设计了一种迭代算法和程序,能够从医疗文本中迭代地获取准确的时间复合词。
[0003]随着计算机的不断发展,文本挖掘系统已经得到了实现。如一种基于非结构化电子病历的文本挖掘方法及系统,专利申请号为201910701406.5,包括了文本预处理模块、特征工程模块、分析预测模块。该专利技术主要提取的特征有症状、检查所见、放化疗方案、疗效评价等。所述专利以时间节点进行切分住院记录,通过规则库的疾病信息提取来抽取特征,最后通过无监督聚类实现文本聚类。该专利是以时间节点进行切分,且其时间节点获取准确率有待商议,句子的完整语义没有考虑进去。输入文本仅仅包括了医院数据库中的病史记录,数据来源范围较小。
[0004]在医疗领域的识别任务中面临着很多困难,主要有以下几个方面。
[0005]从提取过程来看。
[0006]医疗领域通常包含丰富的实体类别。
[0007]实体上下文存在着很多不同的修饰和限定词从而导致了实体的边界较难确定并划分。
[0008]待提取的实体通常存在着不同更多描述方式。
[0009]时间复合词实体的长度通常较难确定。
[0010]从提取结果来看。
[0011]提取的时间复合词不多,仅仅几千,多则上万,但没有达到几万至十万的规模。涉及的医疗文本仅仅几千,没有达到上万直至几万的规模。

技术实现思路

[0012]本专利技术的目的在于提供一种在医疗文本中获取时间复合词的方法及装置及系统。以解决上述技术背景中提出的问题。本专利技术目的为以医疗文本为起点,最终实现在医疗文本中抽取时间复合词实体。
[0013]为实现上述目的,本专利技术提供了一种时间复合词抽取方法,所述方法主要包括。
[0014]步骤1:获取医疗文本并人工总结部分时间复合词结构。
[0015]步骤2:基于时间复合词结构,在医疗文本中,通过时间复合词结构获取时间复合词。
[0016]步骤3:进行时间复合词除杂并并入已有的时间复合词集合中。
[0017]步骤4:基于更新后的时间复合词集合,提取新的时间复合词结构。
[0018]步骤5:进行时间复合词结构除杂、验证并并入已有的时间复合词结构集合中。
[0019]步骤6:基于新的时间复合词结构,重复步骤二,直到没有新的时间复合词结构为止。
[0020]步骤7:最后进行时间复合词的除杂。
[0021]优选的,所述步骤1中获取的医疗文本是输入的一些医院病例、专业教材、专业医疗网站、医疗大典、电子病例、医疗科研期刊中的论文等各类非结构化医疗文本。
[0022]优选的,对读取的医疗文本使用正则表达式来过滤出医疗文本中的中文句子。
[0023]优选的,本专利技术对各个语义元素的学习是一个迭代的过程,即:一个时间复合词和时间复合词结构迭代学习的过程。
[0024]优选的,本专利技术在学习每一个语义元素的时候会确保其准确性来进一步提高下一步迭代提取的准确度。
[0025]与方法对应,本专利技术还提供了一种时间复合词抽取系统,所述系统包括。
[0026]文本输入单元,用于系统读取非结构化医疗文本。
[0027]时间复合词提取单元,用于提取医疗时间复合词实体,通过时间复合词结构来提取时间复合词实体。
[0028]时间复合词更新单元,用于更新已有的时间复合词集合。
[0029]新时间复合词结构提取单元,用于提取时间复合词结构,通过对时间复合词分词,然后分析其词性,继而提取新的时间复合词结构。
[0030]存储单元,用于结果的结构化存储,将提取出来的时间复合词和时间复合词结构存储到相应文件中。
[0031]与系统对应,本专利技术实施方式提供一种时间复合词抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现一种在医疗文本中提取时间复合词的系统。
[0032]本专利技术实施方式提供一种计算机可读存储介质,所述计算机可存储有计算机程序,该程序被处理器执行时实现一种在医疗文本中提取时间复合词的系统。
[0033]本专利技术与现有技术相比,具有以下优点和有益效果。
[0034](1)本专利技术实现了一种在医疗文本中提取时间复合词的方法及装置及系统,通过不同的时间复合词结构限定,使得处理器对时间复合词进行准确的抽取。同时能够较好地解决依赖领域中时间复合词实体长度无法处理的问题。
[0035](2)本专利技术实现了将时间复合词的提取结果达到几万的数量级上,精度和准确度上得到了大幅度的提高。
附图说明
[0036]图1为本专利技术的系统框图。
[0037]图2位本专利技术的时间复合词抽取方法的流程图。
[0038]图3为本专利技术的流程示意图。
具体实施方式
[0039]为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面将结合附图和具体实施方式对本专利技术作进一步的说明。
[0040]本专利技术提供了一种在医疗文本中提取时间复合词的方法,该方法主要包括:通过本专利技术提出的时间复合词结构来识别时间复合词,每一种时间复合词结构中的语义元素能够对时间复合词实体进行严格的限制并最终实现提取。通过新增加的语义元素进行学习提取,并扩充该语义元素库。该方法的优势在于能够应用在专业教材、专业医疗网站、医疗大典、电子病例、医疗科研期刊中的论文等各类非结构化医疗文本中,同时能够较好地解决时间复合词实体长度差异较大的问题,并且对于相关垂直领域的研究起到了至关重要的作用。
[0041]实施例一。
[0042]结合附图1,图1为医疗文本中提取时间复合词系统的系统模块框图,所述系统包括。
[0043]文本输入单元,用于系统读取非结构化医疗文本。
[0044]时间复合词提取单元,用于提取时间复合词实体,通过时间复合词结构来提取时间复合词实体。
[0045]时间复合词更新单元,用于更新已有的时间复合词集合。
[0046]新时间复合词结构提取单元,用于提取时间复合词结构,通过对时间复合词分词,然后分析其词性,继而提取新的时间复合词结构。
[0047]存储单元,用于结果的结构化存储,将提取出来的时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在医疗文本中获取时间复合词的方法,其特征在于,包括:步骤S100:获取医疗文本并人工总结部分时间复合词结构;步骤S200:提取时间复合词,基于时间复合词结构,在医疗文本中,通过时间复合词结构获取时间复合词;步骤S300:对时间复合词进行除杂,将除杂后的时间复合词并入到已有的时间复合词集合中;步骤S400:提取时间复合词结构,基于更新后的时间复合词集合,提取新的时间复合词结构;步骤S500:进行时间复合词结构除杂、验证并并入已有的时间复合词结构集合中;步骤S600:基于新的时间复合词结构,重复步骤S200,直到没有新的时间复合词结构为止。2.根据权利要求1所述的医疗文本中提取时间复合词的方法,其特征在于,所述时间复合词的除杂是根据Hanlp分词工具进行分词和停用词过滤,然后加入特定阈值筛选条件进行筛选。3.根据权利要求1所述的医疗文本中提取时间复合词的方法,其特征在于,所述医疗文本的获取是通过正则表达式来获取非结构化文本中的中文句子。4.根据权利要求1所述的医疗文本中提取时间复合词的方法,其特...

【专利技术属性】
技术研发人员:卢旭召李军周鹏程冯洪海魏亚举侯瑞辉
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1