一种抽取医疗文本中实体间关系词的方法、装置及系统制造方法及图纸

技术编号:31788074 阅读:13 留言:0更新日期:2022-01-08 10:45
本发明专利技术公开了自然语言处理信息提取技术领域的一种抽取医疗文本中实体间关系词的方法、装置及系统,包括读取模块、计算模块和存储模块,读取模块主要是指系统读入一些中文医疗文本,计算模块主要包括关系词抽取单元,第一步:获取语料库,第二步:标识两个实体在句子中出现的先后顺序,第三步:利用自然语言处理工具对联合语素进行分词和词性标注,得到待抽取的词汇集合,第四步:保留词汇集合中动词、连词、介词等有效词汇,过滤非关系词词汇;第五步:将保留词存入有效词词典,第六步:对有效关系词词典中的词汇进行词性分类和规律分析,利用抽取规则,计算各词性比重和各字数比重,存储模块主要是对抽取到的关系词进行存储。储模块主要是对抽取到的关系词进行存储。储模块主要是对抽取到的关系词进行存储。

【技术实现步骤摘要】
一种抽取医疗文本中实体间关系词的方法、装置及系统


[0001]本专利技术涉及自然语言处理信息提取
,具体为一种抽取医疗文本中实体间关系词的方法、装置及系统。

技术介绍

[0002]在医疗数据中,由于人工标注的局限性,实体间的关系词可能总结不全,尤其是某些特殊表达中的特殊关系词。标注的关系词不够全面,就会导致有监督学习的精度和覆盖度都受到影响。
[0003]针对特定关系的关系词发现,存在以下难点:
[0004]1、特定实体间可能存在特定关系词,即固定搭配或固定说法,如“糖尿病性心脏病”中的“性”表示“糖尿病”引起“心脏病”,但“寒冷”和“心脏病”之间就没有这种表达,这些特定关系词如果不被发现,就会在人工标注中被忽略.
[0005]2、两个实体之间的关系有可能由两个以上词汇联合表达,但有时由于省略,只剩下一个词,此时这一个词也承担着该两个实体之间的关系表达。人工标注时,如果稍不注意,就会忽略这种关系词,因而导致标注不全面,由此引起机器不能识别这种语句的语义。如“肺结核患者有少量心包积液”中,“患者”和“有”这两个词联合起来共同表达“肺结核”这一“病因”导致“少量心包积液”这一结果的关系。但是,有时“患者”可能会被省略掉,出现“肺结核患者有少量心包积液”这种句子,此时应认定“有”这一词承担了该因果关系。
[0006]3、存在一义多词的现象,如“爆发”,“引爆”,“导致”等,都是表示因果关系这一类关系的词语且在普通语料中经常不互为同义词,如果仅靠人工标注构造关系词词典需要耗费大量人力财力资源。

技术实现思路

[0007]本专利技术的目的在于提供一种抽取医疗文本中实体间关系词的方法、装置及系统,以解决上述
技术介绍
中提出的问题。
[0008]为实现上述目的,本专利技术提供如下技术方案:一种抽取医疗文本中实体间关系词的方法,包括以下步骤:
[0009]第一步:系统读入一些中文医疗文本;
[0010]第二步:关系词抽取:
[0011](1)获取的语料库,并对句子进行预处理,获取待抽取的联合语素;
[0012](2)标识两个实体在句子中出现的先后顺序;
[0013](3)利用自然语言处理工具对联合语素进行分词和词性标注,得到待抽取的词汇集合;
[0014](4)保留词汇集合中动词、连词、介词等有效词汇,过滤非关系词词汇;
[0015](5)将保留词存入有效词词典,根据自然语言处理中的TF(Term Frequency)策略,计算有效词词典中词汇的词频,将高频词(词频>5)存储到有效关系词词典中;
[0016](6)对有效关系词词典中的词汇进行词性分类和规律分析,利用抽取规则,计算各词性比重和各字数比重;
[0017]第三步:对抽取到的关系词进行存储。
[0018]作为优选,所述第二步中关系词的除杂是根据ANSJ分词工具进行分词和停用词过滤,然后加入特定阈值筛选条件进行筛选。
[0019]作为优选,一种抽取医疗文本中实体间关系词的装置,包括获取器、处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序。
[0020]作为优选,一种抽取医疗文本中实体间关系词的系统,包括读取模块、计算模块与存储模块,所述读取模块电性输出连接文本输入单元,所述计算模块电性输出连接关系词抽取单元,所述展示模块分别电性输出连接存储单元与展示单元。
[0021]与现有技术相比,本专利技术的有益效果是:本专利技术中利用读取模块、计算模块和存储模块对医疗文本中实体间关系词进行抽取、处理和组合,避免仅靠人工标注构造关系词词典需要耗费大量人力财力资源,也避免人工标注而容易出现问题。
附图说明
[0022]图1为本专利技术的关系词抽取算法流程图;
[0023]图2为本专利技术的系统框图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]实施例1:
[0026]本专利技术提供一种技术方案:请参阅图1,一种抽取医疗文本中实体间关系词的方法,包括以下步骤:
[0027]第一步:系统读入一些中文医疗文本;
[0028]第二步:关系词抽取:
[0029](1)获取的语料库,并对句子进行预处理,获取待抽取的联合语素;
[0030](2)标识两个实体在句子中出现的先后顺序;
[0031](3)利用自然语言处理工具对联合语素进行分词和词性标注,得到待抽取的词汇集合;
[0032](4)保留词汇集合中动词、连词、介词等有效词汇,过滤非关系词词汇;
[0033](5)将保留词存入有效词词典,根据自然语言处理中的TF(Term Frequency)策略,计算有效词词典中词汇的词频,将高频词(词频>5)存储到有效关系词词典中;
[0034](6)对有效关系词词典中的词汇进行词性分类和规律分析,利用抽取规则,计算各词性比重和各字数比重;
[0035]第三步:对抽取到的关系词进行存储。
[0036]第二步中关系词的除杂是根据ANSJ分词工具进行分词和停用词过滤,然后加入特
定阈值筛选条件进行筛选。
[0037]实施例2:
[0038]请参阅图2,一种抽取医疗文本中实体间关系词的装置,包括获取器、处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序,例如:关系词抽取程序,处理器执行计算机程序时实现上述关系词抽取方法实施例中的步骤,或者处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能,例如:文本输入单元、关系词提取单元、存储单元;
[0039]请参阅图2,一种抽取医疗文本中实体间关系词的系统,包括读取模块、计算模块与存储模块,读取模块电性输出连接文本输入单元,用于系统读取非结构化医疗文本,计算模块电性输出连接关系词抽取单元,通过两个实体抽取实体间的关系词,展示模块分别电性输出连接存储单元与展示单元,用于关系词的结构化存储。
[0040]尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种抽取医疗文本中实体间关系词的方法,其特征在于:包括以下步骤:第一步:系统读入一些中文医疗文本;第二步:关系词抽取:(1)获取的语料库,并对句子进行预处理,获取待抽取的联合语素;(2)标识两个实体在句子中出现的先后顺序;(3)利用自然语言处理工具对联合语素进行分词和词性标注,得到待抽取的词汇集合;(4)保留词汇集合中动词、连词、介词等有效词汇,过滤非关系词词汇;(5)将保留词存入有效词词典,根据自然语言处理中的TF(Term Frequency)策略,计算有效词词典中词汇的词频,将高频词(词频>5)存储到有效关系词词典中;(6)对有效关系词词典中的词汇进行词性分类和规律分析,利用抽取规则,计算各词性...

【专利技术属性】
技术研发人员:冯洪海
申请(专利权)人:苏州景鹊机器人智能科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1