用于医学健康知识图谱的命名实体识别方法及系统技术方案

技术编号:19857652 阅读:37 留言:0更新日期:2018-12-22 11:44
本发明专利技术公开了一种用于医学健康知识图谱的命名实体识别方法及系统,该命名实体识别方法包括:对训练语料进行标注,并根据标注后的训练语料生成字向量;利用所述字向量训练命名实体识别模型,其中,所述命名实体识别模型是基于可迭代的空洞卷积神经网络ID‑CNN和条件随机场CRF的模型;通过训练后的命名实体识别模型获得待测试语句的识别结果。通过使用ID‑CNN和CRF的命名实体识别模型能够解决在构建健康领域医学健康知识图谱中的命名实体识别的问题,针对健康管理领域的文本类语料可自动识别其中特定的一些知识实体,以用于医学健康知识图谱中。

【技术实现步骤摘要】
用于医学健康知识图谱的命名实体识别方法及系统
本专利技术涉及一种从医学健康类文本中自动识别健康知识实体识别的方法及系统,具体来说,涉及一种用于医学健康知识图谱的命名实体识别方法及系统。
技术介绍
知识图谱是一种利用网络图谱的可视化展示形式,以将不同领域的多学科之间的知识进行关联,旨在描述客观世界的概念、实体、事件及其之间的关系。健康管理领域对于知识的依赖远比大部分文本信息处理应用要强,这就使得建立更加丰富准确的医疗健康知识图谱成为重要的研究内容。与传统的专家知识库不同的是,医疗健康知识图谱需要从大规模多模态健康管理信息中自动抽取出目标知识,并建立起各种知识之间的关联,其中涉及到的关键技术包括健康管理实体识别以及基于多模态特征的实体链接。健康实体识别的主要挑战首先在于它涉及医学、运动、心理、睡眠等多个差异较大的学科领域;其次,在医疗文本中的用语习惯也和我们的日常用语习惯差异巨大,这使得我们针对通用的文本信息处理任务所构建的大量标注数据库难有用武之地,而且直接从医疗领域获得的各种类型的加工数据的规模远比通用领域要少,这也让近年来基于深度学习的端到端学习方法难以有效发挥其作用。所以基于此,需要提出一种针对医学健康知识领域的命名实体识别方法和系统。针对相关技术中的上述问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的上述问题,本专利技术提出一种利用ID-CNN和CRF模型对医学健康知识领域的命名实体进行识别的方法和系统,能够解决在构建医学健康知识图谱中的命名实体识别的问题。本专利技术的技术方案是这样实现的:根据本专利技术的一个方面,提供了一种用于医学健康知识图谱的命名实体识别方法,包括:对训练语料进行标注,并根据标注后的训练语料生成字向量;利用字向量训练命名实体识别模型,其中,命名实体识别模型是基于可迭代的空洞卷积神经网络ID-CNN和条件随机场CRF的模型;通过训练后的命名实体识别模型获得待测试语句的识别结果。根据本专利技术的实施例,采用IOB模式对训练语料进行标注。根据本专利技术的实施例,标注后的训练语料包括:疾病类实体、症状类实体之中的至少一种;识别结果包括:待测试语句中的疾病类实体、症状类实体之中的至少一种。根据本专利技术的实施例,标注后的训练语料包括:疾病类实体、症状类实体、检查类实体、食谱类实体、药物类实体、运动类实体和食材类实体。根据本专利技术的实施例,命名实体识别方法还包括:提取识别结果中的实体之间的关系,以根据提取的关系扩充医学健康知识图谱。根据本专利技术的另一方面,提供了一种用于医学健康知识图谱的命名实体识别系统,包括:标注模块,用于对训练语料进行标注,并根据标注后的训练语料生成字向量;命名实体识别模型,连接于标注模块,命名实体识别模型是基于可迭代的空洞卷积神经网络IDCNN和条件随机场CRF的模型,其中,命名实体识别模型用于利用字向量进行训练、在训练后获得待测试语句的识别结果。根据本专利技术的实施例,标注模块采用IOB模式对训练语料进行标注。根据本专利技术的实施例,标注后的训练语料包括:疾病类实体、症状类实体之中的至少一种;识别结果包括:待测试语句中的疾病类实体、症状类实体之中的至少一种。根据本专利技术的实施例,命名实体识别系统还包括:提取模块,连接于命名实体识别模型,提取模块用于提取识别结果中的实体之间的关系,以根据提取的关系扩充医学健康知识图谱。本专利技术的上述技术方案,通过使用ID-CNN和CRF的命名实体识别模型能够解决在构建健康领域医学健康知识图谱中的命名实体识别的问题,针对健康管理领域的文本类语料可自动识别其中特定的一些知识实体,以用于医学健康知识图谱中。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例的用于医学健康知识图谱的命名实体识别方法的流程图;图2是现有技术中空洞卷积的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,根据本专利技术的实施例,提供了一种用于医学健康知识图谱的命名实体识别方法,该命名实体识别方法包括以下步骤:S10,对训练语料进行标注,并根据标注后的训练语料生成字向量;S20,利用字向量训练命名实体识别模型,其中,命名实体识别模型是基于ID-CNN(可迭代的空洞卷积神经网络)和CRF(条件随机场)的模型;S30,通过训练后的命名实体识别模型获得待测试语句的识别结果。本专利技术的上述技术方案,通过使用ID-CNN和CRF的命名实体识别模型能够解决在构建健康领域医学健康知识图谱中的命名实体识别的问题,针对健康管理领域的文本类语料可自动识别其中特定的一些知识实体,以用于医学健康知识图谱中。具体来说,本专利技术的有益效果在于:第一,命名实体识别(NER)是NLP(NaturalLanguageProcessing,自然语言处理)
的一个基础性工作,也是一项很重要的工作。传统的命名实体识别主要是基于词典和规则,由相关领域的专家人工构造相应的规则和词典,后来由于传统机器学习方法的出现(例如HMM(HiddenMarkovModel,隐马尔可夫模型)、SVM(SupportVectorMachine,支持向量机)等),减少了人工干预量,但是这些模型对特征提取的依赖性很强,因此本专利技术通过借助深度学习这一工具,只需要更少的人工参与,就能够获得性能更优的解决方案。第二,在深度学习上,RNN(RecurrentneuralNetwork、循环神经网络)似乎更适合解决这种序列问题,RNN在NLP领域有着更多成功的案例。然而,由于RNN自身存在计算依赖性,在GPU(GraphicsProcessingUnit,图形处理器)上其计算性能远远不如CNN(ConvolutionalNeuralNetwork,卷积神经网络)一样可以高速并行化计算,因此本专利技术利用改进型的CNN来解决命名实体识别的问题,而不是使用RNN。第三,由于普通的CNN具有局部感受野的特点,所以无法应对更宽更广的上下文内容。传统的做法是提升深度,增加深度可以扩展到更广的上下文视野中,然而这种做法的后果是引入更高的深度,其计算参数会呈指数增长,不切实际,不符合初衷。图2示出的是一个具有最大空洞是4、卷积核大小是3的卷积示意图,即最高层卷积核中的一个神经元就可以覆盖到底层宽度为15的上下文范围,随着高度的提升,其在底部的覆盖范围将指数增长。而空洞卷积(D-CNN)本身不受局部感受野限制,因此将D-CNN引入到传统的CNN中,可以缓解此问题。第四,在D-CNN的基础上,我们尝试引入更高的深度。因此,本专利技术将ID-CNN应用到医学健康领域的命名识别实体。此时,参数的增长则是线性的,而感受野提升的缺失指数,这是完全符合我们期望的,这可以更小的计算代价带来等宽的上下文感受野。第五,虽然ID-CNN可以带来非常优越的结果,但是为了本文档来自技高网
...

【技术保护点】
1.一种用于医学健康知识图谱的命名实体识别方法,其特征在于,包括:对训练语料进行标注,并根据标注后的训练语料生成字向量;利用所述字向量训练命名实体识别模型,其中,所述命名实体识别模型是基于可迭代的空洞卷积神经网络(ID‑CNN)和条件随机场(CRF)的模型;通过训练后的命名实体识别模型获得待测试语句的识别结果。

【技术特征摘要】
1.一种用于医学健康知识图谱的命名实体识别方法,其特征在于,包括:对训练语料进行标注,并根据标注后的训练语料生成字向量;利用所述字向量训练命名实体识别模型,其中,所述命名实体识别模型是基于可迭代的空洞卷积神经网络(ID-CNN)和条件随机场(CRF)的模型;通过训练后的命名实体识别模型获得待测试语句的识别结果。2.根据权利要求1所述的用于医学健康知识图谱的命名实体识别方法,其特征在于,采用IOB模式对所述训练语料进行所述标注。3.根据权利要求2所述的用于医学健康知识图谱的命名实体识别方法,其特征在于,其中,标注后的训练语料包括:疾病类实体、症状类实体之中的至少一种;所述识别结果包括:所述待测试语句中的疾病类实体、症状类实体之中的至少一种。4.根据权利要求1所述的用于医学健康知识图谱的命名实体识别方法,其特征在于,标注后的训练语料包括:疾病类实体、症状类实体、检查类实体、食谱类实体、药物类实体、运动类实体和食材类实体。5.根据权利要求1所述的用于医学健康知识图谱的命名实体识别方法,其特征在于,还包括:提取所述识别结果中的实体之间的关系,以根据提...

【专利技术属性】
技术研发人员:赵进卜江勇孔飞常德杰刘邦长刘朝振姜鹏
申请(专利权)人:北京妙医佳信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1