医疗命名实体识别系统生成方法及装置制造方法及图纸

技术编号:14637446 阅读:105 留言:0更新日期:2017-02-15 11:37
本公开提出一种医疗命名实体识别系统生成方法及装置,所述医疗命名实体识别系统生成方法包括:通过一医疗命名实体识别系统接收多个医疗文本样本并从多个医疗文本样本获取多个候选医疗命名实体;对多个候选医疗命名实体进行标注,得到多个推荐医疗命名实体;计算推荐医疗命名实体和候选医疗命名实体的数量之比,并判断数量之比是否小于第一预设值;若数量之比小于第一预设值,将推荐医疗命名实体输入至医疗命名实体识别系统,并据以从多个医疗文本样本中获取多个候选医疗命名实体并转至对多个候选医疗命名实体进行标注的步骤;若数量之比不小于第一预设值时,以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。

【技术实现步骤摘要】

本公开涉及医疗大数据
,尤其涉及一种医疗命名实体识别系统生成方法及医疗命名实体识别系统生成装置。
技术介绍
医疗过程中,会产生大量的医疗数据,主要包含患者的病历、医嘱、护理文书、检查所见和检查结论等,这些数据反映了患者的基本信息、临床诊断、治疗过程和结果。随着医疗系统信息化的建立和完善,越来越多的医疗数据由人工记录的方式转为电子化录入。目前,对于病历、医嘱、护理文书和检查报告等临床信息主要由医疗人员通过自然语言的方式书写而成,信息结构较为复杂。因而如何对大量这些非结构化数据进行处理、分析和挖掘是医疗信息化建设的重要问题。其中,进行医疗命名实体识别是必不可少的。现有技术中,对命名实体的识别方法一般包括三种:基于词典的方法、基于启发式规则的方法和基于机器学习的方法。前两种方法对词典或规则有很强的依赖性,且在中文方面,可供使用的资源相对匮乏。此外,对于海量医疗自然语言文本而言,由于不同医疗人员的写法不一,使得同一个医疗命名实体通常具有很多种写法。而基于机器学习的方法通常都是采用有监督的方法,需要大量人工标注才能达到一定效果。因此,如何在大量自然语言文本中快速挖掘输出有意义的医疗命名实体是亟待解决的技术问题。在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种医疗命名实体识别系统生成方法及医疗命名实体识别系统生成装置,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本公开的一个方面,提供一种医疗命名实体识别系统生成方法,包括:通过一医疗命名实体识别系统接收多个医疗文本样本,并利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体;对所述多个候选医疗命名实体进行标注,得到多个推荐医疗命名实体;计算所述推荐医疗命名实体和所述候选医疗命名实体的数量之比,并判断所述数量之比是否小于第一预设值;在判断所述数量之比小于所述第一预设值时,将所述推荐医疗命名实体输入至所述医疗命名实体识别系统,并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体并转至对所述多个候选医疗命名实体进行标注的步骤;在判断所述数量之比不小于所述第一预设值时,以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。在本公开的一种示例性实施例中,所述利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体包括:计算所述多个医疗文本样本中各个命名实体的权重值;选取权重值最高的多个命名实体作为所述候选医疗命名实体。在本公开的一种示例性实施例中,计算所述多个医疗文本样本中各个命名实体的权重值包括:在spark环境下,通过N-Gram算法和tf-idf算法计算所述多个医疗文本样本中各个命名实体的权重值。在本公开的一种示例性实施例中,所述将所述多个推荐医疗命名实体输入至所述医疗命名实体识别系统,并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体包括:从所述多个医疗样本文本中获取与所述推荐医疗命名实体的上下文特征相似的命名实体作为补充医疗命名实体;增加所述补充医疗命名实体在所述多个医疗文本样本中的权重值;选取权重值最高的多个命名实体作为所述候选医疗命名实体。在本公开的一种示例性实施例中,所述从所述多个医疗样本文本中获取与所述推荐医疗命名实体的上下文特征相似的命名实体作为补充医疗命名实体包括:根据预设模型对所述多个医疗样本文本进行分词,得到多个切分单元;获取所述多个推荐医疗命名实体的上下文特征,并分别将各所述推荐医疗命名实体的上下文特征表示为第一向量;获取所述多个切分单元的上下文特征,并分别将各所述切分单元的上下文特征表示为第二向量;计算所述第一向量与所述第二向量的相似度,并判断所述相似度是否小于第二预设值;选取与所述第一向量的相似度不小于所述第二预设值的第二向量,并将与所述第二向量表示的上下文特征对应切分单元作为所述候选医疗命名实体。在本公开的一种示例性实施例中,所述预设模型为隐马尔科夫模型。在本公开的一种示例性实施例中,其中,通过word2vec将各所述推荐医疗命名实体的上下文特征表示为第一向量以及将各所述切分单元的上下文特征表示为第二向量。在本公开的一种示例性实施例中,所述第一预设值为85%-90%。在本公开的一种示例性实施例中,其中,在对所述多个候选医疗命名实体进行标注的同时,对被标注的所述推荐医疗命名实体进行分类;在从所述多个医疗文本样本中获取所述候选医疗命名实体的同时,根据与该所述候选医疗命名实体相似的所述推荐医疗命名实体的分类对该所述候选医疗命名实体推荐分类。根据本公开的一个方面,提供一种医疗命名实体识别系统生成装置,包括:冷启动单元,用于通过一医疗命名实体识别系统接收多个医疗文本样本,并利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体;标注单元,用于对所述多个候选医疗命名实体进行标注,得到多个推荐医疗命名实体;评估单元,用于计算所述推荐医疗命名实体和所述候选医疗命名实体的数量之比,并判断所述数量之比是否小于第一预设值;反馈单元,用于在判断所述数量之比小于所述第一预设值时,将所述推荐医疗命名实体输入至所述医疗命名实体识别系统,并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体并反馈至所述标注单元;输出单元,用于在判断所述数量之比不小于所述第一预设值时,以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。本公开的医疗命名实体识别系统生成方法及装置,通过向医疗命名实体识别系统输入大量基于自然语言的医疗文本样本,利用机器学习获取多个候选医疗命名实体;然后对多个候选医疗命名实体进行标注,得到多个推荐医疗命名实体;随后,可计算推荐医疗命名实体和候选医疗命名实体的数量之比并将其与第一预设值进行比较,当数量之比不小于第一预设值时,说明医疗命名实体识别系统的性能已经满足需要,此时,可直接将医疗命名实体识别系统作为目标医疗命名实体识别系统进行输出;当数量之比小于第一预设值时,则说明医疗命名实体识别系统的性能尚未满足需要,可将多个推荐医疗命名实体输入至医疗命名实体识别系统并根据多个推荐医疗命名实体从多个医疗文本样本中获取多个候选医疗命名实体并再次进行标注,得到更多个推荐医疗命名实体,依此类推迭代,直至数量之比不小于第一预设值时,即医疗命名实体识别系统的性能已经满足需要时,可将医疗命名实体识别系统作为目标医疗命名实体识别系统进行输出。在上述过程中,结合机器学习和人工标注,也即结合非监督和有监督算法,快速生成性能满足需要的医疗命名实体识别系统,进而可以在最小人工标注代价下快速产出的医疗命名实体,同时可以保证在海量数据集中可以达到良好的识别率。附图说明通过参照附图详细描述其示例实施方式,本公开的上述和其它特征及优点将变得更加明显。图1是本公开实施例医疗命名实体识别系统生成方法的流程图;图2是本公开实施例医疗命名实体识别系统生成方法中利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体的流程图;图3是本公开实施例医疗命名实体识别系统生成方法中将所述多个推荐医疗命名实体输入至所述医疗命名实体识别系统,并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体的流程图;图4是是本本文档来自技高网...
医疗命名实体识别系统生成方法及装置

【技术保护点】
一种医疗命名实体识别系统生成方法,其特征在于,包括:通过一医疗命名实体识别系统接收多个医疗文本样本,并利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体;对所述多个候选医疗命名实体进行标注,得到多个推荐医疗命名实体;计算所述推荐医疗命名实体和所述候选医疗命名实体的数量之比,并判断所述数量之比是否小于第一预设值;在判断所述数量之比小于所述第一预设值时,将所述推荐医疗命名实体输入至所述医疗命名实体识别系统,并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体并转至对所述多个候选医疗命名实体进行标注的步骤;在判断所述数量之比不小于所述第一预设值时,以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。

【技术特征摘要】
1.一种医疗命名实体识别系统生成方法,其特征在于,包括:通过一医疗命名实体识别系统接收多个医疗文本样本,并利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体;对所述多个候选医疗命名实体进行标注,得到多个推荐医疗命名实体;计算所述推荐医疗命名实体和所述候选医疗命名实体的数量之比,并判断所述数量之比是否小于第一预设值;在判断所述数量之比小于所述第一预设值时,将所述推荐医疗命名实体输入至所述医疗命名实体识别系统,并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体并转至对所述多个候选医疗命名实体进行标注的步骤;在判断所述数量之比不小于所述第一预设值时,以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。2.根据权利要求1所述的医疗命名实体识别系统生成方法,其特征在于,所述利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体包括:计算所述多个医疗文本样本中各个命名实体的权重值;选取权重值最高的多个命名实体作为所述候选医疗命名实体。3.根据权利要求2所述的医疗命名实体识别系统生成方法,其特征在于,计算所述多个医疗文本样本中各个命名实体的权重值包括:在spark环境下,通过N-Gram算法和tf-idf算法计算所述多个医疗文本样本中各个命名实体的权重值。4.根据权利要求2或所述的医疗命名实体识别系统生成方法,其特征在于,所述将所述多个推荐医疗命名实体输入至所述医疗命名实体识别系统,并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体包括:从所述多个医疗样本文本中获取与所述推荐医疗命名实体的上下文特征相似的命名实体作为补充医疗命名实体;增加所述补充医疗命名实体在所述多个医疗文本样本中的权重值;选取权重值最高的多个命名实体作为所述候选医疗命名实体。5.根据权利要求4所述的医疗命名实体识别系统生成方法,其特征在于,所述从所述多个医疗样本文本中获取与所述推荐医疗命名实体的上下文特征相似的命名实体作为补充医疗命名实体包括:根据预设模型对所述多个医疗样本文本进行分词,得到多个切分单元;获取所述多个推荐医疗命名实...

【专利技术属性】
技术研发人员:陈成康波稽可睿
申请(专利权)人:医渡云北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1