一种命名实体的识别方法及装置制造方法及图纸

技术编号:20797269 阅读:46 留言:0更新日期:2019-04-06 10:52
本申请公开了一种命名实体的识别方法及装置,且该方法包括:对目标文本中的命名实体进行词性标注;根据命名实体的词性和并列符号,确定目标文本中存在隐藏实体,并从目标文本中获取隐藏实体以及核心实体;对由核心实体的词根和隐藏实体构成的组合实体进行词性标注;核心实体的词根是根据核心实体的词性,在预设实体词根表中进行查询获取的;当组合实体的词性与核心实体的词性相同时,根据组合实体的词性,更新隐藏实体标注的词性。该方法不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。

A Named Entity Recognition Method and Device

This application discloses a method and device for identifying named entities, and the method includes: part-of-speech annotation of named entities in target text; determination of hidden entities in target text based on part-of-speech and juxtaposition symbols of named entities, and acquisition of hidden entities and core entities from target text; and combination entities composed of root and hidden entities of core entities. The part-of-speech tagging is carried out; the root of the core entity is queried and acquired in the presupposed entity root table according to the part-of-speech of the core entity; when the part-of-speech of the combined entity is the same as that of the core entity, the part-of-speech of the hidden entity tagging is updated according to the part-of-speech of the combined entity. This method can not only accurately identify the parts of speech corresponding to those easily recognized named entities in the target text, but also accurately identify the parts of speech corresponding to hidden entities in the target text, thus improving the recognition accuracy of named entities.

【技术实现步骤摘要】
一种命名实体的识别方法及装置
本申请涉及数据处理
,尤其涉及一种命名实体的识别方法及装置。
技术介绍
随着医疗信息化的发展,医疗数据的分析越来越重要。医疗数据可以是药品的流通数据、医疗活动的诊断数据以及医保报销的数据等数据,而且,由于这些医疗数据通常以电子病历的形式进行保存,因而可以通过对电子病历进行分析,实现对医疗数据的分析。为了能够精确地从大量的电子病历中获得有价值的数据,需要将电子病历中的数据转变为结构化数据,以便利用该结构化数据进行快速准确的查询以及分析。其中,结构化数据是指可以由二维表结构来逻辑表达和实现的数据。在电子病历转变为结构化数据的过程中,需要先对电子病历中的命名实体进行识别,以便后续根据该识别结果对电子病历进行结构化处理。其中,命名实体是指以名称为标识的实体,而且,疾病、症状、手术、药品、检查以及检验等实体均是医学领域待识别的命名实体。在病历文本中不仅包括易识别的命名实体,还包括不易识别的隐藏实体。其中,隐藏实体是指仅根据单个词语无法获得该词语的真实含义,但是结合整句文本能够理解该词语的具体含义的命名实体。例如,假设病历文本为:红、青霉素过敏,在该病历文本中,“青霉素”是一个易识别的命名实体,但是,由于仅根据“红”无法识别出“红霉素”的真实含义,需要结合整句文本的语义可以识别出“红”代表红霉素的真实含义,因而,“红”是一个隐藏实体。然而,由于现有的命名实体识别方法均是通过将病历文本拆分成多个命名实体,并对每个命名实体进行词性识别,而隐藏实体的真实含义无法通过单个命名实体进行准确地表示,因而,现有的实体识别方法均无法识别电子病历中的隐藏实体的词性,从而导致现有的命名实体识别方法对命名实体的识别精确度比较低。例如,当利用现有的命名实体识别方法对“红、青霉素过敏”进行词性识别时,先将该文本进行拆分得到“红”、“、”、“青霉素”和“过敏”的命名实体,然后利用命名实体识别方法对每个命名实体进行词性识别,得到每个分词的识别结果。此时,现有的命名实体识别方法能够根据分词“青霉素”识别出“青霉素”这个药品,但无法根据分词“红”识别出“红霉素”这个药品,导致现有的命名实体识别方法对命名实体的识别精确度比较低。
技术实现思路
为了解决现有技术中存在的以上技术问题,本申请提供一种命名实体的识别方法及装置,能够对病历文本中的隐藏实体进行精确的识别,从而提高命名实体的识别精确度,进而提高后续医疗数据分析的精确度。为了实现上述目的,本申请提供的技术方案如下:本申请提供一种命名实体的识别方法,包括:步骤A:对目标文本中的命名实体进行词性标注;步骤B:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;步骤C:对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;步骤D:当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。可选地,所述进行词性标注,具体包括:利用基于统计模型的方法进行词性标注;和/或,利用基于字典的方法进行词性标注。可选地,当利用基于字典的方法进行词性标注时,还包括:当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典。可选地,当利用基于统计模型的方法进行词性标注时,还包括:当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库,以便利用添加后的训练数据库重新训练所述统计模型。可选地,所述从所述目标文本中获取隐藏实体以及核心实体,具体包括:将所述目标文本进行拆分,得到至少一个命名实体;根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。可选地,所述步骤D之后,还包括:利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。可选地,所述根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,具体包括:判断与并列符号相邻的命名实体的词性是否相同;当与并列符号相邻的命名实体的词性不相同时,确定所述目标文本中存在隐藏实体。可选地,所述B、C和D,具体包括:S1:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取核心实体以及至少一个备选隐藏实体;S2:对由核心实体的词根和所述备选隐藏实体构成的备选组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;S3:当存在与所述核心实体的词性相同的备选组合实体时,根据与所述核心实体的词性相同的备选组合实体,得到目标组合实体以及目标隐藏实体;S4:根据目标组合实体的词性,更新所述目标隐藏实体标注的词性。可选地,所述S3,具体包括:当存在两个以上与所述核心实体的词性相同的备选组合实体时,将所有与所述核心实体的词性相同的备选组合实体中字数最多的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。本申请还提供了一种命名实体的识别装置,包括:第一标注单元,用于对目标文本中的命名实体进行词性标注;第一获取单元,用于根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;第二标注单元,用于对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;更新单元,用于当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。可选地,所述进行词性标注,具体包括:利用基于统计模型的方法进行词性标注;和/或,利用基于字典的方法进行词性标注。可选地,还包括:第一存储单元,用于当利用基于字典的方法进行词性标注,且所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;第一添加单元,用于当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典。可选地,还包括:第二存储单元,用于当利用基于统计模型的方法进行词性标注,且所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;第二添加单元,用于当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库中,以便利用添加后的训练数据库重新训练所述统计模型。可选地,所述第一获取单元,具体包括:拆分子单元,用于将所述目标文本进行拆分,得到至少一个命名实体;第一获取子单元,用于根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。可选地,还包括:第二获取单元,用于利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。可选地,所述第一获取单元,具体包括:判断子单元,用于判断与并列符号相邻的命名实体的词性是否相同;确定子单元,用于当与并列符号相邻的命名实体的词性不相同时,确定所述目标文本本文档来自技高网
...

【技术保护点】
1.一种命名实体的识别方法,其特征在于,包括:步骤A:对目标文本中的命名实体进行词性标注;步骤B:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;步骤C:对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;步骤D:当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。

【技术特征摘要】
1.一种命名实体的识别方法,其特征在于,包括:步骤A:对目标文本中的命名实体进行词性标注;步骤B:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;步骤C:对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;步骤D:当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。2.根据权利要求1所述的方法,其特征在于,所述进行词性标注,具体包括:利用基于统计模型的方法进行词性标注;和/或,利用基于字典的方法进行词性标注。3.根据权利要求2所述的方法,其特征在于,当利用基于字典的方法进行词性标注时,还包括:当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典。4.根据权利要求2所述的方法,其特征在于,当利用基于统计模型的方法进行词性标注时,还包括:当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库,以便利用添加后的训练数据库重新训练所述统计模型。5.根据权利要求1所述的方法,其特征在于,所述从所述目标文本中获取隐藏实体以及核心实体,具体包括:将所述目标文本进行拆分,得到至少一个命名实体;根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。6.根据权利要求1所述的方法,其特征在于,所述步骤D之后,还包括:利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。7.根据权利要求1所述的方法,其特征在于,所述根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,具体包括:判断与并列符号相邻的命名实体的词性是否相同;当与并列符号相邻的命名实体的词性不相同时,确定所述目标文本中存在隐藏实体。8.根据权利要求1所述的方法,其特征在于,所述B、C和D,具体包括:S1:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取核心实体以及至少一个备选隐藏实体;S2:对由核心实体的词根和所述备选隐藏实体构成的备选组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;S3:当存在与所述核心实体的词性相同的备选组合实体时,根据与所述核心实体的词性相同的备选组合实体,得到目标组合实体以及目标隐藏实体;S4:根据目标组合实体的词性,更新所述目标隐藏实体标注的词性。9.根据权利要求8所述的方法,其特征在于,所述S3,具体包括:当存在两个以上与所述核心实体的词性相同的备选组合实体时,将所有与所述核心实体的词性相同的备选组合实体中字数最多的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。10.一种命名实体的识别装置,其特征在于,包括:第一标注单元,用于对目标文本中的命名实体进行词性标注;第一获取...

【专利技术属性】
技术研发人员:刘宇陈联忠胡可云
申请(专利权)人:北京嘉和美康信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1