This application discloses a method and device for identifying named entities, and the method includes: part-of-speech annotation of named entities in target text; determination of hidden entities in target text based on part-of-speech and juxtaposition symbols of named entities, and acquisition of hidden entities and core entities from target text; and combination entities composed of root and hidden entities of core entities. The part-of-speech tagging is carried out; the root of the core entity is queried and acquired in the presupposed entity root table according to the part-of-speech of the core entity; when the part-of-speech of the combined entity is the same as that of the core entity, the part-of-speech of the hidden entity tagging is updated according to the part-of-speech of the combined entity. This method can not only accurately identify the parts of speech corresponding to those easily recognized named entities in the target text, but also accurately identify the parts of speech corresponding to hidden entities in the target text, thus improving the recognition accuracy of named entities.
【技术实现步骤摘要】
一种命名实体的识别方法及装置
本申请涉及数据处理
,尤其涉及一种命名实体的识别方法及装置。
技术介绍
随着医疗信息化的发展,医疗数据的分析越来越重要。医疗数据可以是药品的流通数据、医疗活动的诊断数据以及医保报销的数据等数据,而且,由于这些医疗数据通常以电子病历的形式进行保存,因而可以通过对电子病历进行分析,实现对医疗数据的分析。为了能够精确地从大量的电子病历中获得有价值的数据,需要将电子病历中的数据转变为结构化数据,以便利用该结构化数据进行快速准确的查询以及分析。其中,结构化数据是指可以由二维表结构来逻辑表达和实现的数据。在电子病历转变为结构化数据的过程中,需要先对电子病历中的命名实体进行识别,以便后续根据该识别结果对电子病历进行结构化处理。其中,命名实体是指以名称为标识的实体,而且,疾病、症状、手术、药品、检查以及检验等实体均是医学领域待识别的命名实体。在病历文本中不仅包括易识别的命名实体,还包括不易识别的隐藏实体。其中,隐藏实体是指仅根据单个词语无法获得该词语的真实含义,但是结合整句文本能够理解该词语的具体含义的命名实体。例如,假设病历文本为:红、青霉素过敏,在该病历文本中,“青霉素”是一个易识别的命名实体,但是,由于仅根据“红”无法识别出“红霉素”的真实含义,需要结合整句文本的语义可以识别出“红”代表红霉素的真实含义,因而,“红”是一个隐藏实体。然而,由于现有的命名实体识别方法均是通过将病历文本拆分成多个命名实体,并对每个命名实体进行词性识别,而隐藏实体的真实含义无法通过单个命名实体进行准确地表示,因而,现有的实体识别方法均无法识别电子病历中的 ...
【技术保护点】
1.一种命名实体的识别方法,其特征在于,包括:步骤A:对目标文本中的命名实体进行词性标注;步骤B:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;步骤C:对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;步骤D:当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。
【技术特征摘要】
1.一种命名实体的识别方法,其特征在于,包括:步骤A:对目标文本中的命名实体进行词性标注;步骤B:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;步骤C:对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;步骤D:当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。2.根据权利要求1所述的方法,其特征在于,所述进行词性标注,具体包括:利用基于统计模型的方法进行词性标注;和/或,利用基于字典的方法进行词性标注。3.根据权利要求2所述的方法,其特征在于,当利用基于字典的方法进行词性标注时,还包括:当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典。4.根据权利要求2所述的方法,其特征在于,当利用基于统计模型的方法进行词性标注时,还包括:当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库,以便利用添加后的训练数据库重新训练所述统计模型。5.根据权利要求1所述的方法,其特征在于,所述从所述目标文本中获取隐藏实体以及核心实体,具体包括:将所述目标文本进行拆分,得到至少一个命名实体;根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。6.根据权利要求1所述的方法,其特征在于,所述步骤D之后,还包括:利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。7.根据权利要求1所述的方法,其特征在于,所述根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,具体包括:判断与并列符号相邻的命名实体的词性是否相同;当与并列符号相邻的命名实体的词性不相同时,确定所述目标文本中存在隐藏实体。8.根据权利要求1所述的方法,其特征在于,所述B、C和D,具体包括:S1:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取核心实体以及至少一个备选隐藏实体;S2:对由核心实体的词根和所述备选隐藏实体构成的备选组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;S3:当存在与所述核心实体的词性相同的备选组合实体时,根据与所述核心实体的词性相同的备选组合实体,得到目标组合实体以及目标隐藏实体;S4:根据目标组合实体的词性,更新所述目标隐藏实体标注的词性。9.根据权利要求8所述的方法,其特征在于,所述S3,具体包括:当存在两个以上与所述核心实体的词性相同的备选组合实体时,将所有与所述核心实体的词性相同的备选组合实体中字数最多的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。10.一种命名实体的识别装置,其特征在于,包括:第一标注单元,用于对目标文本中的命名实体进行词性标注;第一获取...
【专利技术属性】
技术研发人员:刘宇,陈联忠,胡可云,
申请(专利权)人:北京嘉和美康信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。