一种信息抽取方法及装置制造方法及图纸

技术编号:18007030 阅读:33 留言:0更新日期:2018-05-21 07:39
本申请实施例公开了一种信息提取方法,根据预设词库对预设文本进行分词,得到第一分词结果,从第一分词结果中提取所包括的多个待定词,从多个待定词中确定出没有包含关系的待定词作为对第一分词结果的信息提取结果。由于采用了两次分词,不仅可以将较长的第一分词结果提取出来,还可以从较长的第一分词结果中进一步提取出较短的、不具有包含关系的对第一分词结果的信息抽取结果,例如从完整的表示手术名称的词中提取出表示部位、疾病等信息的词,一方面增加了提取到的信息量,另一方面,通过第一分词结果与第一分词结果的信息抽取结果的结构层次设置,增强了数据结构化效果,有利于数据查询和定位。本申请实施例还公开了一种信息提取装置。

【技术实现步骤摘要】
一种信息抽取方法及装置
本申请涉及文本处理领域,尤其涉及一种信息抽取方法及装置。
技术介绍
电子病历(ElectronicMedicalRecord,EMR)也叫计算机化的病案系统或称基于计算机的病人记录。是医疗机构医务人员对门诊住院患者临床诊疗和指导干预、使用信息系统生成的文字、符号、图表、数据、图形等数字化的医疗服务工作记录。电子病历的发展为医生实时了解患者信息及临床科研提供了方便。但是目前电子病历中既有结构化数据也有非结构化数据,而其中一些重要信息大多存在于非结构化数据当中,例如电子病历中的主诉、现病史、既往史等。因此为了有效利用电子病历、发掘其中的有用信息就需要将非结构化数据生成结构化数据,该过程即为信息提取。在信息提取过程中,常常需要基于预设的词库对文本进行分词,以得到有用的信息,例如表示疾病、症状、手术等的词。现有技术基于最长匹配原则进行分词,即按照与词库中匹配的最长词进行分词,但是在很多情况下,该最长词中还包括其他较短的词,这些词也是非常有用的信息,而基于最长匹配原则无法将这些较短的词也提取出来,因此提取到的信息较少,影响数据结构化的效果。举例而言,假设基于最长匹配原则得到分词结果“膀胱内憩室切除术”,该词整体属于一个手术名称,但是在该词中,包括部位名称(膀胱内)、疾病名称(憩室)以及手术名称(切除术),由于“膀胱内憩室切除术”存在于词库中,所以若按照最长匹配原则,即便“膀胱内”、“憩室”和“切除术”这三个词也存在于词库中,也无法被提取出来。
技术实现思路
为了解决现有技术中不能对按照最长匹配原则得到的分词结果中较多的词进行提取的技术问题,本申请实施例提供了一种信息提取方法及装置。第一方面,本申请实施例提供了一种信息抽取方法,所述方法包括:根据预设词库对预设文本进行分词,得到第一分词结果;基于所述预设词库,从所述第一分词结果中提取包括的多个待定词,所述多个待定词不包括所述第一分词结果;从所述多个待定词中确定出没有包含关系的待定词作为对所述第一分词结果的信息抽取结果。可选的,所述从所述多个待定词中确定出没有包含关系的待定词作为对所述第一分词结果的信息抽取结果包括:按照每个待定词的首字和/或尾字在所述第一分词结果中的位置,对所述多个待定词进行排序;若当前待定词存在相邻的下一个待定词,则判断所述当前待定词是否与所述相邻的下一个待定词具有包含关系,若否,则将所述当前待定词和/或所述相邻的下一个待定词作为所述信息抽取结果,所述当前待定词为所述多个待定词中的其中一个待定词。可选的,若所述当前待定词与所述相邻的下一个待定词具有包含关系,则所述方法还包括:若所述当前待定词包含所述相邻的下一个待定词,则将所述当前待定词覆盖所述相邻的下一个待定词,并令所述相邻的下一个待定词为当前待定词,执行所述判断所述当前待定词是否包含所述相邻的下一个待定词的步骤;若所述当前待定词被所述相邻的下一个待定词包含,则令所述相邻的下一个待定词为所述当前待定词,执行所述判断所述当前待定词是否包含所述相邻的下一个待定词的步骤。可选的,若所述信息抽取结果包括第一待定词和第二待定词,则所述方法还包括:基于所述预设词库,判断所述第一待定词和所述第二待定词是否包括交叉词,所述交叉词为所述第一待定词中的一部分,且为所述第二待定词中的一部分;若包括,则判断所述交叉词的属性和第一待定子词的属性是否相同,若相同,则将所述交叉词从所述第二待定词中去除,得到修改后的第二待定词;若不相同,则将所述交叉词从所述第一待定词中去除,得到修改后的第一待定词,所述第一待定子词为所述第一待定词中与所述交叉词相邻的词。可选的,若所述交叉词的属性和第一待定子词的属性相同,则所述方法还包括:将所述第一分词结果、所述第一待定词和所述修改后的第二待定词之间的映射关系进行存储;若所述交叉词的属性和第一待定子词的属性不相同,则所述方法还包括:将所述第一分词结果、所述修改后的第一待定词和所述第二待定词之间的映射关系进行存储。第二方面,本申请实施例提供了一种信息抽取装置,所述装置包括:分词单元,用于根据预设词库对预设文本进行分词,得到第一分词结果;提取单元,用于基于所述预设词库,从所述第一分词结果中提取包括的多个待定词,所述多个待定词不包括所述第一分词结果;确定单元,用于从所述多个待定词中确定出没有包含关系的待定词作为对所述第一分词结果的信息抽取结果。可选的,所述确定单元包括:排序子单元,按照每个待定词的首字和/或尾字在所述第一分词结果中的位置,对所述多个待定词进行排序;判断子单元,用于若当前待定词存在相邻的下一个待定词,则判断所述当前待定词是否与所述相邻的下一个待定词具有包含关系,所述当前待定词为所述多个待定词中的其中一个待定词;确定子单元,用于若判断结果为否,则将所述当前待定词和/或所述相邻的下一个待定词作为所述信息抽取结果。可选的,所述确定单元还包括执行子单元,用于:所述当前待定词与所述相邻的下一个待定词具有包含关系时,若所述当前待定词包含所述相邻的下一个待定词,则将所述当前待定词覆盖所述相邻的下一个待定词,并令所述相邻的下一个待定词为当前待定词,执行所述判断所述当前待定词是否包含所述相邻的下一个待定词的步骤;若所述当前待定词被所述相邻的下一个待定词包含,则令所述相邻的下一个待定词为所述当前待定词,执行所述判断所述当前待定词是否包含所述相邻的下一个待定词的步骤。可选的,所述装置还包括:交叉词判断单元,用于若所述信息抽取结果包括第一待定词和第二待定词,基于所述预设词库,判断所述第一待定词和所述第二待定词是否包括交叉词,所述交叉词为所述第一待定词中的一部分,且为所述第二待定词中的一部分;属性判断单元,用于若包括,则判断所述交叉词的属性和第一待定子词的属性是否相同;修改单元,用于若相同,则将所述交叉词从所述第二待定词中去除,得到修改后的第二待定词;若不相同,则将所述交叉词从所述第一待定词中去除,得到修改后的第一待定词,所述第一待定子词为所述第一待定词中与所述交叉词相邻的词。可选的,所述装置还包括存储单元,具体用于:若所述交叉词的属性和第一待定子词的属性相同,将所述第一分词结果、所述第一待定词和所述修改后的第二待定词之间的映射关系进行存储;若所述交叉词的属性和第一待定子词的属性不相同,将所述第一分词结果、所述修改后的第一待定词和所述第二待定词之间的映射关系进行存储。由上可知,本申请实施例提供的信息提取方法,首先根据预设词库对预设文本进行分词,得到第一分词结果,然后基于预设词库,从第一分词结果中提取所包括的多个待定词,这多个待定词不包括第一分词结果,从多个待定词中确定出没有包含关系的待定词作为第一分词结果的信息提取结果。由于采用了两次分词,不仅可以将较长的第一分词结果提取出来,还可以从较长的第一分词结果中进一步提取出较短的、不具有包含关系的对第一分词结果的信息提取结果,例如从完整的表示手术名称的词中提取出表示部位、疾病等信息的词,一方面增加了提取到的信息量,另一方面,通过第一分词结果与对第一分词结果的信息抽取结果的结构层次设置,增强了数据结构化效果,有利于数据查询和定位。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作本文档来自技高网...
一种信息抽取方法及装置

【技术保护点】
一种信息抽取方法,其特征在于,所述方法包括:根据预设词库对预设文本进行分词,得到第一分词结果;基于所述预设词库,从所述第一分词结果中提取包括的多个待定词,所述多个待定词不包括所述第一分词结果;从所述多个待定词中确定出没有包含关系的待定词作为对所述第一分词结果的信息抽取结果。

【技术特征摘要】
1.一种信息抽取方法,其特征在于,所述方法包括:根据预设词库对预设文本进行分词,得到第一分词结果;基于所述预设词库,从所述第一分词结果中提取包括的多个待定词,所述多个待定词不包括所述第一分词结果;从所述多个待定词中确定出没有包含关系的待定词作为对所述第一分词结果的信息抽取结果。2.根据权利要求1所述的方法,其特征在于,所述从所述多个待定词中确定出没有包含关系的待定词作为对所述第一分词结果的信息抽取结果包括:按照每个待定词的首字和/或尾字在所述第一分词结果中的位置,对所述多个待定词进行排序;若当前待定词存在相邻的下一个待定词,则判断所述当前待定词是否与所述相邻的下一个待定词具有包含关系,若否,则将所述当前待定词和/或所述相邻的下一个待定词作为所述信息抽取结果,所述当前待定词为所述多个待定词中的其中一个待定词。3.根据权利要求2所述的方法,其特征在于,若所述当前待定词与所述相邻的下一个待定词具有包含关系,则所述方法还包括:若所述当前待定词包含所述相邻的下一个待定词,则将所述当前待定词覆盖所述相邻的下一个待定词,并令所述相邻的下一个待定词为当前待定词,执行所述判断所述当前待定词是否包含所述相邻的下一个待定词的步骤;若所述当前待定词被所述相邻的下一个待定词包含,则令所述相邻的下一个待定词为所述当前待定词,执行所述判断所述当前待定词是否包含所述相邻的下一个待定词的步骤。4.根据权利要求1至3任意一项所述的方法,其特征在于,若所述信息抽取结果包括第一待定词和第二待定词,则所述方法还包括:基于所述预设词库,判断所述第一待定词和所述第二待定词是否包括交叉词,所述交叉词为所述第一待定词中的一部分,且为所述第二待定词中的一部分;若包括,则判断所述交叉词的属性和第一待定子词的属性是否相同,若相同,则将所述交叉词从所述第二待定词中去除,得到修改后的第二待定词;若不相同,则将所述交叉词从所述第一待定词中去除,得到修改后的第一待定词,所述第一待定子词为所述第一待定词中与所述交叉词相邻的词。5.根据权利要求4所述的方法,其特征在于,若所述交叉词的属性和第一待定子词的属性相同,则所述方法还包括:将所述第一分词结果、所述第一待定词和所述修改后的第二待定词之间的映射关系进行存储;若所述交叉词的属性和第一待定子词的属性不相同,则所述方法还包括:将所述第一分词结果、所述修改后的第一待定词和所述第二待定词之间的映射关系进行存储。6.一种信息抽取装置,其特征在于,所述装置包括...

【专利技术属性】
技术研发人员:李重勋王利叶胡可云陈联忠
申请(专利权)人:北京嘉和美康信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1