一种语句归类方法及装置制造方法及图纸

技术编号:17912354 阅读:39 留言:0更新日期:2018-05-10 18:14
本申请实施例公开了一种语句归类方法,方法包括:获取病历文本,并对病历文本中的语句进行分割,得到若干个子句;对若干个子句进行分词,得到每一个子句的分词结果;根据每一个子句的分词结果以及属性词语概率表得到每一个子句属于各个属性的概率;基于每一个子句属于各个属性的概率确定每一个子句的待定属性;若存在至少两个相邻的且待定属性相同的子句,则将至少两个相邻的且待定属性相同的子句归为一类。这样,可以将不同类别的子句分开提取,避免了在结构化提取过程中会出现差错,进而提高了结构化提取的准确性,使得能够对一句话中的多个子句进行准确地结构化提取。

【技术实现步骤摘要】
一种语句归类方法及装置
本申请涉及大数据领域,尤其涉及一种语句归类方法及装置。
技术介绍
电子病历(ElectronicMedicalRecord,简称EMR)是基于计算机的病人记录(Computer-BasedPatientRecord,简称CPR),它是用电子设备保存、管理、传输和重现的数字化的病人的医疗记录。电子病历的普及极大地方便了医生了解、跟进病人的详细情况以及基于病历统计分析的临床决策等功能的实现。由于临床决策等功能的实现都是以结构化数据为依据的,但是电子病历是由结构化和非结构化数据共同组成,且其中绝大多数非常重要的信息都是以非结构化的形式保存的(如入院记录中的现病史、主诉等)。因此,充分利用电子病历的信息的前提是将非结构化数据进行结构化提取,而提取准确的结构化信息的前提是将书写不规范的病历规范化。常见的书写不规范的病历,是将多个属性的信息,用多个子句的形式,放在一句话里描述。例如,“肠鸣音正常,4次/分,双下肢轻度可凹性浮肿。”在这句话中一共包括三个子句,其中前两个子句“肠鸣音正常,4次/分”描述的是腹部的特征,而第三个子句“双下肢轻度可凹性浮肿”描述的是四肢的特征,这两个不同部位放在一句话中描述,在结构化提取过程中会出现差错,正确的做法应该是将描述这两个部位的特征分开提取,即将前两个子句一起提取,第三个子句单独提取。所以如何将一句话包括的多个子句进行归类,以便能够准确的进行结构化的提取是目前需要解决的问题。
技术实现思路
有鉴于此,本申请实施例的主要目的在于提供一种语句归类方法及装置,能够提高结构化提取的准确性,使得能够对一句话中的多个子句进行准确地结构化提取。第一方面,本申请提供了一种语句归类方法,所述方法包括:获取病历文本,并对所述病历文本中的语句进行分割,得到若干个子句;对所述若干个子句进行分词,得到每一个子句的分词结果;根据所述每一个子句的分词结果以及属性词语概率表得到每一个子句属于各个属性的概率,所述属性词语概率表体现各个词语分别表达不同属性的概率;基于所述每一个子句属于各个属性的概率确定每一个子句的待定属性;若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类。可选的,所述基于所述每一个子句属于各个属性的概率确定每一个子句的待定属性,包括:针对所述每一个子句,将该子句属于各个属性的概率由高到低进行排名,得到该子句的概率排名;确定所述概率排名中的前N个属性,并将所述前N个属性作为该子句的待定属性;其中,N为正整数。可选的,若所述若干个子句包括第一子句,且所述第一子句的待定属性包括第一待定属性;则将所述第一待定属性作为当前待定属性;其中,所述第一待定属性在所述第一子句的概率排名中的名次最高;若所述若干个子句还包括第二子句,且所述第一子句和所述第二子句相邻,以及所述第二子句的位置在所述第一子句之前,则所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类,包括:若所述当前待定属性与所述第二子句的属性一致,则将所述第一子句和所述第二子句归为一类;确定所述当前待定属性为所述第一子句的属性。可选的,若所述若干个子句包括第一子句、第二子句和第三子句,且所述第一子句的待定属性包括第一待定属性,所述第三子句的待定属性包括第二待定属性;则将所述第一待定属性作为当前待定属性;其中,所述第一待定属性在所述第一子句的概率排名中的名次最高,所述第二待定属性在所述第三子句的概率排名中的名次最高;所述第一子句和所述第二子句相邻、所述第一子句和所述第三子句相邻、所述第二子句的位置在所述第一子句之前以及所述第一子句的位置在所述第三子句之前;则所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类,包括:若所述当前待定属性与所述第二子句的属性不一致,而所述当前待定属性与所述第二待定属性一致,则将所述第一子句和所述第三子句归为一类;确定所述当前待定属性为所述第一子句的属性;确定所述第二待定属性为所述第三子句的属性。可选的,若所述若干个子句包括第一子句、第二子句、第三子句和第四子句,且所述第一子句的待定属性包括第一待定属性,所述第三子句的待定属性包括第二待定属性;则将所述第一待定属性作为当前待定属性;其中,所述第一待定属性在所述第一子句的概率排名中的名次最高,所述第二待定属性在所述第三子句的概率排名中的名次最高;所述第一子句和所述第二子句相邻、所述第一子句和所述第三子句相邻、所述第三子句和所述第四子句相邻、所述第二子句的位置在所述第一子句之前、所述第一子句的位置在所述第三子句之前以及所述第三子句的位置在所述第四子句之前;则所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类,包括:若所述当前待定属性与所述第二子句的属性不一致,所述当前待定属性与所述第二待定属性不一致,而所述第二待定属性与所述第四子句的待定属性一致,则将所述第一子句归为一类,将所述第三子句和所述第四子句归为一类;确定所述第一待定属性为所述第一子句的属性;确定所述第二待定属性为所述第三子句的属性;确定所述第四子句的待定属性为所述第四子句的属性。可选的,若所述若干个子句包括第一子句、第二子句、第三子句和第四子句,且所述第一子句的待定属性包括第一待定属性,所述第三子句的待定属性包括第二待定属性;则将所述第一待定属性作为当前待定属性;其中,所述第一待定属性在所述第一子句的概率排名中的名次最高,所述第二待定属性在所述第三子句的概率排名中的名次最高;所述第一子句和所述第二子句相邻、所述第一子句和所述第三子句相邻、所述第三子句和所述第四子句相邻、所述第二子句的位置在所述第一子句之前、所述第一子句的位置在所述第三子句之前以及所述第三子句的位置在所述第四子句之前;则所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类,包括:若所述当前待定属性与所述第二子句的属性不一致,所述当前待定属性与所述第二待定属性不一致,所述第二待定属性与所述第四子句的待定属性也不一致,而所述当前待定属性与所述第四子句的待定属性一致,则将所述第一子句、所述第三子句和所述第四子句归为一类;确定所述当前待定属性为所述第一子句和所述第三子句的属性;确定所述第四子句的待定属性为所述第四子句的属性。可选的,若所述若干个子句包括第一子句、第二子句、第三子句和第四子句,且所述第一子句的待定属性包括第一待定属性和第三待定属性,所述第三子句的待定属性包括第二待定属性;则将所述第一待定属性作为当前待定属性;其中,所述第一待定属性在所述第一子句的概率排名中的名次最高,所述第三待定属性在所述第一子句的概率排名中的排名仅次于所述第一待定属性,所述第二待定属性在所述第三子句的概率排名中的名次最高;所述第一子句和所述第二子句相邻、所述第一子句和所述第三子句相邻、所述第三子句和所述第四子句相邻、所述第二子句的位置在所述第一子句之前、所述第一子句的位置在所述第三子句之前以及所述第三子句的位置在所述第四子句之前;则所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类,包本文档来自技高网...
一种语句归类方法及装置

【技术保护点】
一种语句归类方法,其特征在于,所述方法包括:获取病历文本,并对所述病历文本中的语句进行分割,得到若干个子句;对所述若干个子句进行分词,得到每一个子句的分词结果;根据所述每一个子句的分词结果以及属性词语概率表得到每一个子句属于各个属性的概率,所述属性词语概率表体现各个词语分别表达不同属性的概率;基于所述每一个子句属于各个属性的概率确定每一个子句的待定属性;若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类。

【技术特征摘要】
1.一种语句归类方法,其特征在于,所述方法包括:获取病历文本,并对所述病历文本中的语句进行分割,得到若干个子句;对所述若干个子句进行分词,得到每一个子句的分词结果;根据所述每一个子句的分词结果以及属性词语概率表得到每一个子句属于各个属性的概率,所述属性词语概率表体现各个词语分别表达不同属性的概率;基于所述每一个子句属于各个属性的概率确定每一个子句的待定属性;若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类。2.根据权利要求1所述的方法,其特征在于,所述基于所述每一个子句属于各个属性的概率确定每一个子句的待定属性,包括:针对所述每一个子句,将该子句属于各个属性的概率由高到低进行排名,得到该子句的概率排名;确定所述概率排名中的前N个属性,并将所述前N个属性作为该子句的待定属性;其中,N为正整数。3.根据权利要求2所述的方法,其特征在于,若所述若干个子句包括第一子句,且所述第一子句的待定属性包括第一待定属性;则将所述第一待定属性作为当前待定属性;其中,所述第一待定属性在所述第一子句的概率排名中的名次最高;若所述若干个子句还包括第二子句,且所述第一子句和所述第二子句相邻,以及所述第二子句的位置在所述第一子句之前,则所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类,包括:若所述当前待定属性与所述第二子句的属性一致,则将所述第一子句和所述第二子句归为一类;确定所述当前待定属性为所述第一子句的属性。4.根据权利要求2所述的方法,其特征在于,若所述若干个子句包括第一子句、第二子句和第三子句,且所述第一子句的待定属性包括第一待定属性,所述第三子句的待定属性包括第二待定属性;则将所述第一待定属性作为当前待定属性;其中,所述第一待定属性在所述第一子句的概率排名中的名次最高,所述第二待定属性在所述第三子句的概率排名中的名次最高;所述第一子句和所述第二子句相邻、所述第一子句和所述第三子句相邻、所述第二子句的位置在所述第一子句之前以及所述第一子句的位置在所述第三子句之前;则所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类,包括:若所述当前待定属性与所述第二子句的属性不一致,而所述当前待定属性与所述第二待定属性一致,则将所述第一子句和所述第三子句归为一类;确定所述当前待定属性为所述第一子句的属性;确定所述第二待定属性为所述第三子句的属性。5.根据权利要求2所述的方法,其特征在于,若所述若干个子句包括第一子句、第二子句、第三子句和第四子句,且所述第一子句的待定属性包括第一待定属性,所述第三子句的待定属性包括第二待定属性;则将所述第一待定属性作为当前待定属性;其中,所述第一待定属性在所述第一子句的概率排名中的名次最高,所述第二待定属性在所述第三子句的概率排名中的名次最高;所述第一子句和所述第二子句相邻、所述第一子句和所述第三子句相邻、所述第三子句和所述第四子句相邻、所述第二子句的位置在所述第一子句之前、所述第一子句的位置在所述第三子句之前以及所述第三子句的位置在所述第四子句之前;则所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类,包括:若所述当前待定属性与所述第二子句的属性不一致,所述当前待定属性与所述第二待定属性不一致,而所述第二待定属性与所述第四子句的待定属性一致,则将所述第一子句归为一类,将所述第三子句和所述第四子句归为一类;确定所述第一待定属性为所述第一子句的属性;确定所述第二待定属性为所述第三子句的属性;确定所述第四子句的待定属性为所述第四子句的属性。6.根据权利要求2所述的方法,其特征在于,若所述若干个子句包括第一子句、第二子句、第三子句和第四子句,且所述第一子句的待定属性包括第一待定属性,所述第三子句的待定属性包括第二待定属性;则将所述第一待定属性作为当前待定属性;其中,所述第一待定属性在所述第一子句的概率排名中的名次最高,所述第二待定属性在所述第三子句的概率排名中的名次最高;所述第一子句和所述第二子句相邻、所述第一子句和所述第三子句相邻、所述第三子句和所述第四子句相邻、所述第二子句的位置在所述第一子句之前、所述第一子句的位置在所述第三子句之前以及所述第三子句的位置在所述第四子句之前;则所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类,包括:若所述当前待定属性与所述第二子句的属性不一致,所述当前待定属性与所述第二待定属性不一致,所述第二待定属性与所述第四子句的待定属性也不一致,而所述当前待定属性与所述第四子句的待定属性一致,则将所述第一子句、所述第三子句和所述第四子句归为一类;确定所述当前待定属性为所述第一子句和所述第三子句的属性;确定所述第四子句的待定属性为所述第四子句的属性。7.根据权利要求2所述的方法,其特征在于,若所述若干个子句包括第一子句、第二子句、第三子句和第四子句,且所述第一子句的待定属性包括第一待定属性和第三待定属性,所述第三子句的待定属性包括第二待定属性;则将所述第一待定属性作为当前待定属性;其中,所述第一待定属性在所述第一子句的概率排名中的名次最高,所述第三待定属性在所述第一子句的概率排名中的排名仅次于所述第一待定属性,所述第二待定属性在所述第三子句的概率排名中的名次最高;所述第一子句和所述第二子句相邻、所述第一子句和所述第三子句相邻、所述第三子句和所述第四子句相邻、所述第二子句的位置在所述第一子句之前、所述第一子句的位置在所述第三子句之前以及所述第三子句的位置在所述第四子句之前;则所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类,包括:若所述当前待定属性与所述第二子句的属性不一致,所述当前待定属性与所述第二待定属性不一致,所述第二待定属性与所述第四子句的待定属性不一致,且所述当前待定属性与所述第四子句的待定属性也不一致,则继续判断所述当前待定属性是否为所述第三待定属性;若否,则将所述第三待定属性作为当前待定属性,继续执行所述若存在至少两个相邻的且待定属性相同的子句,则将所述至少两个相邻的且待定属性相同的子句归为一类的步骤;若是,则确定所述第一待定属性为...

【专利技术属性】
技术研发人员:胡文凤胡可云陈联忠
申请(专利权)人:北京嘉和美康信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1