医疗实体分类模型生成方法、装置、设备和可读存储介质制造方法及图纸

技术编号:22166926 阅读:5 留言:0更新日期:2019-09-21 10:35
本发明专利技术实施例提出一种医疗实体分类模型生成方法、装置、设备和可读存储介质,所述方法包括:获取多个样本数据,一个所述样本数据包括至少两个医疗实体和所述至少两个医疗实体的同类判定结果;采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量;采用所述多个样本数据的医疗实体的词向量和所述同类判定结果,进行模型训练,生成医疗实体分类模型。本发明专利技术实施例通过多个特征,充分挖掘医疗实体的特征,提高分类结果的准确性。

Medical entity classification model generation methods, devices, devices and readable storage media

【技术实现步骤摘要】
医疗实体分类模型生成方法、装置、设备和可读存储介质
本专利技术涉及数据处理
,尤其涉及一种医疗实体分类模型生成方法、装置、设备和可读存储介质。
技术介绍
现有方法中,单源疾病实体到知识图谱(KnowledgeGraph,KG)疾病实体的归一处理方式为:实体名匹配,实体同义词匹配,实体相似度计算后交付医学专家评估。主要存在缺点:错误率比较高,增加了医学专家的标注量,效率低。
技术实现思路
本专利技术实施例提供一种医疗实体分类模型生成方法、装置、设备和可读存储介质,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种医疗实体分类模型生成方法,包括:获取多个样本数据,一个所述样本数据包括至少两个医疗实体和所述至少两个医疗实体的同类判定结果;采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量;采用所述多个样本数据的医疗实体的词向量和所述同类判定结果,进行模型训练,生成医疗实体分类模型。在一种实施方式中,所述采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量,包括:对同一所述样本数据中的每个所述医疗实体,采用预先选定的所述多个特征,确定所述医疗实体对应所述多个特征的特征数据;根据所述特征数据,确定所述医疗实体的词向量的各个元素;将所述各个元素组成所述医疗实体的词向量。在一种实施方式中,所述多个特征包括字符特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:通过计算同一所述样本数据的至少两个医疗实体之间的字符相似度,确定所述医疗实体对应所述字符特征的特征数据。在一种实施方式中,所述多个特征包括原子词特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:根据预先统计的高频原子词数据库和无监督分词方法,确定所述医疗实体的至少一个原子词;确定所述医疗实体的各个所述原子词的向量;对于每一所述医疗实体,基于所述医疗实体的各个原子词的向量,确定所述医疗实体对应所述原子词特征的特征数据。在一种实施方式中,所述多个特征包括构成成分特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:采用预定的第一分词方法和预先建立的构成成分词典,对所述医疗实体进行切分,得到所述医疗实体的多个构成成分;根据所述医疗实体的多个构成成分,确定所述医疗实体对应所述构成成分特征的特征数据。在一种实施方式中,所述多个特征包括语义特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:从预定的医疗实体语义数据库中,获取与所述医疗实体相匹配的语义数据;根据预定的第二切词方法,对所述语义数据进行切词,得到所述语义数据的多个词条;确定所述语义数据的多个词条的向量;通过拼接所述语义数据的多个词条的向量,确定所述医疗实体对应所述语义特征的特征数据。在一种实施方式中,所述多个特征包括上下位特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:确定所述医疗实体的上位医疗实体的信息和下位医疗实体的信息;根据所述上位实体的信息和所述下位医疗实体的信息,确定所述医疗实体对应所述上下位特征的特征数据。在一种实施方式中,所述多个特征包括关联医疗实体特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:根据预先建立的关联数据库,确定所述医疗实体的多个关联医疗实体的信息;根据所述医疗实体的多个关联医疗实体的信息,确定所述医疗实体对应所述关联医疗实体特征的特征数据;其中,所述医疗实体的所述关联医疗实体为:与所述医疗实体之间存在预定关联关系的医疗实体;所述预定关联关系包括:疾病和症状的关联关系、疾病和手术的关联关系以及疾病和药物的关联关系中的至少一项。在一种实施方式中,所述多个特征包括类型特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:确定所述医疗实体的类型信息;根据所述医疗实体的类型信息,确定所述医疗实体对应所述类型特征的特征数据;所述类型信息包括疾病、症状、药物、科室、医疗器械、治疗方法或手术。在一种实施方式中,所述多个特征包括国际疾病分类编码特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:确定所述医疗实体的国际疾病分类编码;根据所述国际疾病分类编码,确定所述医疗实体对应所述国际疾病分类编码特征的特征数据。第二方面,本专利技术实施例提供一种医疗实体分类方法,包括:接收待分类的至少两个医疗实体;采用预先选定的多个特征,确定每个所述医疗实体的词向量;将所述待分类的至少两个医疗实体的词向量输入预先训练的医疗实体分类模型,得到所述医疗实体分类模型输出的所述至少两个医疗实体的同类判定结果。在一种实施方式中,所述多个特征包括字符特征、原子词特征、构成成分特征、语义特征、上下位特征和关联医疗实体特征中的至少两种特征。第三方面,本专利技术实施例提供一种医疗实体分类模型生成装置,包括:样本数据模块,用于获取多个样本数据,一个所述样本数据包括至少两个医疗实体和所述至少两个医疗实体的同类判定结果;第一词向量确定模块,用于采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量;分类模型训练模块,用于采用所述多个样本数据的医疗实体的词向量和所述同类判定结果,进行模型训练,生成医疗实体分类模型。在一种实施方式中,所述第一词向量确定模块,包括:特征数据确定子模块,用于对同一所述样本数据中的每个所述医疗实体,采用预先选定的所述多个特征,确定所述医疗实体对应所述多个特征的特征数据;词向量确定子模块,用于根据所述特征数据,确定所述医疗实体的词向量的各个元素;将所述各个元素组成所述医疗实体的词向量。在一种实施方式中,所述多个特征包括字符特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:通过计算同一所述样本数据的至少两个医疗实体之间的字符相似度,确定所述医疗实体对应所述字符特征的特征数据。在一种实施方式中,所述多个特征包括原子词特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:根据预先统计的高频原子词数据库和无监督分词装置,确定所述医疗实体的至少一个原子词;确定所述医疗实体的各个所述原子词的向量;对于每一所述医疗实体,基于所述医疗实体的各个原子词的向量,确定所述医疗实体对应所述原子词特征的特征数据。在一种实施方式中,所述多个特征包括构成成分特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:采用预定的第一分词装置和预先建立的构成成分词典,对所述医疗实体进行切分,得到所述医疗实体的多个构成成分;根据所述医疗实体的多个构成成分,确定所述医疗实体对应所述构成成分特征的特征数据。在一种实施方式中,所述多个特征包括语义特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:从预定的医疗实体语义数据库中,获取与所述医疗实体相匹配的语义数据;根据预定的第二切词装置,对所述语义数据进行切词,得到所述语义数据的多个词条;确定所述语义数据的多个词条的向量;通过拼接所述语义数据的多个词条的向量,确定所述医疗实体对应所述语义特征的特征数据。在一种实施方式中,所述多个特征包括上下位特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:确定所述医疗实体的上位医疗实体的信息和下位医疗实体的信息;根据所述上位实体的信息和所述下位医疗实体的信息,确定所述医疗实体对应所述上下位特征的特征数据。在一种实施本文档来自技高网...

【技术保护点】
1.一种医疗实体分类模型生成方法,其特征在于,包括:获取多个样本数据,一个所述样本数据包括至少两个医疗实体和所述至少两个医疗实体的同类判定结果;采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量;采用所述多个样本数据的医疗实体的词向量和所述同类判定结果,进行模型训练,生成医疗实体分类模型。

【技术特征摘要】
1.一种医疗实体分类模型生成方法,其特征在于,包括:获取多个样本数据,一个所述样本数据包括至少两个医疗实体和所述至少两个医疗实体的同类判定结果;采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量;采用所述多个样本数据的医疗实体的词向量和所述同类判定结果,进行模型训练,生成医疗实体分类模型。2.根据权利要求1所述的方法,其特征在于,所述采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量,包括:对同一所述样本数据中的每个所述医疗实体,采用预先选定的所述多个特征,确定所述医疗实体对应所述多个特征的特征数据;根据所述特征数据,确定所述医疗实体的词向量的各个元素;将所述各个元素组成所述医疗实体的词向量。3.根据权利要求2所述的方法,其特征在于,所述多个特征包括字符特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:通过计算同一所述样本数据的至少两个医疗实体之间的字符相似度,确定所述医疗实体对应所述字符特征的特征数据。4.根据权利要求2所述的方法,其特征在于,所述多个特征包括原子词特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:根据预先统计的高频原子词数据库和无监督分词方法,确定所述医疗实体的至少一个原子词;确定所述医疗实体的各个所述原子词的向量;对于每一所述医疗实体,基于所述医疗实体的各个原子词的向量,确定所述医疗实体对应所述原子词特征的特征数据。5.根据权利要求2所述的方法,其特征在于,所述多个特征包括构成成分特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:采用预定的第一分词方法和预先建立的构成成分词典,对所述医疗实体进行切分,得到所述医疗实体的多个构成成分;根据所述医疗实体的多个构成成分,确定所述医疗实体对应所述构成成分特征的特征数据。6.根据权利要求2所述的方法,其特征在于,所述多个特征包括语义特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:从预定的医疗实体语义数据库中,获取与所述医疗实体相匹配的语义数据;根据预定的第二切词方法,对所述语义数据进行切词,得到所述语义数据的多个词条;确定所述语义数据的多个词条的向量;通过拼接所述语义数据的多个词条的向量,确定所述医疗实体对应所述语义特征的特征数据。7.根据权利要求2所述的方法,其特征在于,所述多个特征包括上下位特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:确定所述医疗实体的上位医疗实体的信息和下位医疗实体的信息;根据所述上位实体的信息和所述下位医疗实体的信息,确定所述医疗实体对应所述上下位特征的特征数据。8.根据权利要求2所述的方法,其特征在于,所述多个特征包括关联医疗实体特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:根据预先建立的关联数据库,确定所述医疗实体的多个关联医疗实体的信息;根据所述医疗实体的多个关联医疗实体的信息,确定所述医疗实体对应所述关联医疗实体特征的特征数据;其中,所述医疗实体的所述关联医疗实体为:与所述医疗实体之间存在预定关联关系的医疗实体;所述预定关联关系包括:疾病和症状的关联关系、疾病和手术的关联关系以及疾病和药物的关联关系中的至少一项。9.根据权利要求2所...

【专利技术属性】
技术研发人员:郭辉史亚冰徐伟建彭卫华罗雨
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1