【技术实现步骤摘要】
医疗实体分类模型生成方法、装置、设备和可读存储介质
本专利技术涉及数据处理
,尤其涉及一种医疗实体分类模型生成方法、装置、设备和可读存储介质。
技术介绍
现有方法中,单源疾病实体到知识图谱(KnowledgeGraph,KG)疾病实体的归一处理方式为:实体名匹配,实体同义词匹配,实体相似度计算后交付医学专家评估。主要存在缺点:错误率比较高,增加了医学专家的标注量,效率低。
技术实现思路
本专利技术实施例提供一种医疗实体分类模型生成方法、装置、设备和可读存储介质,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种医疗实体分类模型生成方法,包括:获取多个样本数据,一个所述样本数据包括至少两个医疗实体和所述至少两个医疗实体的同类判定结果;采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量;采用所述多个样本数据的医疗实体的词向量和所述同类判定结果,进行模型训练,生成医疗实体分类模型。在一种实施方式中,所述采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量,包括:对同一所述样本数据中的每个所述医疗实体,采用预先选定的所述多个特征,确定所述医疗实体对应所述多个特征的特征数据;根据所述特征数据,确定所述医疗实体的词向量的各个元素;将所述各个元素组成所述医疗实体的词向量。在一种实施方式中,所述多个特征包括字符特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:通过计算同一所述样本数据的至少两个医疗实体之间的字符相似度,确定所述医疗实体对应所述字符特征的特征数据。在一种实施方式中,所述多个特征包括原子词特征; ...
【技术保护点】
1.一种医疗实体分类模型生成方法,其特征在于,包括:获取多个样本数据,一个所述样本数据包括至少两个医疗实体和所述至少两个医疗实体的同类判定结果;采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量;采用所述多个样本数据的医疗实体的词向量和所述同类判定结果,进行模型训练,生成医疗实体分类模型。
【技术特征摘要】
1.一种医疗实体分类模型生成方法,其特征在于,包括:获取多个样本数据,一个所述样本数据包括至少两个医疗实体和所述至少两个医疗实体的同类判定结果;采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量;采用所述多个样本数据的医疗实体的词向量和所述同类判定结果,进行模型训练,生成医疗实体分类模型。2.根据权利要求1所述的方法,其特征在于,所述采用预先选定的多个特征,确定所述样本数据的每个所述医疗实体的词向量,包括:对同一所述样本数据中的每个所述医疗实体,采用预先选定的所述多个特征,确定所述医疗实体对应所述多个特征的特征数据;根据所述特征数据,确定所述医疗实体的词向量的各个元素;将所述各个元素组成所述医疗实体的词向量。3.根据权利要求2所述的方法,其特征在于,所述多个特征包括字符特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:通过计算同一所述样本数据的至少两个医疗实体之间的字符相似度,确定所述医疗实体对应所述字符特征的特征数据。4.根据权利要求2所述的方法,其特征在于,所述多个特征包括原子词特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:根据预先统计的高频原子词数据库和无监督分词方法,确定所述医疗实体的至少一个原子词;确定所述医疗实体的各个所述原子词的向量;对于每一所述医疗实体,基于所述医疗实体的各个原子词的向量,确定所述医疗实体对应所述原子词特征的特征数据。5.根据权利要求2所述的方法,其特征在于,所述多个特征包括构成成分特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:采用预定的第一分词方法和预先建立的构成成分词典,对所述医疗实体进行切分,得到所述医疗实体的多个构成成分;根据所述医疗实体的多个构成成分,确定所述医疗实体对应所述构成成分特征的特征数据。6.根据权利要求2所述的方法,其特征在于,所述多个特征包括语义特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:从预定的医疗实体语义数据库中,获取与所述医疗实体相匹配的语义数据;根据预定的第二切词方法,对所述语义数据进行切词,得到所述语义数据的多个词条;确定所述语义数据的多个词条的向量;通过拼接所述语义数据的多个词条的向量,确定所述医疗实体对应所述语义特征的特征数据。7.根据权利要求2所述的方法,其特征在于,所述多个特征包括上下位特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:确定所述医疗实体的上位医疗实体的信息和下位医疗实体的信息;根据所述上位实体的信息和所述下位医疗实体的信息,确定所述医疗实体对应所述上下位特征的特征数据。8.根据权利要求2所述的方法,其特征在于,所述多个特征包括关联医疗实体特征;所述确定所述医疗实体对应所述多个特征的特征数据,包括:根据预先建立的关联数据库,确定所述医疗实体的多个关联医疗实体的信息;根据所述医疗实体的多个关联医疗实体的信息,确定所述医疗实体对应所述关联医疗实体特征的特征数据;其中,所述医疗实体的所述关联医疗实体为:与所述医疗实体之间存在预定关联关系的医疗实体;所述预定关联关系包括:疾病和症状的关联关系、疾病和手术的关联关系以及疾病和药物的关联关系中的至少一项。9.根据权利要求2所...
【专利技术属性】
技术研发人员:郭辉,史亚冰,徐伟建,彭卫华,罗雨,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。