实体知识图谱建立、属性信息获取、门诊分诊方法及装置制造方法及图纸

技术编号:24756501 阅读:35 留言:0更新日期:2020-07-04 09:14
本申请实施例公开了一种实体知识图谱建立、属性信息获取、门诊分诊方法及装置,实体知识图谱建立过程为:利用通过第一文本及第一分词结果训练得到的实体识别模型和/或包括目标领域术语词典的目标领域分词器对第二文本进行实体识别,以便在将识别得到的实体及对应的实体类别标签添加到目标领域实体列表后,获取目标领域实体列表中实体间关联关系及实体相关属性,利用目标领域实体列表中实体对应的实体类别标签、实体间关联关系及实体相关属性建立目标领域实体知识图谱,使得目标领域实体知识图谱能够准确地记录有基于目标领域中已有文档学习到的有用信息。

Entity knowledge mapping, attribute information acquisition, outpatient triage method and device

【技术实现步骤摘要】
实体知识图谱建立、属性信息获取、门诊分诊方法及装置
本申请涉及信息处理
,具体涉及一种目标领域实体知识图谱建立方法、属性信息获取方法、门诊分诊方法及装置、设备。
技术介绍
在一些
(例如,医疗领域或刑侦领域等),可以从该
中的已有文档(例如,医疗领域中的历史病历、医学文献等或刑侦领域中的历史询问笔录、刑侦文献等)学习到可用信息,以便后续可以利用这些可用信息来分析该
中的新文档(例如,医疗领域中的新病历或刑侦领域中的新询问笔录)。另外,上述可用信息通常是利用基于该
的专家规则构建的专家系统进行学习的。其中,因针对不同已有文档制定的专家规则是不同的,甚至是相反的,如此导致利用专家系统学习到的可用信息的准确性会产生跷跷板现象。
技术实现思路
有鉴于此,本申请实施例提供一种实体知识图谱建立、属性信息获取、门诊分诊方法及装置,能够准确地从已有文档中学习可用信息。为解决上述问题,本申请实施例提供的技术方案如下:第一方面,提供一种目标领域实体知识图谱建立方法,所述方法包括:利用实体识别模型对第二文本进行实体识别,和/或,利用目标领域分词器对第二文本进行实体识别;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表;获取所述目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性;利用所述目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱。在第一方面的第一种可能的实现方式中,所述方法还包括:利用目标领域分词器对第一文本进行分词得到第一分词结果,所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;利用所述第一文本以及所述第一分词结果训练得到实体识别模型。在第一方面的第二种可能的实现方式中,所述利用所述第一文本以及所述第一分词结果训练得到实体识别模型,包括:根据所述第一文本训练字向量模型;将所述第一分词输入所述字向量模型,得到所述第一分词中每个字符的字向量;将所述第一分词中各个字符的字向量、所述第一分词中各个字符的字符序列标签以及所述第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,所述实体识别模型采用基于双向长短期记忆网络以及条件随机场的网络结构。在第一方面的第三种可能的实现方式中,所述利用实体识别模型对第二文本进行实体识别,包括:将第二文本输入所述字向量模型,得到所述第二文本中各个字符的字向量;将所述第二文本中各个字符的字向量输入所述实体识别模型,得到所述实体识别模型输出的所述第二文本中各个字符对应的字符序列标签和/或实体类别标签;根据所述第二文本中各个字符对应的字符序列标签确定所述第二文本中包含的实体,根据所述第二文本中各个字符对应的实体类别标签确定所述第二文本中包含的实体对应的实体类别标签。在第一方面的第四种可能的实现方式中,所述将识别得到的实体对应的实体类别标签添加到目标领域实体列表,包括:当未确定出所述第二文本中包含的实体对应的实体类别标签时,将该实体对应的实体类别标签确定为空缺,并将该实体以及对应的实体类别标签作为未知类别实体添加到目标领域实体列表;当确定出所述第二文本中包含的实体对应的实体类别标签时,将该实体以及对应的实体类别标签作为已知类别实体添加到目标领域实体列表。在第一方面的第五种可能的实现方式中,所述利用目标领域分词器对第二文本进行实体识别,包括:利用所述目标领域分词器对第二文本进行分词,当所述第二文本包含的分词对应有实体类别标签时,将该分词确定为实体;所述将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表,包括:将识别得到的实体以及对应的实体类别标签作为已知类别实体添加到目标领域实体列表。在第一方面的第六种可能的实现方式中,所述方法还包括:计算所述目标领域实体列表中目标实体与其他实体的相似性;根据所述目标实体与其他实体的相似性,确定所述目标实体的等价实体,所述目标实体与所述目标实体的等价实体之间具有等价的关联关系,所述目标实体分别为所述目标领域实体列表中的每一实体。在第一方面的第七种可能的实现方式中,所述计算所述目标领域实体列表中目标实体与其他实体的相似性,包括:根据所述第一文本以及所述第一分词结果中的第一分词训练词向量模型;将所述目标领域实体列表中的实体输入所述词向量模型,得到各个所述实体的词向量;计算所述目标领域实体列表中目标实体的词向量与其他实体的词向量的空间距离作为所述目标领域实体列表中目标实体与其他实体的相似性。在第一方面的第八种可能的实现方式中,所述方法还包括:当所述目标领域实体列表中已知类别实体为未知类别实体的等价实体时,将该已知类别实体的实体类别标签添加为该未知类别实体的实体类别标签。在第一方面的第九种可能的实现方式中,所述方法还包括:获取所述第一分词中的连续单字词;计算所述单字词与邻接词的互信息,将所述互信息满足第一阈值范围的单字词确定为候选单字词;计算候选单字词的左邻接熵以及右邻接熵,根据所述左邻接熵确定所述候选单字词是否与左邻接词合并和/或根据所述右邻接熵确定所述候选单字词是否与右邻接词合并,得到新增目标领域术语;将所述新增目标领域术语以及所述新增目标领域术语对应的类别标签添加到所述目标领域术语词典中。在第一方面的第十种可能的实现方式中,所述目标领域术语词典为医疗领域术语词典,所述目标领域术语为医疗领域术语,所述目标领域分词器为医疗领域分词器,所述目标领域实体列表为医疗领域实体列表,所述目标领域实体知识图谱为医疗领域实体知识图谱。第二方面,提供一种属性信息获取方法,所述方法包括:获取目标文本;利用实体识别模型对所述目标文本进行实体识别得到目标实体,和/或,利用目标领域实体列表对所述目标文本进行实体识别得到目标实体;所述目标领域实体列表是在第一方面、第一方面的第一种可能的实现方式到第一方面的第九种可能的实现方式中任一项所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;在目标领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述目标领域实体知识图谱是根据第一方面、第一方面的本文档来自技高网...

【技术保护点】
1.一种目标领域实体知识图谱建立方法,其特征在于,所述方法包括:/n利用实体识别模型对第二文本进行实体识别,和/或,利用目标领域分词器对第二文本进行实体识别;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;/n将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表;/n获取所述目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性;/n利用所述目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱。/n

【技术特征摘要】
1.一种目标领域实体知识图谱建立方法,其特征在于,所述方法包括:
利用实体识别模型对第二文本进行实体识别,和/或,利用目标领域分词器对第二文本进行实体识别;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;
将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表;
获取所述目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性;
利用所述目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用目标领域分词器对第一文本进行分词得到第一分词结果,所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;
利用所述第一文本以及所述第一分词结果训练得到实体识别模型。


3.根据权利要求1或2所述的方法,其特征在于,所述目标领域术语词典为医疗领域术语词典,所述目标领域术语为医疗领域术语,所述目标领域分词器为医疗领域分词器,所述目标领域实体列表为医疗领域实体列表,所述目标领域实体知识图谱为医疗领域实体知识图谱。


4.一种属性信息获取方法,其特征在于,所述方法包括:
获取目标文本;
利用实体识别模型对所述目标文本进行实体识别得到目标实体,和/或,利用目标领域实体列表对所述目标文本进行实体识别得到目标实体;所述目标领域实体列表是在权利要求1-2任一项所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;
在目标领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述目标领域实体知识图谱是根据权利要求1-2任一项所述的目标领域实体知识图谱建立方法建立的。


5.一种实现门诊分诊的方法,其特征在于,所述方法包括:
获取病历文本;
利用实体识别模型对所述病历文本进行实体识别得到目标实体,和/或,利用医疗领域实体列表对所述病历文本进行实体识别得到目标实体;所述医疗领域实体列表是在权利要求3所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用医疗领域分词器对所述第一文本进行分词得到的;所述医疗领域分词器包括医疗领域术语词典,所述医疗领域术语词典包括医疗领域术语以及所述医疗领域术语对应的实体类别标签;
在医疗领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述医疗领域实体知识图谱是根据权利要求3所述的目标领域实体知识图谱建立方法建立的;
当与所述目标实体具有关联关系的实体和/或所述目标实体对应的相关属性中包括科室实体和/或检查项目信息时,对所述科室实体和/或所述检查项目信息进行输出提示。


6.一种目标领域实体知识图谱建立装置,其特征在于,所述装置包括:
文本实体识别单元,用于利用实体识别模型对第...

【专利技术属性】
技术研发人员:李晓东马鑫付博金文艳
申请(专利权)人:沈阳东软熙康医疗系统有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1